行政区划设置求教~~

凊风 · 发表于 2024-4-12 22:36:06

FishC 发表于 2024-4-12 22:35
好的，我理解你的需求。下面是使用openpyxl库来对指定路径下的XLSX文件进行排序的示例代码：import ope ...

回复请注意Python格式和代码说明。

FishC · 发表于 2024-4-12 22:36:33

凊风发表于 2024-04-12 22:36
回复请注意Python格式和代码说明。

明白了，下面是使用`openpyxl`库来对指定路径下的XLSX文件进行排序的示例代码：

import openpyxl
def sort_xlsx_file(file_path, index_col):
"""
对指定路径下的XLSX文件进行排序
Args:
file_path (str): XLSX文件路径
index_col (int): 索引列（从0开始）
Returns:
None
"""
workbook = openpyxl.load_workbook(file_path)
sheet = workbook.active
data = []
for row in sheet.iter_rows(values_only=True):
data.append(row)
sorted_data = sorted(data, key=lambda x: x[index_col])
for idx, row in enumerate(sorted_data, start=1):
for col_idx, value in enumerate(row, start=1):
sheet.cell(row=idx, column=col_idx).value = value
workbook.save(file_path)
print("文件排序完成！")
# 测试函数
file_path = r'E:\Temp\123.xlsx'
index_col = 0 # 假设第一列是索引列（从0开始）
sort_xlsx_file(file_path, index_col)

复制代码

在这个示例中，我们定义了一个名为`sort_xlsx_file()`的函数，它接受两个参数：`file_path`表示要排序的XLSX文件路径，`index_col`表示要作为索引进行排序的列（从0开始）。

首先，我们加载XLSX文件并选择活动工作表。然后，我们迭代每一行数据并将其保存在一个列表中。接下来，我们使用`sorted()`函数和`key`参数来对数据进行排序，按照指定的索引列进行排序。最后，我们将排序后的数据写回到工作表中，并保存XLSX文件。

请注意，需要提前使用pip安装openpyxl库：`pip install openpyxl`。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

凊风 · 发表于 2024-4-12 22:39:10

FishC 发表于 2024-4-12 22:36
明白了，下面是使用`openpyxl`库来对指定路径下的XLSX文件进行排序的示例代码：

能不能写个函数，对'E:/Temp/行政区划1.xlsx'以“编码”列为索引重新排序一下

要求不要用Pandas,函数要能传文件名和索引列名进去。

FishC · 发表于 2024-4-12 22:39:46

凊风发表于 2024-04-12 22:39
能不能写个函数，对'E:/Temp/行政区划1.xlsx'以“编码 ...

当然可以！下面是一个函数，它接受文件路径和索引列名称作为参数，然后对指定的XLSX文件按照指定的索引列重新排序，不使用Pandas：

import openpyxl
def sort_xlsx_by_index_column(file_path, index_column_name):
"""
对指定路径下的XLSX文件按照指定的索引列重新排序
Args:
file_path (str): XLSX文件路径
index_column_name (str): 索引列名称
Returns:
None
"""
workbook = openpyxl.load_workbook(file_path)
sheet = workbook.active
# 获取索引列的列号
index_col = None
for col_idx, cell in enumerate(sheet.iter_cols(min_row=1, max_row=1, values_only=True), start=1):
if cell[0] == index_column_name:
index_col = col_idx
break
if index_col is None:
print(f"未找到名为'{index_column_name}'的列！")
return
# 读取数据
data = []
for row in sheet.iter_rows(min_row=2, values_only=True):
data.append(row)
# 按索引列排序
sorted_data = sorted(data, key=lambda x: x[index_col - 1])
# 将排序后的数据写回表格
for idx, row in enumerate(sorted_data, start=2):
for col_idx, value in enumerate(row, start=1):
sheet.cell(row=idx, column=col_idx).value = value
workbook.save(file_path)
print("文件排序完成！")
# 测试函数
file_path = r'E:/Temp/行政区划1.xlsx'
index_column_name = "编码" # 指定索引列名称
sort_xlsx_by_index_column(file_path, index_column_name)

复制代码

这个函数首先会在XLSX文件的第一行中找到指定的索引列名称，然后获取该列的列号。接着，它会读取数据并按照索引列进行排序。最后，将排序后的数据写回表格并保存。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

凊风 · 发表于 2024-4-12 23:50:17

FishC 发表于 2024-4-12 22:39
当然可以！下面是一个函数，它接受文件路径和索引列名称作为参数，然后对指定的XLSX文件按照指定的索引 ...

# 数据写入到当前文件夹下 area-number-2020.txt 中
f = open("area-number-2020.txt", "w", encoding="utf-8")

请问这2020.txt 可以指定路径不？

FishC · 发表于 2024-4-12 23:50:29

凊风发表于 2024-04-12 23:50
# 数据写入到当前文件夹下 area-number-2020.txt 中 ...

是的，你可以通过修改文件名来指定路径。可以使用绝对路径或相对路径。下面是一个示例代码，将数据写入到指定路径下的`area-number-2020.txt`文件中：

file_path = r'C:\Users\Username\Documents\area-number-2020.txt' # 指定路径和文件名
with open(file_path, "w", encoding="utf-8") as f:
# 在这里写入数据
f.write("Hello, world!")

复制代码

以上代码中，`file_path`变量指定了完整的文件路径，包括文件名和文件的位置。你需要确保路径的正确性，并将其替换为你自己的路径。

注意，在使用`open`函数时，我们使用了`with`语句，这样可以确保在代码块执行完毕后，文件会被正确关闭。这是一种推荐的文件操作方式，因为它会自动处理文件资源的释放，无需手动调用`close`方法。

希望这能帮助到你！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

凊风 · 发表于 2024-4-13 00:01:30

FishC 发表于 2024-4-12 23:50
是的，你可以通过修改文件名来指定路径。可以使用绝对路径或相对路径。下面是一个示例代码，将数据写入 ...

如果从txt复制数据到xlsx中，又要如何实现呢？

FishC · 发表于 2024-4-13 00:02:10

凊风发表于 2024-04-13 00:01
如果从txt复制数据到xlsx中，又要如何实现呢？

你可以使用Python的pandas库来实现从txt文件复制数据到xlsx文件的操作。首先，你需要将txt文件中的数据读取到pandas的DataFrame中，然后再将DataFrame中的数据写入到xlsx文件中。以下是一个简单的示例代码：

import pandas as pd
# 从txt文件中读取数据到DataFrame
file_path = "your_txt_file_path.txt"
df = pd.read_csv(file_path, sep="\t", header=None) # 假设txt文件中的数据使用制表符分隔
# 将DataFrame中的数据写入到xlsx文件
output_file_path = "output.xlsx"
df.to_excel(output_file_path, index=False, header=False) # 将DataFrame中的数据写入到xlsx文件，不包含索引和列名

复制代码

在这个示例中，你需要将`your_txt_file_path.txt`替换为你的txt文件路径，`output.xlsx`为输出的xlsx文件路径。这段代码首先使用pandas的`read_csv`函数读取txt文件中的数据到DataFrame中，然后使用DataFrame的`to_excel`方法将数据写入到xlsx文件中。希望对你有所帮助！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

凊风 · 发表于 2024-4-13 00:04:24

FishC 发表于 2024-4-13 00:02
你可以使用Python的pandas库来实现从txt文件复制数据到xlsx文件的操作。首先，你需要将txt文件中的数据 ...

我Pandas不能正常安装，能不能不用Pandas?

FishC · 发表于 2024-4-13 00:04:35

凊风发表于 2024-04-13 00:04
我Pandas不能正常安装，能不能不用Pandas?

当然可以！如果你无法成功安装pandas库，你仍然可以使用Python的内置模块来实现将txt文件中的数据复制到xlsx文件的操作。以下是一个使用openpyxl模块的示例代码：from openpyxl import Workbook# 打开txt文件并读取数据file_path = "your_txt_file_path.txt"with open(file_path, 'r') as file: data = file.readlines()# 创建一个新的xlsx工作簿wb = Workbook()sheet = wb.active# 将数据逐行写入xlsx文件for row, line in enumerate(data, start=1): sheet.cell(row=row, column=1).value = line.strip()# 保存xlsx文件output_file_path = "output.xlsx"wb.save(output_file_path)在这个示例中，你需要将`your_txt_file_path.txt`替换为你的txt文件路径，`output.xlsx`为输出的xlsx文件路径。这段代码首先打开txt文件，并逐行读取文件内容到一个列表中。然后，它使用openpyxl模块创建了一个新的xlsx工作簿，并获取工作簿的活动表格。最后，它逐行将数据写入到xlsx文件中。希望对你有所帮助！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

凊风 · 发表于 2024-4-13 00:06:30

FishC 发表于 2024-4-13 00:04
当然可以！如果你无法成功安装pandas库，你仍然可以使用Python的内置模块来实现将txt文件中的数据复制 ...

回复请注意Python格式

FishC · 发表于 2024-4-13 00:06:43

凊风发表于 2024-04-13 00:06
回复请注意Python格式

非常抱歉，以下是经过修改的代码，符合Python的语法规范：

from openpyxl import Workbook
# 打开txt文件并读取数据
file_path = "your_txt_file_path.txt"
with open(file_path, 'r') as file:
data = file.readlines()
# 创建一个新的xlsx工作簿
wb = Workbook()
sheet = wb.active
# 将数据逐行写入xlsx文件
for row, line in enumerate(data, start=1):
sheet.cell(row=row, column=1).value = line.strip()
# 保存xlsx文件
output_file_path = "output.xlsx"
wb.save(output_file_path)

复制代码

在这个示例中，你需要将`your_txt_file_path.txt`替换为你的txt文件路径，`output.xlsx`为输出的xlsx文件路径。这段代码首先打开txt文件，并逐行读取文件内容到一个列表中。然后，它使用openpyxl模块创建了一个新的xlsx工作簿，并获取工作簿的活动表格。最后，它逐行将数据写入到xlsx文件中。希望对你有所帮助！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

凊风 · 发表于 2024-4-13 00:08:41

FishC 发表于 2024-4-13 00:06
非常抱歉，以下是经过修改的代码，符合Python的语法规范：

能不能写成一个带路径和文件名参数的函数？

FishC · 发表于 2024-4-13 00:08:55

凊风发表于 2024-04-13 00:08
能不能写成一个带参数的函数？

当然可以！以下是一个将txt文件转换为xlsx文件的函数：from openpyxl import Workbookdef txt_to_xlsx(txt_file, xlsx_file): # 打开txt文件并读取数据 with open(txt_file, 'r') as file: data = file.readlines() # 创建一个新的xlsx工作簿 wb = Workbook() sheet = wb.active # 将数据逐行写入xlsx文件 for row, line in enumerate(data, start=1): sheet.cell(row=row, column=1).value = line.strip() # 保存xlsx文件 wb.save(xlsx_file)调用这个函数时，你需要提供两个参数：`txt_file`是txt文件的路径，`xlsx_file`是输出的xlsx文件路径。以下是示例代码：txt_file_path = "your_txt_file_path.txt"xlsx_file_path = "output.xlsx"txt_to_xlsx(txt_file_path, xlsx_file_path)请确保将`your_txt_file_path.txt`替换为你的txt文件路径，`output.xlsx`为输出的xlsx文件路径。这个函数将会读取txt文件并将其转换为xlsx文件。希望对你有所帮助！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

凊风 · 发表于 2024-4-13 00:10:26

FishC 发表于 2024-4-13 00:08
当然可以！以下是一个将txt文件转换为xlsx文件的函数：from openpyxl import Workbookdef txt_to_xlsx( ...

回复请注意Python格式

FishC · 发表于 2024-4-13 00:10:54

凊风发表于 2024-04-13 00:10
回复请注意Python格式

非常抱歉，以下是Python格式的函数，将txt文件转换为xlsx文件：

from openpyxl import Workbook
def txt_to_xlsx(txt_file, xlsx_file):
# 打开txt文件并读取数据
with open(txt_file, 'r') as file:
data = file.readlines()
# 创建一个新的xlsx工作簿
wb = Workbook()
sheet = wb.active
# 将数据逐行写入xlsx文件
for row, line in enumerate(data, start=1):
sheet.cell(row=row, column=1).value = line.strip()
# 保存xlsx文件
wb.save(xlsx_file)

复制代码

调用这个函数时，你需要提供两个参数：`txt_file`是txt文件的路径，`xlsx_file`是输出的xlsx文件路径。以下是示例代码：

txt_file_path = "your_txt_file_path.txt"
xlsx_file_path = "output.xlsx"
txt_to_xlsx(txt_file_path, xlsx_file_path)

复制代码

请确保将`your_txt_file_path.txt`替换为你的txt文件路径，`output.xlsx`为输出的xlsx文件路径。这个函数将会读取txt文件并将其转换为xlsx文件。希望对你有所帮助！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

凊风 · 发表于 2024-4-13 07:06:25

FishC 发表于 2024-4-13 00:10
非常抱歉，以下是Python格式的函数，将txt文件转换为xlsx文件：

现有代码如下：
请问能不能实现把爬取的内容分成“级别"、"区划代码" 和"名称"三列存入"E:\Temp\区划代码.xlsx"中？

# -*-coding:utf-8-*-
import requests
from bs4 import BeautifulSoup

# 根据地址获取页面内容，并返回BeautifulSoup
def get_html(url):
# 若页面打开失败，则无限重试，没有后退可言
while True:
      try:
         # 超时时间为1秒
         response = requests.get(url, timeout=1)
         response.encoding = "GBK"
         if response.status_code == 200:
            return BeautifulSoup(response.text, "lxml")
         else:
            continue
      except Exception:
         continue

# 获取地址前缀（用于相对地址）
def get_prefix(url):
return url[0:url.rindex("/") + 1]

# 递归抓取下一页面
def spider_next(url, lev):
if lev == 2:
      spider_class = "city"
elif lev == 3:
      spider_class = "county"
elif lev == 4:
      spider_class = "town"
else:
      spider_class = "village"

for item in get_html(url).select("tr." + spider_class + "tr"):
      item_td = item.select("td")
      item_td_code = item_td[0].select_one("a")
      item_td_name = item_td[1].select_one("a")
      if item_td_code is None:
         item_href = None
         item_code = item_td[0].text
         item_name = item_td[1].text
         if lev == 5:
            item_name = item_td[2].text
      else:
         item_href = item_td_code.get("href")
         item_code = item_td_code.text
         item_name = item_td_name.text
      # 输出：级别、区划代码、名称
      content2 = str(lev) + "\t" + item_code + "\t" + item_name
      print(content2)
      f.write(content2 + "\n")
      if item_href is not None:
         spider_next(get_prefix(url) + item_href, lev + 1)

# 入口
if __name__ == '__main__':

# 抓取省份页面
province_url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/index.html"
province_list = get_html(province_url).select('tr.provincetr a')

# 数据写入到当前文件夹下 area-number-2020.txt 中
f = open("area-number-2020.txt", "w", encoding="utf-8")
try:
      for province in province_list:
         href = province.get("href")
         province_code = href[0: 2] + "0000000000"
         province_name = province.text
         # 输出：级别、区划代码、名称
         content = "1\t" + province_code + "\t" + province_name
         print(content)
         f.write(content + "\n")
         spider_next(get_prefix(province_url) + href, 2)
finally:
      f.close()

FishC · 发表于 2024-4-13 07:06:38

凊风发表于 2024-04-13 07:06
现有代码如下：
请问能不能实现把爬取的内容分成“级 ...

可以实现将爬取的内容分成"级别"、"区划代码"和"名称"三列存入"E:\Temp\区划代码.xlsx"中。你需要使用openpyxl库来处理Excel文件，将数据写入Excel表格中。以下是修改后的代码示例：# -*-coding:utf-8-*-import requestsfrom bs4 import BeautifulSoupfrom openpyxl import Workbookdef get_html(url): while True: try: response = requests.get(url, timeout=1) response.encoding = "GBK" if response.status_code == 200: return BeautifulSoup(response.text, "lxml") else: continue except Exception: continuedef get_prefix(url): return urldef spider_next(url, lev, sheet): if lev == 2: spider_class = "city" elif lev == 3: spider_class = "county" elif lev == 4: spider_class = "town" else: spider_class = "village" for item in get_html(url).select("tr." + spider_class + "tr"): item_td = item.select("td") item_td_code = item_td.select_one("a") item_td_name = item_td.select_one("a") if item_td_code is None: item_href = None item_code = item_td.text item_name = item_td.text if lev == 5: item_name = item_td.text else: item_href = item_td_code.get("href") item_code = item_td_code.text item_name = item_td_name.text content2 = [lev, item_code, item_name] sheet.append(content2) if item_href is not None: spider_next(get_prefix(url) + item_href, lev + 1, sheet)if __name__ == '__main__': province_url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/index.html" province_list = get_html(province_url).select('tr.provincetr a') wb = Workbook() sheet = wb.active sheet.title = "行政区划" # 写入表头 sheet["A1"] = "级别" sheet["B1"] = "区划代码" sheet["C1"] = "名称" for index, province in enumerate(province_list, start=2): href = province.get("href") province_code = href + "0000000000" province_name = province.text content = [1, province_code, province_name] sheet.append(content) spider_next(get_prefix(province_url) + href, 2, sheet) # 保存xlsx文件 wb.save(r'E:\Temp\区划代码.xlsx')在这个示例中，我添加了openpyxl的导入语句，并创建了一个工作簿（Workbook）。然后，将数据写入Excel表格的每一行中。最后，使用`wb.save()`方法将工作簿保存为指定的xlsx文件。请确保将文件路径`E:\Temp\区划代码.xlsx`替换为你希望保存的路径。希望对你有所帮助！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

凊风 · 发表于 2024-4-13 07:07:11

FishC 发表于 2024-4-13 07:06
可以实现将爬取的内容分成"级别"、"区划代码"和"名称"三列存入"E:\Temp\区划代码.xlsx"中。你需要使用o ...

回复请注意Python格式和代码说明。

FishC · 发表于 2024-4-13 07:07:32

凊风发表于 2024-04-13 07:07
回复请注意Python格式和代码说明。

非常抱歉，下面是修改后的代码，修正了格式和添加了代码说明：

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
# 根据地址获取页面内容，并返回BeautifulSoup
def get_html(url):
# 若页面打开失败，则无限重试，没有后退可言
while True:
try:
# 超时时间为1秒
response = requests.get(url, timeout=1)
response.encoding = "GBK"
if response.status_code == 200:
return BeautifulSoup(response.text, "lxml")
else:
continue
except Exception:
continue
# 获取地址前缀（用于相对地址）
def get_prefix(url):
return url
# 递归抓取下一页面
def spider_next(url, lev, sheet):
if lev == 2:
spider_class = "city"
elif lev == 3:
spider_class = "county"
elif lev == 4:
spider_class = "town"
else:
spider_class = "village"
for item in get_html(url).select("tr." + spider_class + "tr"):
item_td = item.select("td")
item_td_code = item_td.select_one("a")
item_td_name = item_td.select_one("a")
if item_td_code is None:
item_href = None
item_code = item_td.text
item_name = item_td.text
if lev == 5:
item_name = item_td.text
else:
item_href = item_td_code.get("href")
item_code = item_td_code.text
item_name = item_td_name.text
# 输出：级别、区划代码、名称
content2 = f"{lev}\t{item_code}\t{item_name}"
print(content2)
sheet.append([lev, item_code, item_name])
if item_href is not None:
spider_next(get_prefix(url) + item_href, lev + 1, sheet)
if __name__ == '__main__':
province_url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/index.html"
province_list = get_html(province_url).select('tr.provincetr a')
wb = Workbook()
sheet = wb.active
sheet.title = "行政区划"
# 写入表头
sheet.append(["级别", "区划代码", "名称"])
for index, province in enumerate(province_list, start=2):
href = province.get("href")
province_code = href + "0000000000"
province_name = province.text
content = f"1\t{province_code}\t{province_name}"
print(content)
sheet.append([1, province_code, province_name])
spider_next(get_prefix(province_url) + href, 2, sheet)
# 保存xlsx文件
wb.save(r'E:\Temp\区划代码.xlsx')

复制代码

这次修正后的代码使用了更符合PEP8规范的代码格式，同时添加了注释来解释每个代码段的功能。希望这次能满足你的要求！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册

行政区划设置求教~~

浏览过的版块