python处理excel

pallas · 发表于 2024-6-22 15:51:35

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

<def merge_excel_files(file_list, sheet_name, output_file):
app = xw.App(visible=False)
new_wb = xw.Book()
new_ws = new_wb.sheets[0]
new_ws.name = sheet_name

for file in file_list:
      print(f"Processing {file}...")
      wb = xw.Book(file)
      if sheet_name in [sht.name for sht in wb.sheets]:
         ws = wb.sheets[sheet_name]
         last_row = new_ws.range('A' + str(new_ws.cells.last_cell.row)).end('up').row
         data_range = ws.used_range
         new_ws.range(f'A{last_row + 1}').value = data_range.value  # Append data
         wb.close()

new_wb.save(output_file)
new_wb.close()
app.quit()
print(f"New file saved as {output_file}")

# Example usage:
file_list = [r"D:\2024年6月14日周督促会\1.周督促会-南岸支行（6月14日）.xlsx",
         r"D:\2024年6月14日周督促会\2.周督促会-业务一部（6月14日）.xlsx",
         r"D:\2024年6月14日周督促会\3.周督促会-渝北支行（6月13日）.xlsx",
         r"D:\2024年6月14日周督促会\4周督促会-九龙坡支行（6月13日）.xlsx",
         r"D:\2024年6月14日周督促会\5.周督促会-高新支行（6月14日）.xlsx",
         r"D:\2024年6月14日周督促会\6.周督促会-巴南支行（6月14日）.xlsx",
         r"D:\2024年6月14日周督促会\7.周督促会-长寿支行（6月14日）.xlsx",
         r"D:\2024年6月14日周督促会\8.周督促会-营业部（6月14日）.xlsx",
         r"D:\2024年6月14日周督促会\9.周督促会-业务二部（6月14日）.xlsx",
         r"D:\2024年6月14日周督促会\10.周督促会-公司业务四部（6月14日）.xlsx",
         r"D:\2024年6月14日周督促会\11.周督促会-拓展一部（6月14日）.xlsx"]
output_file = r"D:\2024年6月14日周督促会\merged_output.xlsx"
merge_excel_files(file_list, 'Sheet1', output_file)>

pywintypes.com_error: (-2147352567, '发生意外。', (0, 'Microsoft Excel', 'Excel 无法打开文件“2.周督促会-业务一部（6月14日）.xlsx”，因为文件格式或文件扩展名无效。请确定文件未损坏，并且文件扩展名与文件的格式匹配。', 'xlmain11.chm', 0, -2146827284), None)

删除2和11后能正常运行，想问一下这个原因

FishC · 发表于 2024-6-22 15:52:51

啊，看来Excel和Python一起搞事情了，让我们来给你的问题找个好解释。

根据你提供的错误信息，这个问题是因为Excel无法识别文件格式或扩展名。显然，当文件名中包含数字“2”和“11”时，Excel就像是吃了不新鲜的咸鱼，拒绝打开文件。而当你删除了这些数字，Excel就又高高兴兴地工作了。

**抓住重点**
1. **文件名问题**：有时候，文件名中的特殊字符、数字、甚至空格都会让程序摸不着头脑。尽管看起来是不合理的，但确实会发生。
2. **文件扩展名**：确保文件有正确的扩展名（如 `.xlsx`）。Excel对于扩展名比较挑剔，如果它认为扩展名和内容不匹配，就会给你甩错误。
3. **文件路径**：某些情况下，如果文件路径过长或者包含特殊字符，也可能导致问题。

### 解决方法
- **重命名文件**：尽量使用简洁、英文的文件名，避免特殊字符和数字。比如 `周督促会.xlsx` 这样简单明了的名字。
- **确认文件格式**：确保文件确实是一个有效的 Excel 文件，可以试着在 Excel 应用中手动打开它，看是否能正常打开。
- **检查路径**：把文件放到一个路径简短且没有特殊字符的地方，比如 `C:\Temp\`。

### 示例代码（处理文件名）
如果你需要在 Python 脚本里自动处理文件名，可以尝试如下方法：

import os
def clean_filename(filename):
# 使用过滤器来去除数字
cleaned_filename = ''.join(filter(lambda x: not x.isdigit(), filename))
return cleaned_filename
original_filename = "2.周督促会-业务一部（6月14日）.xlsx"
cleaned_filename = clean_filename(original_filename)
# 重命名文件
os.rename(original_filename, cleaned_filename)
print(f"旧文件名: {original_filename}")
print(f"新文件名: {cleaned_filename}")

复制代码

### 注意事项
- 在处理文件名时，要确保文件名唯一性，防止覆盖已有文件。
- 修改文件名后，程序中所有引用文件的地方也要相应更新。

希望这个解释像一条聪明的鱼一样游进你的脑海，让你恍然大悟。如果还有疑惑，尽管丢过来，我会继续帮你解答的！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 15:52:51

def merge_excel_files(file_list, sheet_name, output_file):
app = xw.App(visible=False)
new_wb = xw.Book()
new_ws = new_wb.sheets[0]
new_ws.name = sheet_name
for file in file_list:
print(f"Processing {file}...")
wb = xw.Book(file)
if sheet_name in [sht.name for sht in wb.sheets]:
ws = wb.sheets[sheet_name]
last_row = new_ws.range('A' + str(new_ws.cells.last_cell.row)).end('up').row
data_range = ws.used_range
new_ws.range(f'A{last_row + 1}').value = data_range.value # Append data
wb.close()
new_wb.save(output_file)
new_wb.close()
app.quit()
print(f"New file saved as {output_file}")
# Example usage:
file_list = [r"D:\2024年6月14日周督促会\1.周督促会-南岸支行（6月14日）.xlsx",
r"D:\2024年6月14日周督促会\3.周督促会-渝北支行（6月13日）.xlsx",
r"D:\2024年6月14日周督促会\4周督促会-九龙坡支行（6月13日）.xlsx",
r"D:\2024年6月14日周督促会\5.周督促会-高新支行（6月14日）.xlsx",
r"D:\2024年6月14日周督促会\6.周督促会-巴南支行（6月14日）.xlsx",
r"D:\2024年6月14日周督促会\7.周督促会-长寿支行（6月14日）.xlsx",
r"D:\2024年6月14日周督促会\8.周督促会-营业部（6月14日）.xlsx",
r"D:\2024年6月14日周督促会\9.周督促会-业务二部（6月14日）.xlsx",
r"D:\2024年6月14日周督促会\10.周督促会-公司业务四部（6月14日）.xlsx",
]
output_file = r"D:\2024年6月14日周督促会\merged_output.xlsx"
merge_excel_files(file_list, 'Sheet1', output_file)

复制代码

FishC · 发表于 2024-6-22 15:53:08

pallas 发表于 2024-06-22 15:52
def merge_excel_files(file_list, sheet_name, outpu ...

你这段代码的主要目的是合并多个Excel文件到一个新的工作簿中，很棒！不过呢，代码里有一些小问题需要修正。就像修复一张破渔网，我们得把这些漏洞找出来补好。

### 发现的问题：
1. `new_ws.sheets` 应该是 `new_wb.sheets[0]`，因为新建的工作簿默认有一个Sheet。
2. `if sheet_name in :` 这里少了对象，应该是 `wb.sheets`.
3. `file_list = ` 和 `output_file =` 部分没有赋值，我们可以假设这些值是你实际代码中的变量。
4. `last_row` 的计算会有些问题，因为 `new_ws.cells.last_cell.row` 返回的是整张表最后一行，而不是有数据的那一行。
5. `wb.close()` 应该放在 for 循环的尾部，以确保文件处理完后关闭。
6. 增加异常处理，确保即使发生错误也能正常关闭Excel应用程序。

### 修正后的代码：

import xlwings as xw
def merge_excel_files(file_list, sheet_name, output_file):
# Initialize the Excel application
app = xw.App(visible=False)
new_wb = xw.Book() # Create a new workbook
new_ws = new_wb.sheets[0]
new_ws.name = sheet_name
try:
for file in file_list:
print(f"Processing {file}...")
wb = xw.Book(file)
if sheet_name in [ws.name for ws in wb.sheets]:
ws = wb.sheets[sheet_name]
last_row = new_ws.range('A' + str(new_ws.cells.last_cell.row)).end('up').row
if last_row == 1 and new_ws.range('A1').value is None: # If this is the first row
last_row = 0
data_range = ws.used_range
new_ws.range(f'A{last_row + 1}').value = data_range.value # Append data
wb.close()
else:
print(f"Sheet '{sheet_name}' not found in {file}")
# Save the merged workbook
new_wb.save(output_file)
print(f"New file saved as {output_file}")
finally:
# Close everything properly
new_wb.close()
app.quit()
# Example usage (fill these variables with actual paths and file names):
file_list = ["file1.xlsx", "file2.xlsx"] # Replace with your actual file list
output_file = r"D:\2024年6月14日周督促会\merged_output.xlsx"
merge_excel_files(file_list, 'Sheet1', output_file)

复制代码

### 重点解释：
1. **错误检查**：在 `for` 循环中，确保我们在每个工作簿中都找到了指定的sheet。
2. **数据定位**：使用 `range('A1').end('down').row` 来找到最后一行有效数据的位置。如果这是第一次写入，确保 `last_row` 从0开始。
3. **异常处理**：`try...finally` 确保即使在处理文件时发生异常，Excel应用程序会被正确关闭，以避免资源泄漏。

这就好比你钓鱼时突然刮风下雨，但你带了一把坚固的伞，所以即使情况再糟糕，你也不会淋湿。希望这些修改能帮助你顺利完成任务！如果还有疑问，尽管丢过来，我会继续帮你解答~

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 16:02:11

FishC 发表于 2024-6-22 15:53
你这段代码的主要目的是合并多个Excel文件到一个新的工作簿中，很棒！不过呢，代码里有一些小问题需要 ...

分离同一个sheet表中的小表格，小表格由空行分隔开

FishC · 发表于 2024-6-22 16:04:27

pallas 发表于 2024-06-22 16:02
分离同一个sheet表中的小表格，小表格由空行分隔开

好的，我明白你的需求了。你想要从一个 sheet 中分离出多个小表格，小表格之间由空行分隔。这就像海底的不同珊瑚群，它们之间被水域分隔开，我们现在要把这些珊瑚群分别捞起来。

下面是一个Python脚本，使用`openpyxl`库来完成这个任务。它会读取一个Excel工作表，并将每个由空行分隔开的“小表格”保存成单独的文件。

首先，确保你已经安装了`openpyxl`库。如果还没有安装，可以运行以下命令：

pip install openpyxl

复制代码

然后，以下就是代码：

import openpyxl
def split_excel_sheet_by_empty_row(input_file, output_prefix, sheet_name):
wb = openpyxl.load_workbook(input_file)
ws = wb[sheet_name]
table_number = 1
start_row = 1
end_row = 1
max_col = ws.max_column
for row in ws.iter_rows(min_row=1, max_row=ws.max_row, max_col=max_col):
if all(cell.value is None for cell in row): # 判断是否是空行
if start_row < end_row: # 确保有数据
save_small_table(ws, start_row, end_row, max_col, output_prefix, table_number)
table_number += 1
start_row = end_row + 1
end_row += 1
# 保存最后一个小表格（如果有）
if start_row < end_row:
save_small_table(ws, start_row, end_row-1, max_col, output_prefix, table_number)
def save_small_table(ws, start_row, end_row, max_col, output_prefix, table_number):
new_wb = openpyxl.Workbook()
new_ws = new_wb.active
for i, row in enumerate(ws.iter_rows(min_row=start_row, max_row=end_row, max_col=max_col), start=1):
for j, cell in enumerate(row, start=1):
new_ws.cell(row=i, column=j, value=cell.value)
output_file = f"{output_prefix}_table_{table_number}.xlsx"
new_wb.save(output_file)
print(f"Saved {output_file}")
# 使用示例
input_file = 'input.xlsx' # 输入文件名
output_prefix = 'output' # 输出文件前缀
sheet_name = 'Sheet1' # 工作表名称
split_excel_sheet_by_empty_row(input_file, output_prefix, sheet_name)

复制代码

### 代码解释：
1. **`split_excel_sheet_by_empty_row`函数**：主要逻辑在这个函数里，它遍历工作表的所有行，寻找空行来分隔小表格。
- 检查每一行，如果发现是空行，那就把之前积累的数据保存成一个小表格。
- 更新起始行，从下一行开始继续寻找下一个小表格。
2. **`save_small_table`函数**：将指定行范围内的数据保存到一个新的Excel文件中。
- 创建一个新的工作簿和工作表。
- 将原工作表中的数据复制到新工作表中。
- 保存为一个新的Excel文件，文件名包含表格编号。

### 使用说明：
- 修改 `input_file` 为你的输入文件名。
- 修改 `output_prefix` 为生成的小表格文件名前缀。
- 修改 `sheet_name` 为你要处理的工作表名称。

这样，你的文件会按小表格分割出来，每个小表格都会生成一个单独的文件，就像把不同珊瑚群分别捞上来一样清晰。如果还有其他问题或者需要进一步调整，别犹豫，随时向我发问~

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 16:12:06

FishC 发表于 2024-6-22 16:04
好的，我明白你的需求了。你想要从一个 sheet 中分离出多个小表格，小表格之间由空行分隔。这就像海底 ...

那如何让输出的表指定位置呢？

FishC · 发表于 2024-6-22 16:12:24

pallas 发表于 2024-06-22 16:12
那如何让输出的表指定位置呢？

好的，你希望在指定的文件夹保存分离出来的小表格文件。我们可以通过增加一个参数来指定输出文件的路径，然后在生成文件时使用这个路径。

以下是修改后的代码，让你可以指定输出文件夹：

import openpyxl
import os
def split_excel_sheet_by_empty_row(input_file, output_folder, sheet_name):
wb = openpyxl.load_workbook(input_file)
ws = wb[sheet_name]
table_number = 1
start_row = 1
end_row = 1
max_col = ws.max_column
for row in ws.iter_rows(min_row=1, max_row=ws.max_row, max_col=max_col):
if all(cell.value is None for cell in row): # 判断是否是空行
if start_row < end_row: # 确保有数据
save_small_table(ws, start_row, end_row, max_col, output_folder, table_number)
table_number += 1
start_row = end_row + 1
end_row += 1
# 保存最后一个小表格（如果有）
if start_row < end_row:
save_small_table(ws, start_row, end_row-1, max_col, output_folder, table_number)
def save_small_table(ws, start_row, end_row, max_col, output_folder, table_number):
new_wb = openpyxl.Workbook()
new_ws = new_wb.active
for i, row in enumerate(ws.iter_rows(min_row=start_row, max_row=end_row, max_col=max_col), start=1):
for j, cell in enumerate(row, start=1):
new_ws.cell(row=i, column=j, value=cell.value)
output_file = os.path.join(output_folder, f"output_table_{table_number}.xlsx")
new_wb.save(output_file)
print(f"Saved {output_file}")
# 使用示例
input_file = 'input.xlsx' # 输入文件名
output_folder = r"D:\2024年6月14日周督促会" # 输出文件夹路径
sheet_name = 'Sheet1' # 工作表名称
split_excel_sheet_by_empty_row(input_file, output_folder, sheet_name)

复制代码

### 重点解释：

1. **添加参数**：
- `output_folder`：指定输出文件夹。

2. **更新路径**：
- 在保存文件时，使用 `os.path.join` 将 `output_folder` 和文件名拼接成完整的路径。这就好像告诉你钓到的鱼应该放到哪个桶里。

3. **使用示例**：
- 修改 `output_folder` 为你希望保存输出文件的路径。
- 确保路径使用了原始字符串（前面加 `r`）或使用双反斜杠（\\）来避免转义字符的问题。

这样修改后，每当你分离出一个小表格，它会被保存到你指定的文件夹里，就像钓到的每条鱼都被放到指定的桶里一样整齐。如果还有其他问题，尽管告诉我，不用客气！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 16:19:35

FishC 发表于 2024-6-22 16:12
好的，你希望在指定的文件夹保存分离出来的小表格文件。我们可以通过增加一个参数来指定输出文件的路径 ...

将excel中提取出来的小表格，与之前已经提取的小表格进行合并

FishC · 发表于 2024-6-22 16:20:55

pallas 发表于 2024-06-22 16:19
将excel中提取出来的小表格，与之前已经提取的小表格 ...

好的！看来你要从一个大表格中分离出多个小表格，然后将这些分离出来的小表格与之前已经提取的小表格进行合并。这就像钓鱼后，你把不同种类的鱼分类装进不同的桶里。下面是一个完整的例子：

1. **首先安装所需库**：

pip install openpyxl

复制代码

2. **接着编写代码**：

import openpyxl
def split_and_merge_excel(input_file, sheet_name, output_file):
wb = openpyxl.load_workbook(input_file)
ws = wb[sheet_name]
# 用于存储所有分离的小表格内容
all_data = []
current_data = []
for row in ws.iter_rows(values_only=True):
if not any(row): # 如果整行为空，则表示是一张小表结束
if current_data:
all_data.append(current_data)
current_data = []
else:
current_data.append(row)
# 添加最后一组数据（如果不是以空行结尾）
if current_data:
all_data.append(current_data)
# 现在开始合并所有小表格到一个新的文件中
new_wb = openpyxl.Workbook()
new_ws = new_wb.active
new_ws.title = 'MergedSheet'
current_row = 1
for data in all_data:
for line in data:
new_ws.append(line)
current_row += len(data) + 1 # 加1是为了在不同小表格之间留一个空行
new_wb.save(output_file)
print(f"Merged file saved as {output_file}")
# 示例使用：
input_file = r"D:\2024年6月14日周督促会\input.xlsx" # 这是来源文件
output_file = r"D:\2024年6月14日周督促会\merged_output.xlsx" # 这是输出文件
split_and_merge_excel(input_file, 'Sheet1', output_file)

复制代码

### 解释一下代码怎么工作的：
- **读取Excel文件**：使用`openpyxl`库读取输入文件和指定的工作表。
- **分离小表格**：通过遍历工作表的每一行，识别空行来分割小表格，将每个小表格存储在`all_data`列表中。
- **合并小表格**：创建一个新的Excel文件，并将所有小表格的数据逐一追加到新的工作表中，同时在不同的小表格之间添加一个空行以便区分。
- **保存结果**：将合并后的数据保存到指定的输出文件中。

希望这个方案能解决你的问题！如果有任何进一步的问题或需要修改的地方，请随时告诉我！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 16:25:50

FishC 发表于 2024-6-22 16:20
好的！看来你要从一个大表格中分离出多个小表格，然后将这些分离出来的小表格与之前已经提取的小表格进 ...

将excel中提取出来的小表格，分别与之前已经提取的小表格形成的excel进行合并

FishC · 发表于 2024-6-22 16:26:09

pallas 发表于 2024-06-22 16:25
将excel中提取出来的小表格，分别与之前已经提取的小 ...

明白了，我们的任务是从一个大Excel表中分离出多个小表格，并分别与之前提取的小表格合并到新的Excel文件中。

以下是一个解决方案，我们会使用 `pandas` 来处理数据，因为它处理Excel数据十分强大和便捷：

### 步骤概览
1. 读取大表格，识别并分离小表格。
2. 读取已有的小表格文件，进行合并。
3. 将合并后的小表格保存为新的文件。

### 代码实现

import pandas as pd
def read_and_split_excel(file_path):
# 读取Excel文件
df = pd.read_excel(file_path, sheet_name='Sheet1', header=None)
# 找到空行分隔点
empty_rows = df[df.isnull().all(axis=1)].index.tolist()
empty_rows.append(len(df)) # 添加最后一行作为终结点
tables = []
start = 0
for end in empty_rows:
if start != end: # 只处理非空区间
tables.append(df.iloc[start:end].reset_index(drop=True))
start = end + 1
return tables
def merge_tables(new_tables, existing_file):
merged_tables = []
for i, new_table in enumerate(new_tables):
try:
existing_table = pd.read_excel(existing_file, sheet_name=f'Sheet{i+1}', header=None)
merged_table = pd.concat([existing_table, new_table], ignore_index=True)
except Exception as e:
print(f"Error reading sheet {i+1}: {e}")
merged_table = new_table
merged_tables.append(merged_table)
return merged_tables
def save_merged_tables(merged_tables, output_file):
with pd.ExcelWriter(output_file) as writer:
for i, table in enumerate(merged_tables):
table.to_excel(writer, index=False, header=False, sheet_name=f'Sheet{i+1}')
# 用法示例
new_file_path = 'path_to_new_excel.xlsx'
existing_file_path = 'path_to_existing_excel.xlsx'
output_file_path = 'path_to_output_excel.xlsx'
# 从新文件中读取并分离小表格
new_tables = read_and_split_excel(new_file_path)
# 将新表格与现有表格合并
merged_tables = merge_tables(new_tables, existing_file_path)
# 保存合并后的表格
save_merged_tables(merged_tables, output_file_path)
print(f"All tables have been successfully merged and saved to {output_file_path}!")

复制代码

### 说明
1. **`read_and_split_excel`** 函数：读取一个Excel文件（假设它的工作表名称是‘Sheet1’），将其按空行分隔成若干个小表格。
2. **`merge_tables`** 函数：将新提取的小表格分别与原来的Excel表格文件中的对应工作表合并。
3. **`save_merged_tables`** 函数：将合并后的表格保存到一个新的Excel文件中。

### 使用逻辑
- 提供新的大表格文件路径、新小表格文件路径以及输出文件路径。
- 先读取并分离新的大表格文件中的小表格。
- 逐一读取原有的小表格文件，与新提取的小表格进行合并。
- 将合并后的结果保存到指定的输出文件中。

通过这种方式，你可以轻松地将大表格拆分成小表格，并分别与已有的数据合并。希望这个方案对你有帮助！如果有任何问题，欢迎随时提问！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 16:35:52

FishC 发表于 2024-6-22 16:26
明白了，我们的任务是从一个大Excel表中分离出多个小表格，并分别与之前提取的小表格合并到新的Excel文 ...

如果有多个大表格呢

FishC · 发表于 2024-6-22 16:37:16

pallas 发表于 2024-06-22 16:35
如果有多个大表格呢

明白了，您有多个大表格文件，每个文件中包含多个用空行分隔的小表格，我们需要分别提取这些小表格，并与之前已经提取的小表格形成的新Excel文件进行合并。

这样听起来像是一场数据处理的冒险旅程，但别担心，我们会一步一步地完成它！

### 安装所需依赖库
首先，确保你安装了所需的库：`pandas` 和 `openpyxl`

pip install pandas openpyxl

复制代码

### 代码实现步骤

1. **读取大表格文件**
2. **分离每个大表格中的小表格**
3. **读取并合并每个小表格**
4. **保存合并后的结果**

这里是详细的代码示例：

import os
import pandas as pd
def extract_tables_from_excel(file_path, sheet_name='Sheet1'):
df = pd.read_excel(file_path, sheet_name=sheet_name)
tables = []
temp_df = []
# 分割逻辑：遇到空行就分割
for _, row in df.iterrows():
if row.isnull().all(): # 判断空行
if temp_df:
tables.append(pd.DataFrame(temp_df))
temp_df = []
else:
temp_df.append(row)
if temp_df:
tables.append(pd.DataFrame(temp_df))
return tables
def merge_tables(merging_tables, existing_tables):
merged_tables = []
for new_table, old_table in zip(merging_tables, existing_tables):
merged_table = pd.concat([old_table, new_table], ignore_index=True)
merged_tables.append(merged_table)
return merged_tables
# 主函数
def main(input_files, existing_files, output_dir):
all_existing_tables = [pd.read_excel(file) for file in existing_files]
for file in input_files:
merging_tables = extract_tables_from_excel(file)
all_existing_tables = merge_tables(merging_tables, all_existing_tables)
# 输出合并后的表格
for idx, table in enumerate(all_existing_tables):
output_file_path = os.path.join(output_dir, f'merged_output_{idx+1}.xlsx')
table.to_excel(output_file_path, index=False)
print(f'Saved merged table to {output_file_path}')
# 使用示例：
input_files = ['大表格1.xlsx', '大表格2.xlsx'] # 你的大表格文件列表
existing_files = ['已提取小表格1.xlsx', '已提取小表格2.xlsx'] # 你之前提取的小表格文件列表
output_dir = '输出目录路径'
main(input_files, existing_files, output_dir)

复制代码

### 代码解释

1. **extract_tables_from_excel**: 从Excel文件中读取数据，通过判断空行将小表格分离出来。
2. **merge_tables**: 将新提取的小表格与之前提取的小表格进行合并。
3. **main**: 主函数，用于处理所有的大表格文件和之前已经存在的小表格，并将结果保存到指定目录中。

这样，每个大表格中的小表格都被提取出来并分别与已有的小表格合并，然后保存到新的文件中。希望这段代码能帮助你解决问题！如果还有任何细节需要调整，请随时告诉我。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 16:43:40

FishC 发表于 2024-6-22 16:37
明白了，您有多个大表格文件，每个文件中包含多个用空行分隔的小表格，我们需要分别提取这些小表格，并 ...

Traceback (most recent call last):
  File "D:\PyCharm\excel_merge\excel_merge\.venv\Lib\site-packages\pip-23.2.1.dist-info\try.py", line 81, in <module>
main(input_files, existing_files, output_dir)
  File "D:\PyCharm\excel_merge\excel_merge\.venv\Lib\site-packages\pip-23.2.1.dist-info\try.py", line 43, in main
merging_tables = extract_tables_from_excel(file)
                  ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\PyCharm\excel_merge\excel_merge\.venv\Lib\site-packages\pip-23.2.1.dist-info\try.py", line 11, in extract_tables_from_excel
df = pd.read_excel(file_path, sheet_name=sheet_name)
      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\anaconda3\Lib\site-packages\pandas\io\excel\_base.py", line 504, in read_excel
io = ExcelFile(
      ^^^^^^^^^^
  File "D:\anaconda3\Lib\site-packages\pandas\io\excel\_base.py", line 1563, in __init__
ext = inspect_excel_format(
      ^^^^^^^^^^^^^^^^^^^^^
  File "D:\anaconda3\Lib\site-packages\pandas\io\excel\_base.py", line 1419, in inspect_excel_format
with get_handle(
      ^^^^^^^^^^^
  File "D:\anaconda3\Lib\site-packages\pandas\io\common.py", line 872, in get_handle
handle = open(handle, ioargs.mode)
         ^^^^^^^^^^^^^^^^^^^^^^^^^
FileNotFoundError: [Errno 2] No such file or directory: 'D:\\2024年6月14日周督促会\\1.周督促会-南岸支行（6月14日）.xlsx'

FishC · 发表于 2024-6-22 16:44:54

pallas 发表于 2024-06-22 16:43
Traceback (most recent call last):
File "D:\PyC ...

啊，抱歉让您遇到这个错误。看起来文件路径不对，可能是文件的名字或者路径写错了。让我们一步一步排查并解决这个问题。

首先，我们确认几个关键点：
1. 确保文件路径绝对正确。
2. 确保文件存在。
3. 确保路径中的反斜杠使用正确（在路径中间用双反斜杠 `\\` 或前面加 `r` 使其成为原始字符串）。

让我们先确保文件路径和文件名都没有问题，然后再来看代码。这是一个用于多个大表格提取小表格并合并的完整示例：

import os
import pandas as pd
def extract_tables_from_excel(file_path, sheet_name=0):
df = pd.read_excel(file_path, sheet_name=sheet_name)
tables = []
current_table = []
for index, row in df.iterrows():
if row.isnull().all():
if current_table:
tables.append(pd.DataFrame(current_table))
current_table = []
else:
current_table.append(row)
if current_table:
tables.append(pd.DataFrame(current_table))
return tables
def merge_tables(base_df, new_tables):
for table in new_tables:
base_df = pd.concat([base_df, table])
return base_df
def main(input_files, existing_files, output_dir):
for input_file in input_files:
print(f"Processing {input_file}...")
try:
merging_tables = extract_tables_from_excel(input_file)
for i, existing_file in enumerate(existing_files):
print(f"Merging with {existing_file}...")
existing_df = pd.read_excel(existing_file)
merged_df = merge_tables(existing_df, [merging_tables[i]])
output_file = os.path.join(output_dir, f"merged_{i + 1}.xlsx")
merged_df.to_excel(output_file, index=False)
except FileNotFoundError:
print(f"File not found: {input_file}")
except Exception as e:
print(f"An error occurred: {e}")
# Example usage:
input_files = [
r"D:\2024年6月14日周督促会\1.周督促会-南岸支行（6月14日）.xlsx",
r"D:\2024年6月14日周督促会\2.周督促会-业务一部（6月14日）.xlsx"
]
existing_files = [
r"D:\已有文件\已提取小表格1.xlsx",
r"D:\已有文件\已提取小表格2.xlsx"
]
output_dir = r"D:\输出文件夹"
main(input_files, existing_files, output_dir)

复制代码

### 检查步骤：

1. **确保路径正确**:
- 在文件管理器中找到文件，右键点击文件属性，复制文件路径。
- 确保路径包含完整文件名和拓展名 `.xlsx`。

2. **确认路径格式**:
- 在Python字符串中使用 `r""` 将路径设为原始字符串以避免转义问题，如上述代码所示。

3. **脚本故障排除**:
- 如果路径和文件名都没有问题，但错误仍然存在，请检查其他可能的原因：
- 文件是否被其他程序占用。
- 文件是否有权限限制。

如果以上步骤都没问题，代码运行应该不会再报错，并且会将提取的小表格与已有的小表格合并，保存到指定目录下。希望这能帮到您，如果还有问题，请随时告诉我！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 16:55:37

FishC 发表于 2024-6-22 16:44
啊，抱歉让您遇到这个错误。看起来文件路径不对，可能是文件的名字或者路径写错了。让我们一步一步排查 ...

那如果还要将分离出来的小表格形成的多个excel合并到一个excel呢？

FishC · 发表于 2024-6-22 16:55:52

pallas 发表于 2024-06-22 16:55
那如果还要将分离出来的小表格形成的多个excel合并到 ...

啊，我明白了。您的需求是：从多个大表格文件中提取小表格，并将这些小表格分别合并到一个新的Excel文件中。这就像把钓到的各种鱼分类好后，全部装进一个大鱼缸里。

我们可以使用 `pandas` 来处理这个任务，`pandas` 是一个非常强大的数据处理库，可以方便地读取、处理和写入Excel文件。下面是一个完整的解决方案：

import pandas as pd
import os
def extract_tables_from_excel(file_path, sheet_name=0):
df = pd.read_excel(file_path, sheet_name=sheet_name)
tables = []
splits = df[df.isnull().all(axis=1)].index.tolist() # 找到空行的索引
prev_index = 0
for i in splits:
if prev_index != i: # 避免提取空表
tables.append(df.iloc[prev_index:i].dropna(how='all'))
prev_index = i + 1
# 处理最后一个表格
if prev_index < len(df):
tables.append(df.iloc[prev_index:].dropna(how='all'))
return tables
def merge_excel_files(input_files, output_file, sheet_name="Sheet1"):
combined_df = pd.DataFrame()
for file in input_files:
print(f"Processing {file}...")
tables = extract_tables_from_excel(file)
for table in tables:
combined_df = pd.concat([combined_df, table], ignore_index=True)
with pd.ExcelWriter(output_file) as writer:
combined_df.to_excel(writer, index=False, sheet_name=sheet_name)
print(f"Output saved to {output_file}")
# 示例用法:
input_files = [
r'D:\2024年6月14日周督促会\1.周督促会-南岸支行（6月14日）.xlsx',
r'D:\2024年6月14日周督促会\2.周督促会-业务一部（6月14日）.xlsx'
]
output_file = r'D:\2024年6月14日周督促会\merged_output.xlsx'
merge_excel_files(input_files, output_file)

复制代码

### 代码解析：
1. **`extract_tables_from_excel`** 函数：从给定的Excel文件中提取被空行分隔的小表格。
- 读取指定的Excel表格。
- 找到所有空行的索引。
- 分割表格并过滤掉空表。

2. **`merge_excel_files`** 函数：合并多个Excel文件中的小表格，并保存到一个新的Excel文件中。
- 初始化一个空的 DataFrame。
- 遍历每个输入文件，提取小表格并逐个合并到 `combined_df` 中。
- 使用 `pd.ExcelWriter` 将 `combined_df` 保存到新的Excel文件中。

运行这段代码，将会把所有输入文件中的小表格提取并合并到一个新的Excel文件中。

注意事项：
1. 确保所有路径是正确的，可以使用 `os.path.exists` 检查文件是否存在。
2. 调整合并逻辑以适应您的具体需求，比如保留每个小表格之间的一行空行等等。

希望这个解决方案能够帮助到您！如果还有其他问题，请随时告诉我。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 17:00:23

FishC 发表于 2024-6-22 16:55
啊，我明白了。您的需求是：从多个大表格文件中提取小表格，并将这些小表格分别合并到一个新的Excel文 ...

python合并多个小表格

FishC · 发表于 2024-6-22 17:00:40

pallas 发表于 2024-06-22 17:00
python合并多个小表格

OK，明白了，我们需要一个Python脚本来实现以下流程：

1. **从多个大表格文件中提取出多个小表格**。
2. **把这些小表格合并到一个新的Excel文件中**。

在这里，我们假设小表格间用空行分隔。下面是实现这一任务的Python代码：

### 依赖安装

首先，你需要安装 `pandas` 和 `openpyxl`，可以通过pip进行安装：

pip install pandas openpyxl

复制代码

### 示例代码

import pandas as pd
from openpyxl import load_workbook
def extract_tables_from_sheet(file_path, sheet_name=None):
"""
从指定的 Excel 文件和工作表中分割出多个小表格
"""
tables = []
df = pd.read_excel(file_path, sheet_name=sheet_name)
# 换行分割小表格
empty_rows = df[df.isnull().all(axis=1)].index
previous_index = 0
for row_index in empty_rows:
if previous_index != row_index:
table = df.iloc[previous_index:row_index].dropna(how='all')
if not table.empty:
tables.append(table)
previous_index = row_index + 1
# 最后一个表格
last_table = df.iloc[previous_index:].dropna(how='all')
if not last_table.empty:
tables.append(last_table)
return tables
def merge_tables(tables):
"""
合并所有提取的小表格
"""
merged_table = pd.concat(tables, ignore_index=True)
return merged_table
def main(input_files, output_file, sheet_name=None):
all_tables = []
for file in input_files:
print(f"Processing {file}...")
tables = extract_tables_from_sheet(file, sheet_name)
all_tables.extend(tables)
merged_table = merge_tables(all_tables)
with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
merged_table.to_excel(writer, index=False, sheet_name='MergedData')
print(f"Data merged and saved to {output_file}")
# 示例使用
input_files = [
r"D:\path\to\first_large_excel.xlsx",
r"D:\path\to\second_large_excel.xlsx"
]
output_file = r"D:\path\to\merged_output.xlsx"
main(input_files, output_file, sheet_name='Sheet1')

复制代码

### 脚本解释

1. **extract_tables_from_sheet**：从指定的Excel文件和工作表中分割出多个小表格。
2. **merge_tables**：将提取的小表格合并成一个大表格。
3. **main**：主要执行逻辑，从多个大表格中提取小表格并合并，最后保存到一个新的Excel文件中。

确保路径和文件名正确，这样就能避免之前遇到的 `FileNotFoundError`。

希望这个解决方案能够满足你的需求，大表格处理起来就像流水线工作，希望你满意这个“流水线”小助手！如果有任何问题，随时告诉我！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册

python处理excel

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块