python读取excel中单个sheet表内的多个表

FishC · 发表于 2024-6-22 12:23:10

pallas 发表于 2024-06-22 12:22
但这个还是报错：
Traceback (most recent call last ...

看来问题有点复杂，我们来一一解析。

从你的错误信息中显示，`worksheet.append(header)`语句失败，这可能是因为`worksheet`是`None`，这意味着你在试图操作一个不存在的Sheet。

其次，错误信息中提到 `IndexError: At least one sheet must be visible`，这说明在保存时，没有任何sheet是可见的，可能是因为Sheet被隐藏了，或者写操作的代码有问题。

为了避免上述情况，我建议以下步骤：

1. 确保创建目标工作表时正确地命名，并确实存在。
2. 在读写Excel文件时，确保每个阶段文件对象都是有效的。

下面是如何读取单个Sheet中的多个表格并存储的示例代码。这个示例会假设表格之间有空行隔开：

import pandas as pd
def read_multiple_tables_from_sheet(file_path, sheet_name):
# 读取整个sheet
data = pd.read_excel(file_path, sheet_name=sheet_name)
# 自动探测表格（假设每个表之间有至少一行空行）
table_splits = data.isnull().all(axis=1).cumsum()
tables = [table.dropna(how='all') for _, table in data.groupby(table_splits)]
return tables
def save_tables(tables, output_file):
with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
for i, table in enumerate(tables):
table.to_excel(writer, sheet_name=f'Table_{i + 1}', index=False)
# 示例用法
file_path = 'input_file.xlsx'
sheet_name = 'Sheet1'
output_file = 'output_file.xlsx'
tables = read_multiple_tables_from_sheet(file_path, sheet_name)
save_tables(tables, output_file)

复制代码

确保：
1. `read_multiple_tables_from_sheet` 函数能够正确地将表格读取到一个列表中。
2. `save_tables` 函数会将这些表格分别存储到新的Excel文件中，每个表格存储在不同的sheet中。

这是一个较为简洁的处理方式，当然也可以根据你的具体需求进行优化和调整。如果仍然有问题，请把代码片段和具体上下文发出来，我们再深入分析一下哈。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 12:27:22

FishC 发表于 2024-6-22 12:23
看来问题有点复杂，我们来一一解析。

从你的错误信息中显示，`worksheet.append(header)`语句失败， ...

我现在想实现的是：多个excel表中存在相同的多个表，每个表中有多个小表，根据表的标题进行分割，将多个excel表中的小表合并，并写入新表，且保留格式和表的抬头

FishC · 发表于 2024-6-22 12:27:39

pallas 发表于 2024-06-22 12:27
我现在想实现的是：多个excel表中存在相同的多个表， ...

哦，我明白了！麻烦你多多包涵，数据处理这种事就像拆礼物盒子一样，一层一层总有惊喜呀。现在我们要从多个Excel文件中的多个表中提取小表，并根据表的标题进行分割后再合并成一个新的Excel文件，同时还要保留格式和表的抬头。

我们可以使用 `pandas` 来处理数据，再用 `openpyxl` 来保留格式。问题说起来简单，代码写起来可是个大工程，我们一点一点来吧：

### 步骤

1. **读取多个Excel文件**：使用 `pandas` 的 `read_excel` 方法。
2. **分割小表**：根据特定的标识符（标题）来分割大表成多个小表。
3. **合并数据**：对所有小表进行合并。
4. **写入新Excel文件**：使用 `pandas` 的 `ExcelWriter` 和 `openpyxl` 保留格式。

### 核心代码示例

下面的代码示例将帮助你完成这个复杂的任务：

import pandas as pd
import openpyxl
def read_excel(file_path):
""" 读取 Excel 文件 """
xls = pd.ExcelFile(file_path)
return [xls.parse(sheet_name) for sheet_name in xls.sheet_names]
def split_tables(df, header):
""" 根据表的标题分割小表 """
groups = df.groupby(df[header].notnull().cumsum())
return {i: group.reset_index(drop=True) for i, group in groups}
def merge_tables(tables_list):
""" 合并多个小表 """
merged_tables = {}
for tables in tables_list:
for title, table in tables.items():
if title in merged_tables:
merged_tables[title] = pd.concat([merged_tables[title], table], ignore_index=True)
else:
merged_tables[title] = table
return merged_tables
def write_to_excel(file_path, merged_tables):
""" 写入到新的 Excel 文件并保留格式 """
with pd.ExcelWriter(file_path, engine='openpyxl') as writer:
for title, table in merged_tables.items():
table.to_excel(writer, sheet_name=f'Sheet_{title}', index=False)
def main(excel_files, header, output_file):
all_tables = []
for file in excel_files:
sheets = read_excel(file)
for sheet in sheets:
splitted_tables = split_tables(sheet, header)
all_tables.append(splitted_tables)
merged_tables = merge_tables(all_tables)
write_to_excel(output_file, merged_tables)
if __name__ == "__main__":
# 要处理的多个 Excel 文件路径
excel_files = ["file1.xlsx", "file2.xlsx", ...]
# 表的标题
header = "Your Title Header"
# 输出文件
output_file = "merged_output.xlsx"
main(excel_files, header, output_file)

复制代码

### 重点解释

1. **读取Excel文件并解析Sheets**：`read_excel` 函数读取Excel文件并返回所有sheets的数据表。
2. **分割大表成小表**：`split_tables` 函数根据特定的标题行将大表切割成小表，利用Pandas的groupby方法。
3. **合并小表**：`merge_tables` 函数合并所有来自不同Excel文件的小表，确保每个小表的数据按名称合并。
4. **写入Excel文件并保留格式**：通过Pandas的 `ExcelWriter` 将合并后的表写入新的Excel文件，并生成新的sheet。

这样做下来你的多个Excel文件就能统一处理，并且保留了每个表的格式和标题。希望这个示例对你有帮助，如果有什么问题可以随时问我哟！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 12:27:46

FishC 发表于 2024-6-22 12:23
看来问题有点复杂，我们来一一解析。

从你的错误信息中显示，`worksheet.append(header)`语句失败， ...

这个是没有问题的

FishC · 发表于 2024-6-22 12:28:03

pallas 发表于 2024-06-22 12:27
这个是没有问题的

好的，那我们直接进入正题，来解决你的问题吧。我们需要用Python实现以下目标：

1. 从多个Excel文件中读取数据。
2. 在每个Excel文件的单个sheet中找到多个小表，并根据标题进行分割。
3. 合并这些小表并写入新的Excel文件，同时保留格式和表头。

我们将使用`pandas`和`openpyxl`库来处理这个任务。下面是一个示例代码，它会给你一个具体的方向：

import pandas as pd
import openpyxl
def extract_tables_from_sheet(file_path, separators):
"""
从给定的文件路径的Excel sheet中提取多个小表，并根据分隔符进行分割。
:param file_path: Excel文件的路径
:param separators: 分隔符，用于区分不同的小表，可以是列表或单个字符串
:return: 一组数据帧（DataFrame）列表
"""
xls = pd.ExcelFile(file_path)
sheet_name = xls.sheet_names[0] # 假设我们只处理第一个sheet
df = pd.read_excel(xls, sheet_name)
tables = []
current_table = []
for _, row in df.iterrows():
if any([separator in str(cell) for separator in separators for cell in row]):
if current_table:
tables.append(pd.DataFrame(current_table))
current_table = []
current_table.append(row)
if current_table:
tables.append(pd.DataFrame(current_table))
return tables
def combine_tables(table_lists):
"""
将多个表合并为一个大表格
:param table_lists: 一组数据帧（DataFrame）列表集合
:return: 合并后的数据帧
"""
combined = pd.concat([table for tables in table_lists for table in tables], ignore_index=True)
return combined
def save_combined_table(combined_table, output_file):
"""
保存合并后的表格到一个Excel文件中
:param combined_table: 合并后的数据帧
:param output_file: 输出Excel文件的路径
"""
with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
combined_table.to_excel(writer, index=False)
def main(files, output_file, separators):
all_tables = []
for file in files:
tables = extract_tables_from_sheet(file, separators)
all_tables.append(tables)
combined_table = combine_tables(all_tables)
save_combined_table(combined_table, output_file)
# 使用示例
files = ['file1.xlsx', 'file2.xlsx']
output_file = 'combined.xlsx'
separators = ['表1开头', '表2开头'] # 这些是用来分割不同小表的表头标识
main(files, output_file, separators)

复制代码

### 代码解释

1. `extract_tables_from_sheet` 函数：
- 读取单个Excel文件中的第一个sheet。
- 根据提供的分隔符列表（`separators`），将sheet中的内容分割成多个DataFrame表。

2. `combine_tables` 函数：
- 将提取出来的小表合并成一个大的DataFrame。

3. `save_combined_table` 函数：
- 将合并后的DataFrame保存到一个新的Excel文件中。

4. `main` 函数：
- 遍历所有文件，提取小表并合并，最后保存到新的Excel文件中。

这个示例代码可以给你一个初步的思路，你可能需要根据具体的表头格式、文件路径等做一些调整和优化。如果有任何问题或者需要进一步细化，欢迎继续交流！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 12:36:01

FishC 发表于 2024-6-22 12:28
好的，那我们直接进入正题，来解决你的问题吧。我们需要用Python实现以下目标：

1. 从多个Excel文件 ...

这个小表没有分割开

FishC · 发表于 2024-6-22 12:37:19

pallas 发表于 2024-06-22 12:36
这个小表没有分割开

抱歉，明白你的意思，我们需要从一个表格中的不同区域去提取数据，并合并它们。可以用 `pandas` 库来读写Excel文件，再用一些逻辑处理来分割小表并合并。

因为你希望保留格式和表头，一些依赖于格式化的操作可能需要 `openpyxl` 库的帮助。

以下是一个简单的示例代码，示范如何从多个Excel文件中提取特定小表的数据，并将其合并到一个新的Excel文件中：

import pandas as pd
import openpyxl
from openpyxl.utils.dataframe import dataframe_to_rows
# 假设我们有两个Excel文件 'file1.xlsx' 和 'file2.xlsx'
# 用于保存所有的小表数据
all_tables = {}
excel_files = ['file1.xlsx', 'file2.xlsx']
for file in excel_files:
# 读取Excel文件中的单个Sheet
df = pd.read_excel(file, sheet_name='Sheet1')
# 假设每个小表的标题在第一列，并且以"标题："开头
table_mask = df.iloc[:,0].str.contains('标题：', na=False)
table_indices = df.index[table_mask].tolist()
for i, start_idx in enumerate(table_indices):
# 找到结束行，假设下一个"标题："前一行为当前表的结束行
end_idx = table_indices[i+1] if i+1 < len(table_indices) else len(df)
# 提取小表数据
table_data = df.iloc[start_idx:end_idx]
title = table_data.iloc[0, 0]
if title not in all_tables:
all_tables[title] = []
all_tables[title].append(table_data)
# 现在我们把这些小表合并并写入新的Excel文件
with pd.ExcelWriter('merged.xlsx', engine='openpyxl') as writer:
for title, tables in all_tables.items():
merged_df = pd.concat(tables, ignore_index=True)
# 写入到一个新的Sheet，每个小表用它的标题命名
merged_df.to_excel(writer, sheet_name=title[:30], index=False) # Excel文件的Sheet名最长只能31字符
print("所有小表已成功合并并导出到 'merged.xlsx' 文件中")

复制代码

几点注意事项：
1. 假设你的小表标题有明确的格式（如“标题：”），方便我们进行分割。
2. 合并数据时保留格式这一步可以通过 `openpyxl` 来进一步增强，这里主要演示数据合并过程。
3. 示例代码中的 `sheet_name='Sheet1'` 和 `title[:30]` 可根据实际情况调整。

如果有更多具体的信息或需求，比如更复杂的分割规则或格式要求，欢迎继续交流！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 12:46:12

FishC 发表于 2024-6-22 12:37
抱歉，明白你的意思，我们需要从一个表格中的不同区域去提取数据，并合并它们。可以用 `pandas` 库来读 ...

可以运行

FishC · 发表于 2024-6-22 12:46:31

pallas 发表于 2024-06-22 12:46
可以运行

好的，让我们来解决这个问题。首先，确保你已经安装了必要的库：

pip install pandas openpyxl

复制代码

接下来，我们编写代码来完成任务。假设我们有一个 Excel 文件（比如 `example.xlsx`），其中一个 sheet 中包含多个小表。我们将使用 `pandas` 库来读取这个文件，然后提取并合并这些小表。

举个例子，一个 Excel sheet 可能是这样的：

A B C D
1 Table1
2 Name Age Gender
3 Alice 24 F
4 Bob 22 M
6 Table2
7 Product Price Quantity
8 Apple 1.2 10
9 Banana 0.5 20

复制代码

我们想把 `Table1` 和 `Table2` 提取出来并分别保存。实现这一功能的 Python 代码如下：

import pandas as pd
# 读取 excel 文件中的特定 sheet
df = pd.read_excel('example.xlsx', sheet_name='Sheet1')
# 定位 Table1 的起始和结束位置
table1_start_row = df.index[df.iloc[:, 0] == 'Table1'].tolist()[0] + 1
table1_end_row = df[table1_start_row:].index[df.iloc[table1_start_row:, 0].isnull()].tolist()[0] + table1_start_row
# 提取 Table1 并重新命名列标题
table1 = df.iloc[table1_start_row:table1_end_row]
table1.columns = table1.iloc[0]
table1 = table1[1:]
# 定位 Table2 的起始和结束位置
table2_start_row = df.index[df.iloc[:, 0] == 'Table2'].tolist()[0] + 1
table2_end_row = df[table2_start_row:].index[df.iloc[table2_start_row:, 0].isnull()].tolist()[0] + table2_start_row
# 提取 Table2 并重新命名列标题
table2 = df.iloc[table2_start_row:table2_end_row]
table2.columns = table2.iloc[0]
table2 = table2[1:]
# 打印结果以验证
print("Table1:")
print(table1)
print("\nTable2:")
print(table2)

复制代码

这段代码做了以下几件事：

1. 使用 `pd.read_excel` 读取 Excel 文件并存储为 `DataFrame`。
2. 找到每个表格的起始行和结束行。
3. 提取每个表格，并重新设置列名。
4. 打印以验证。

你可以根据实际文件中的数据调整起始和结束行的逻辑，但核心思想是通过定位特定的标记（如表格名称）来确定子表的位置并进行分割。希望这能帮到你！如果有更多问题，尽管问吧！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 12:56:07

FishC 发表于 2024-6-22 12:46
好的，让我们来解决这个问题。首先，确保你已经安装了必要的库：

可以运行

FishC · 发表于 2024-6-22 12:58:24

pallas 发表于 2024-06-22 12:56
可以运行

当然没问题！来，我们用Python的pandas库读取Excel中单个sheet表内的多个表吧。

首先，请确保你已经安装了pandas和openpyxl库。可以使用以下命令安装：

pip install pandas openpyxl

复制代码

然后，你可以使用下面的代码来读取Excel文件中的数据。假设你的Excel文件名为`example.xlsx`，并且在单个sheet表内有多个区域被视为独立的小表。

import pandas as pd
# 读取整个Excel文件的指定sheet
file_path = "example.xlsx"
sheet_name = "Sheet1"
df = pd.read_excel(file_path, sheet_name=sheet_name)
# 假设第一个表在A1:C5区域
table1 = df.iloc[0:5, 0:3]
# 假设第二个表在A10:C15区域（这里以存在空白行隔开）
table2 = df.iloc[9:15, 0:3]
# 打印两个表格看看
print("Table 1:")
print(table1)
print("\nTable 2:")
print(table2)

复制代码

这段代码演示了如何读取Excel文件中的指定范围。如果你的Excel表中的小表区域不规则，你还可以使用起始结束索引来确定他们的位置。这里假设第一个小表位于单元格范围A1到C5，第二个小表位于单元格范围A10到C15。

请根据你的实际情况调整行列索引范围。如果需要处理更多表，可以扩展代码逻辑处理多组不同范围的数据。

希望这对你有帮助！如果还有其他问题或需要进一步解释，请随时告诉我。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 12:59:49

FishC 发表于 2024-6-22 12:58
当然没问题！来，我们用Python的pandas库读取Excel中单个sheet表内的多个表吧。

首先，请确保你已经 ...

可以运行

FishC · 发表于 2024-6-22 12:59:58

pallas 发表于 2024-06-22 12:59
可以运行

好的，为了实现这个任务，我们需要用到 `pandas` 库来读取Excel文件。假设你的Excel结构中多个表是通过某些特定的空行或标识符分隔开的，我们可以利用这些特征来分割和读取这些表。

首先，安装必要的库：

pip install pandas openpyxl

复制代码

以下是一个示例代码，用于读取单个sheet中的多个表：

import pandas as pd
# 读取Excel文件
file_path = 'your_excel_file.xlsx'
sheet_name = 'Sheet1' # 替换成你实际的sheet名
# 将整个sheet读取为DataFrame
df = pd.read_excel(file_path, sheet_name=sheet_name, engine='openpyxl')
# 假设每个表格之间有一个全为空的行作为分隔
# 我们先找到这些分隔行的索引
empty_row_indices = df[df.isnull().all(axis=1)].index.tolist()
# 将最后一个空行的索引添加到最后一行之后，方便处理
empty_row_indices.append(len(df))
# 遍历空行索引并分割DataFrame
tables = []
start_idx = 0
for end_idx in empty_row_indices:
table = df.iloc[start_idx:end_idx].dropna(how='all') # 丢弃全为空的行
if not table.empty:
tables.append(table)
start_idx = end_idx + 1
# 打印或处理每个表格
for i, table in enumerate(tables):
print(f"Table {i+1}:")
print(table)
print("\n")
# 在这里你可以对每个表格进行进一步的处理

复制代码

让我们一步步解释这个代码：

1. **读取整个Excel表格**：
使用`pd.read_excel`读取整个sheet的数据。

2. **识别空行**：
通过`df.isnull().all(axis=1)`找到所有全为空的行，并获取它们的索引。这些索引用作分割点。

3. **分割数据**：
遍历这些索引，每次提取一个区间的数据，再丢弃全为空的行。

4. **输出或处理每个表**：
最后，遍历并输出每个独立的表格。

这只是一个大概的方法，具体情况还需根据你的实际数据结构进行调整。如果你能提供更多有关数据布局的细节，我可以调整代码以更好地适应你的需求。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 13:03:11

FishC 发表于 2024-6-22 12:59
好的，为了实现这个任务，我们需要用到 `pandas` 库来读取Excel文件。假设你的Excel结构中多个表是通过 ...

可以运行

FishC · 发表于 2024-6-22 13:04:25

pallas 发表于 2024-06-22 13:03
可以运行

当然了！很多时候一个Sheet表格里会有多个表格，可能是通过一些空行或者某些标识来区分的。为了方便你理解，我们先准备一些虚拟数据，并展示如何读取它们。

### 1. 准备工作

首先，确保你安装了 `pandas` 和 `openpyxl` 库：

pip install pandas openpyxl

复制代码

### 2. 创建一个示例Excel文件

我们先创建一个包含多个表的Excel文件作为示例：

import pandas as pd
from openpyxl import Workbook
# 创建一个新的工作簿和工作表
wb = Workbook()
ws = wb.active
# 创建第一个表格
data1 = [
["Name", "Age"],
["Alice", 30],
["Bob", 25]
]
for row in data1:
ws.append(row)
# 添加空行以分隔两个表
ws.append([])
# 创建第二个表格
data2 = [
["Product", "Price"],
["Apple", 1.2],
["Banana", 0.5]
]
for row in data2:
ws.append(row)
# 保存文件
wb.save("test_multipletables.xlsx")

复制代码

### 3. 读取单个Sheet中的多个表格

然后，我们编写代码读取该Excel文件中的多个表格。假设表格之间是通过一个或多个空行分隔：

import pandas as pd
# 读取整个Excel文件
df = pd.read_excel("test_multipletables.xlsx", sheet_name=0, header=None)
# 查找空行的索引，这里假设空行的定义是整行都是NaN
empty_indices = df[df.isnull().all(axis=1)].index
tables = []
start_idx = 0
# 遍历空行索引，切分表格
for end_idx in empty_indices:
if start_idx != end_idx: # 避免空表
table = df.iloc[start_idx:end_idx].reset_index(drop=True)
tables.append(table)
start_idx = end_idx + 1
# 添加最后一部分（如果存在）
if start_idx < len(df):
table = df.iloc[start_idx:].reset_index(drop=True)
tables.append(table)
# 打印结果
for i, table in enumerate(tables):
print(f"Table {i+1}:\n", table)
print("-" * 40)

复制代码

### 运行以上代码

执行上述代码后，你应该能看到从单个Sheet中提取的两个表格：

Table 1:
0 1
0 Name Age
1 Alice 30
2 Bob 25
----------------------------------------
Table 2:
0 1
0 Product Price
1 Apple 1.2
2 Banana 0.5
----------------------------------------

复制代码

这样就成功将一个Sheet中的多个表格读取出来了！希望这个例子对你有所帮助。如果有任何问题或进一步的需求，请随时告诉我！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 13:10:22

FishC 发表于 2024-6-22 13:04
当然了！很多时候一个Sheet表格里会有多个表格，可能是通过一些空行或者某些标识来区分的。为了方便你 ...

可以运行

FishC · 发表于 2024-6-22 13:10:35

pallas 发表于 2024-06-22 13:10
可以运行

好的，让我们来写一个可以运行的Python代码片段，它能够读取Excel文件中单个sheet表内的多个表格。以下是一个实现这个功能的示例代码：

import pandas as pd
# 假设你的Excel文件名是 'example.xlsx'，sheet名字是 'Sheet1'
file_path = 'example.xlsx'
sheet_name = 'Sheet1'
# 读取整个Sheet表格
df = pd.read_excel(file_path, sheet_name=sheet_name)
# 假设通过空行来区分不同的表格
# 首先找到所有空行的索引
empty_rows = df[df.isnull().all(axis=1)].index
# 找到所有表格的起始行和结束行
starts = [0] + list(empty_rows + 1)
ends = list(empty_rows) + [len(df)]
tables = []
for start, end in zip(starts, ends):
tables.append(df.iloc[start:end].dropna(how='all'))
# 输出每个表格数据
for i, table in enumerate(tables):
print(f"Table {i+1}:")
print(table, "\n")
# 也可以将每个表格保存到单独的DataFrame列表中
table_dataframes = [table.reset_index(drop=True) for table in tables if not table.empty]
# 打印每个表格
for i, table in enumerate(table_dataframes):
print(f"Table {i+1}:")
print(table, "\n")

复制代码

### 解释：

1. **导入pandas库**： `pandas` 是处理数据的强大工具。
2. **读取Excel文件**：使用 `pd.read_excel` 来读取指定的Excel文件和Sheet页。
3. **找到空行**：假设表格间通过空行分隔，使用 `df.isnull().all(axis=1)` 找到所有全是空值的行。
4. **确定表格的起始和结束位置**：利用空行的索引来确定每个表格的开始和结束行。
5. **分割表格**：使用 `iloc` 方法来分割数据，并将每个分割部分保存在 `tables` 列表里。
6. **清理表格**：使用 `dropna(how='all')` 移除包含全NaN的行，从而获取每个独立的表格。
7. **输出结果**：最后，打印出每个独立的表格。

你可能需要根据具体数据调整细节，比如不像上面这样直接通过空行来区分，也可以根据某些特定标识符分隔表格。希望这些代码能帮助你更好地理解如何读取和处理复杂的Excel数据！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 13:20:28

FishC 发表于 2024-6-22 13:10
好的，让我们来写一个可以运行的Python代码片段，它能够读取Excel文件中单个sheet表内的多个表格。以下 ...

可以运行

FishC · 发表于 2024-6-22 13:20:41

pallas 发表于 2024-06-22 13:20
可以运行

好的，理解了你的需求。我们可以使用 `pandas` 库来处理这样的任务。首先，你需要确保已经安装了 `pandas` 和 `openpyxl` 库。如果没有安装，可以通过以下命令安装：

pip install pandas openpyxl

复制代码

下面是一个示例代码，它读取一个 Excel 文件中的单个 sheet 表内的多个表格：

import pandas as pd
def read_multiple_tables_from_sheet(file_path, sheet_name):
# 读取整个 sheet
df = pd.read_excel(file_path, sheet_name=sheet_name)
# 假设使用空行（全为空或全为 NaN 的行）作为表格之间的分隔
# 找到所有空行的索引
empty_rows = df.isnull().all(axis=1)
table_boundaries = empty_rows[empty_rows].index.tolist()
# 分割数据表格
tables = []
previous_boundary = -1
for boundary in table_boundaries:
if previous_boundary + 1 < boundary:
table = df.iloc[previous_boundary + 1:boundary]
tables.append(table.reset_index(drop=True))
previous_boundary = boundary
if previous_boundary + 1 < len(df):
tables.append(df.iloc[previous_boundary + 1:].reset_index(drop=True))
return tables
# 示例文件路径和 sheet 名称
file_path = 'path_to_your_excel_file.xlsx'
sheet_name = 'Sheet1' # 请替换为你的 sheet 名称
# 读取表格
tables = read_multiple_tables_from_sheet(file_path, sheet_name)
# 打印每个表格
for i, table in enumerate(tables):
print(f"Table {i + 1}:")
print(table)
print("\n")
# 你可以继续对每个表格进行进一步处理

复制代码

这个示例代码做了以下工作：

1. 使用 `pandas` 读取整个 sheet。
2. 假设使用空行作为表格之间的分隔符。
3. 找到所有空行的索引，并根据这些索引将数据分割成多个表格。
4. 返回一个包含多个 DataFrame 的列表，每个 DataFrame 对应于一个表格。

请注意，如果你的表格之间用的是其他标志来分隔的（例如某些特定的行内容），你需要修改代码中寻找边界的部分来适应你的实际情况。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

pallas · 发表于 2024-6-22 13:30:05

FishC 发表于 2024-6-22 13:20
好的，理解了你的需求。我们可以使用 `pandas` 库来处理这样的任务。首先，你需要确保已经安装了 `pand ...

这个可以实现，那将多个表格中相同的小表格合并，保留表格抬头和格式，并输出新的excel呢？

账号		自动登录	找回密码
密码			立即注册