|
下面的Python代码片段展示了如何使用 pandas 和 openpyxl 库来读取一个文件夹中的所有.xls和.xlsx文件,并将这些工作簿中的工作表合并到一个新的.xlsx工作表中。这个代码应该适用于你的需求,但请注意,处理合并单元格可能需要额外的处理。
这个例子中没有处理合并单元格,因为pandas在读取Excel文件时默认会拆分合并的单元格,将相同的值填充到被合并的所有单元格中。因此,在这个代码中,我们没有保留源文件中的单元格合并。
如果你需要保留源文件中的合并单元格,可能需要使用像openpyxl这样的库,它能够处理合并的单元格。但是,使用这样的库通常会比使用pandas更复杂,因为你需要手动处理工作表中的每个单元格。
- import os
- import pandas as pd
- # 要合并的工作簿所在的文件夹
- folder = "/path/to/your/folder"
- # 获取文件夹中的所有.xls和.xlsx文件
- files = [f for f in os.listdir(folder) if f.endswith('.xls') or f.endswith('.xlsx')]
- # 创建一个空的DataFrame来存储所有工作簿的数据
- all_data = pd.DataFrame()
- # 遍历每个文件
- for file in files:
- # 读取文件中的第一个工作表
- data = pd.read_excel(os.path.join(folder, file))
-
- # 将这个工作表的数据添加到总的DataFrame中
- all_data = all_data.append(data)
- # 将合并后的数据写入一个新的.xlsx文件
- all_data.to_excel("/path/to/your/folder/merged.xlsx", index=False)
复制代码
上述代码假设所有工作簿中的工作表都具有相同的列。如果不同的工作簿有不同的列,这可能会导致问题。为了解决这个问题,你可能需要在合并数据之前确保所有的工作表都有相同的列。
另外,如果文件中的工作簿有多个工作表,你可能需要修改代码以处理这些额外的工作表。在上述代码中,我们只读取了每个文件的第一个工作表。 |
|