[已解决]复杂的吸收word到excel

颂风侯 · 发表于 2024-11-19 10:57:36

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

用tkinter指定一个.doc或者.docx的文件，
再用tkinter指定一个文件夹位置
将.doc或者.docx的文件中所有的表格按以下要求导出数据
1、去除前四行数据
2、去除空行
3、对第8,9,10列含有回车的，做成两行，一行为回车前数据，一行为回车后数据导出的数据，在指定的文件夹位置新建一个名字为“整理数据.xlsx”，将数据保存到这个excel文件中去，
以上代码按竖行每个代码一行写

最佳答案

月排行榜 / 总排行榜

FishC

2024-11-19 13:28:46

颂风侯发表于 2024-11-19 13:28
感觉不太对，我没测试，但是这个换行符要在转为datafr ...

明白了，我们可以在从Word文档读取数据时，直接处理换行符并转换为结构化的数据。这样在生成DataFrame之前就已处理好。以下是按您要求的代码逻辑：

import tkinter as tk
from tkinter import filedialog
import pandas as pd
import docx
# 创建并配置窗口
root = tk.Tk()
root.withdraw()
# 文件选择
doc_path = filedialog.askopenfilename(title="选择一个.doc或.docx文件", filetypes=(("Word文件", "*.docx"), ("所有文件", "*.*")))
folder_path = filedialog.askdirectory(title="选择保存目录")
# 读取Word文档
doc = docx.Document(doc_path)
# 创建列表保存新数据
new_data = []
# 处理表格数据
for table in doc.tables:
for row_idx, row in enumerate(table.rows):
if row_idx < 4: # 去除前四行
continue
row_data = [cell.text.strip() for cell in row.cells]
# 检查第8, 9, 10列是否包含换行符
split_needed = False
split_parts = [[] for _ in range(3)]
for i in range(3):
if '\n' in row_data[7 + i]:
split_needed = True
split_parts[i] = row_data[7 + i].split('\n')
else:
split_parts[i].append(row_data[7 + i])
if split_needed:
# 创建新行
for parts in zip(*split_parts):
new_row = row_data[:7] + list(parts) + row_data[10:]
new_data.append(new_row)
else:
new_data.append(row_data)
# 创建DataFrame
df = pd.DataFrame(new_data)
# 保存数据到Excel
save_path = f"{folder_path}/整理数据.xlsx"
df.to_excel(save_path, index=False)
print(f"数据已保存到：{save_path}")

复制代码

关键步骤说明：
1. 在读取Word表格时，根据单元格内容处理换行符，在第8, 9, 10列中识别换行符并拆分数据。
2. 根据拆分后的内容，生成多行数据以确保不同换行段的正确展现。
3. 生成的结构化数据再用作构建DataFrame，最后输出到Excel。

请确保安装了所需的Python库，包括`pandas`和`python-docx`。注意，这个代码假设表格中的换行符只会出现在第8, 9, 10列中。调整列索引可以适配不同结构的Word表格。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

跳转到最佳答案楼层

颂风侯 · 发表于 2024-11-19 12:51:56

TypeError: replace_text_in_dxf.<locals>.<lambda>() got an unexpected keyword argument 'axis'
出错了，这个错误提示

颂风侯 · 发表于 2024-11-19 12:53:46

而且这个回车是在word的表格里才有的，读取成dataframe就看不到了

颂风侯 · 发表于 2024-11-19 13:17:06

测试的结果还是不对，应该是对于8,9,10列里面有换行的，对于该行，复制成两行，第一行是对8,9,10列而言用了换行前的内容，第二行是对8,9,10列而言用了换行后的内容，旧的行不用了，新的两行加入到新的dataframe中去

颂风侯 · 发表于 2024-11-19 13:28:37

感觉不太对，我没测试，但是这个换行符要在转为dataframe之前判断，转了dataframe就无法判断了，能再转dataframe之前判断分行吗

颂风侯 · 发表于 2024-11-19 14:13:28

根据这个自己改了下已经解决了，谢谢AI老师，我表述的还是不清除。搞定了，谢谢

账号		自动登录	找回密码
密码			立即注册

[已解决]复杂的吸收word到excel

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块