鱼C论坛

 找回密码
 立即注册
查看: 105|回复: 2

Python 可以将PDF文件中指定的文本整理到excel中吗?

[复制链接]
发表于 2024-9-5 09:09:28 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
有好多PDF文件,想将几个有用的信息摘取出来,存到excel 表格中。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2024-9-5 09:09:37 | 显示全部楼层
可以,Python 可以将 PDF 文件中的指定文本提取出来并整理到 Excel 中。你可以使用以下库来完成这个任务:

1. **PyPDF2 或 pdfplumber**:用于从 PDF 文件中提取文本。
   - `PyPDF2` 可以处理大多数 PDF,但对复杂的布局可能不太理想。
   - `pdfplumber` 通常在处理带有复杂表格和布局的 PDF 时效果更好。

2. **pandas**:用于处理和存储数据,尤其是将数据导出到 Excel 文件中。

3. **openpyxl 或 xlsxwriter**:用于将数据写入 Excel 文件。

以下是一个基本的工作流程示例:
import pdfplumber
import pandas as pd

# 打开 PDF 文件
with pdfplumber.open('example.pdf') as pdf:
    text_data = []
    for page in pdf.pages:
        # 提取页面中的文本
        text = page.extract_text()
        # 根据需要解析和提取信息
        # 假设我们每行都有一些结构化信息
        for line in text.split('\n'):
            if "所需关键词" in line:  # 仅示例,替换为具体条件
                # 提取或解析需要的信息,假设是逗号分隔的值
                data = line.split(',')
                text_data.append(data)

# 将提取的数据转换为 DataFrame
df = pd.DataFrame(text_data, columns=['Column1', 'Column2', ...])  # 设置适当的列名

# 写入 Excel 文件
df.to_excel('output.xlsx', index=False)

确保根据你的具体需求调整代码,尤其是解析和提取文本的部分。如果 PDF 文件的格式比较复杂,你可能需要更详细的处理逻辑来提取正确的数据。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-9-5 13:07:16 | 显示全部楼层
fishC的AI真不错。示例中是一个PDF文件,如果我有许多PDF文件该怎么写?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-16 04:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表