鱼C论坛

 找回密码
 立即注册
查看: 330|回复: 2

Python 可以将PDF文件中指定的文本整理到excel中吗?

[复制链接]
发表于 2024-9-5 09:09:28 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
有好多PDF文件,想将几个有用的信息摘取出来,存到excel 表格中。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2024-9-5 09:09:37 | 显示全部楼层
可以,Python 可以将 PDF 文件中的指定文本提取出来并整理到 Excel 中。你可以使用以下库来完成这个任务:

1. **PyPDF2 或 pdfplumber**:用于从 PDF 文件中提取文本。
   - `PyPDF2` 可以处理大多数 PDF,但对复杂的布局可能不太理想。
   - `pdfplumber` 通常在处理带有复杂表格和布局的 PDF 时效果更好。

2. **pandas**:用于处理和存储数据,尤其是将数据导出到 Excel 文件中。

3. **openpyxl 或 xlsxwriter**:用于将数据写入 Excel 文件。

以下是一个基本的工作流程示例:

  1. import pdfplumber
  2. import pandas as pd

  3. # 打开 PDF 文件
  4. with pdfplumber.open('example.pdf') as pdf:
  5.     text_data = []
  6.     for page in pdf.pages:
  7.         # 提取页面中的文本
  8.         text = page.extract_text()
  9.         # 根据需要解析和提取信息
  10.         # 假设我们每行都有一些结构化信息
  11.         for line in text.split('\n'):
  12.             if "所需关键词" in line:  # 仅示例,替换为具体条件
  13.                 # 提取或解析需要的信息,假设是逗号分隔的值
  14.                 data = line.split(',')
  15.                 text_data.append(data)

  16. # 将提取的数据转换为 DataFrame
  17. df = pd.DataFrame(text_data, columns=['Column1', 'Column2', ...])  # 设置适当的列名

  18. # 写入 Excel 文件
  19. df.to_excel('output.xlsx', index=False)
复制代码


确保根据你的具体需求调整代码,尤其是解析和提取文本的部分。如果 PDF 文件的格式比较复杂,你可能需要更详细的处理逻辑来提取正确的数据。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-9-5 13:07:16 | 显示全部楼层
fishC的AI真不错。示例中是一个PDF文件,如果我有许多PDF文件该怎么写?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-20 01:46

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表