鱼C论坛

 找回密码
 立即注册
查看: 3365|回复: 5

[技术交流] pdf提取表格

[复制链接]
发表于 2021-3-2 16:58:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
用pdfplumber提取表格时出现问题,我打的这个有啥问题啊,或者有没有大神有完整的代码
2.jpg
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-3-3 07:02:33 From FishC Mobile | 显示全部楼层
把含有表格的PDF发出来一份
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-3 09:01:10 | 显示全部楼层
wp231957 发表于 2021-3-3 07:02
把含有表格的PDF发出来一份

发不了pdf.......
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-3 11:13:19 From FishC Mobile | 显示全部楼层
xsywa 发表于 2021-3-3 09:01
发不了pdf.......

可以做成rar的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-3 15:08:09 | 显示全部楼层
wp231957 发表于 2021-3-3 07:02
把含有表格的PDF发出来一份

就是这个了

大叶种茶气候品质评价方法研究.zip

1.52 MB, 下载次数: 3

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-30 00:30:49 | 显示全部楼层
本帖最后由 nh_wzg 于 2021-4-30 01:06 编辑

用camelot来读取,也是提示出错:
PdfReadWarning: Multiple definitions in dictionary at byte 0x1ac928 for key /MediaBox [generic.py:587]
也许文件原来的格式定义就可能超出这些模块的可处理范围了。

改用stream参数处理:
tables = camelot.read_pdf('Y:/大叶种茶气候品质评价方法研究.pdf',flavor='stream',pages='5')
tables
tables[0].df

可以把第5页的表格提取出来,但质量评价栏,有出错的现象。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-16 00:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表