xsywa 发表于 2021-3-2 16:58:10

pdf提取表格

用pdfplumber提取表格时出现问题,我打的这个有啥问题啊,或者有没有大神有完整的代码

wp231957 发表于 2021-3-3 07:02:33

把含有表格的PDF发出来一份

xsywa 发表于 2021-3-3 09:01:10

wp231957 发表于 2021-3-3 07:02
把含有表格的PDF发出来一份

发不了pdf.......

wp231957 发表于 2021-3-3 11:13:19

xsywa 发表于 2021-3-3 09:01
发不了pdf.......

可以做成rar的

xsywa 发表于 2021-3-3 15:08:09

wp231957 发表于 2021-3-3 07:02
把含有表格的PDF发出来一份

就是这个了

nh_wzg 发表于 2021-4-30 00:30:49

本帖最后由 nh_wzg 于 2021-4-30 01:06 编辑

用camelot来读取,也是提示出错:

PdfReadWarning: Multiple definitions in dictionary at byte 0x1ac928 for key /MediaBox

也许文件原来的格式定义就可能超出这些模块的可处理范围了。

改用stream参数处理:

tables = camelot.read_pdf('Y:/大叶种茶气候品质评价方法研究.pdf',flavor='stream',pages='5')
tables



tables.df


可以把第5页的表格提取出来,但质量评价栏,有出错的现象。
页: [1]
查看完整版本: pdf提取表格