设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 编程语言专区 › Python交流 › python提取PDF文档内容并保存

发新帖

查看: 2448|回复: 6

[已解决]python提取PDF文档内容并保存

发表于 2017-8-13 17:55:03 | 显示全部楼层 |阅读模式

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 songdi 于 2017-8-15 11:38 编辑

使用python提取到了PDF中的内容，想保存入TXT文档中。然而总是报错：TypeError: can't concat bytes to str。如何解决？代码如下：

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFPageInterpreter
# 获得文档对象
fp = open("Discussion.pdf","rb")
# 创建一个与文档关联的解释器
parser = PDFParser(fp)
# PDF文档的对象
doc = PDFDocument()
# 连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)
#初始化文档
doc.initialize("")
if not doc.is_extractable:
raise PDFTextExtractionNotAllowed
else:
#创建一个PDF资源管理器
resource = PDFResourceManager()
#参数分析器
laparam = LAParams()
# 创建一个聚合器
device = PDFPageAggregator(resource,laparams=laparam)
# 创建页面解释器
interpreter = PDFPageInterpreter(resource,device)
# 使用文档对象从页面读取内容
for page in doc.get_pages():
# 使用页面解释器来读取
interpreter.process_page(page)
# 使用聚合器获取内容
layout = device.get_result()
for out in layout:
if hasattr(out,"get_text"):
result = out.get_text()
# print(result)
with open('a.txt','w') as f:
f.write(result.encode('utf-8')+'\n')

复制代码

最佳答案

月排行榜 / 总排行榜

SixPy

2017-8-14 12:33:01

with open('a.txt','w',encoding='utf8') as f:
------------
你学些字符编码的基础知识去~

跳转到最佳答案楼层

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发表于 2017-8-13 17:57:57 | 显示全部楼层

我们给你回答问题还要购买你的问题？我们有病啊！

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2017-8-13 20:56:29 | 显示全部楼层

回帖奖励 +5 鱼币

f.write(result.decode('utf-8')+'\n')

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

楼主| 发表于 2017-8-14 08:54:05 | 显示全部楼层

SixPy 发表于 2017-8-13 20:56
f.write(result.decode('utf-8')+'\n')

依然不行，报错：AttributeError: 'str' object has no attribute 'decode'

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2017-8-14 09:39:47 | 显示全部楼层

f.write(result+'\n')

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

楼主| 发表于 2017-8-14 09:53:59 | 显示全部楼层

SixPy 发表于 2017-8-14 09:39
f.write(result+'\n')

还是报错，UnicodeEncodeError: 'gbk' codec can't encode character '\u0201' in position 15: illegal multibyte sequence

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2017-8-14 12:33:01 | 显示全部楼层本楼为最佳答案

这个最佳答案由 SixPy 给出，感谢 SixPy 的回答。

单击隐藏图章

with open('a.txt','w',encoding='utf8') as f:
------------
你学些字符编码的基础知识去~

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-1 13:18

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表