鱼C论坛

 找回密码
 立即注册
查看: 2448|回复: 6

[已解决]python提取PDF文档内容并保存

[复制链接]
发表于 2017-8-13 17:55:03 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 songdi 于 2017-8-15 11:38 编辑

使用python提取到了PDF中的内容,想保存入TXT文档中。然而总是报错:TypeError: can't concat bytes to str。如何解决?代码如下:

  1. from pdfminer.pdfparser import PDFParser, PDFDocument
  2. from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
  3. from pdfminer.pdfdevice import PDFDevice
  4. from pdfminer.layout import LAParams
  5. from pdfminer.converter import PDFPageAggregator
  6. from pdfminer.pdfinterp import PDFPageInterpreter

  7. # 获得文档对象

  8. fp = open("Discussion.pdf","rb")

  9. # 创建一个与文档关联的解释器

  10. parser = PDFParser(fp)

  11. # PDF文档的对象
  12. doc = PDFDocument()

  13. # 连接解释器和文档对象

  14. parser.set_document(doc)
  15. doc.set_parser(parser)

  16. #初始化文档

  17. doc.initialize("")

  18. if not doc.is_extractable:
  19.     raise PDFTextExtractionNotAllowed
  20. else:
  21.         
  22.     #创建一个PDF资源管理器

  23.     resource = PDFResourceManager()

  24.     #参数分析器
  25.     laparam = LAParams()

  26.     # 创建一个聚合器

  27.     device = PDFPageAggregator(resource,laparams=laparam)

  28.     # 创建页面解释器

  29.     interpreter = PDFPageInterpreter(resource,device)

  30.     # 使用文档对象从页面读取内容

  31.     for page in doc.get_pages():
  32.         # 使用页面解释器来读取
  33.         interpreter.process_page(page)

  34.         # 使用聚合器获取内容
  35.         layout = device.get_result()
  36.         for out in layout:
  37.             if hasattr(out,"get_text"):
  38.                 result = out.get_text()
  39.                 # print(result)
  40.                 with open('a.txt','w') as f:
  41.                     f.write(result.encode('utf-8')+'\n')
复制代码
最佳答案
2017-8-14 12:33:01
with open('a.txt','w',encoding='utf8') as f:
------------
你学些字符编码的基础知识去~
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-8-13 17:57:57 | 显示全部楼层
我们给你回答问题还要购买你的问题?我们有病啊!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-8-13 20:56:29 | 显示全部楼层

回帖奖励 +5 鱼币

f.write(result.decode('utf-8')+'\n')
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-8-14 08:54:05 | 显示全部楼层
SixPy 发表于 2017-8-13 20:56
f.write(result.decode('utf-8')+'\n')

依然不行,报错:AttributeError: 'str' object has no attribute 'decode'
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-8-14 09:39:47 | 显示全部楼层
f.write(result+'\n')
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-8-14 09:53:59 | 显示全部楼层
SixPy 发表于 2017-8-14 09:39
f.write(result+'\n')

还是报错,UnicodeEncodeError: 'gbk' codec can't encode character '\u0201' in position 15: illegal multibyte sequence
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-8-14 12:33:01 | 显示全部楼层    本楼为最佳答案   
with open('a.txt','w',encoding='utf8') as f:
------------
你学些字符编码的基础知识去~
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-1 13:18

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表