鱼C论坛

 找回密码
 立即注册
查看: 3826|回复: 6

[已解决]PdfReadError: EOF marker not found 求助

[复制链接]
发表于 2021-7-25 22:48:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
求助:PdfReadError: EOF marker not found
学习《Python让繁琐工作自动化》第13章,13.2小节,将多个pdf文件合并为1个pdf文件,代码如下:
#13.2 combinePdfs.py - Conbine all the pdfs in the current working directory
import PyPDF2,os
pdflist=[]
for f in os.listdir('.'):
    if f.endswith('.pdf'):
        pdflist.append(f)
pdflist.sort(key=str.lower)
print(pdflist)
pdfWriter=PyPDF2.PdfFileWriter()
for i in range(len(pdflist)):
    pdfFile=open(pdflist[i],'rb')
    pdfReader=PyPDF2.PdfFileReader(pdfFile)
    if pdfReader.isEncrypted:
        pdfReader.decrypt('123')
    for num in range(pdfReader.numPages):
        pagObj=pdfReader.getPage(num)
        pdfWriter.addPage(pagObj)
    pdfFile.close()
result=open('allminute.pdf','wb')
pdfWriter.write(result)
result.close()

报错误如下:
['allminute.pdf', 'conbin_watermarker.pdf', 'conbinedminutes.pdf', 'rotatedPage.pdf', 'vim-cheatsheet.pdf', 'watermark.pdf']
---------------------------------------------------------------------------
PdfReadError                              Traceback (most recent call last)
<ipython-input-3-dae0c3f9ccd7> in <module>
     10 for i in range(len(pdflist)):
     11     pdfFile=open(pdflist[i],'rb')
---> 12     pdfReader=PyPDF2.PdfFileReader(pdfFile)
     13     if pdfReader.isEncrypted:
     14         pdfReader.decrypt('123')

D:\ProgramData\Anaconda3\lib\site-packages\PyPDF2\pdf.py in __init__(self, stream, strict, warndest, overwriteWarnings)
   1082             stream = BytesIO(b_(fileobj.read()))
   1083             fileobj.close()
-> 1084         self.read(stream)
   1085         self.stream = stream
   1086

D:\ProgramData\Anaconda3\lib\site-packages\PyPDF2\pdf.py in read(self, stream)
   1694         while line[:5] != b_("%%EOF"):
   1695             if stream.tell() < last1K:
-> 1696                 raise utils.PdfReadError("EOF marker not found")
   1697             line = self.readNextEndLine(stream)
   1698             if debug: print("  line:",line)

PdfReadError: EOF marker not found
最佳答案
2021-7-26 22:59:56
大麦1 发表于 2021-7-26 22:24
PdfFileMerger 是整个pdf吧,如果只想挑选某个pdf中的几页呢?

自个查查文档,就merge.append()增加指定一个pages参数,即可
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-26 09:16:47 | 显示全部楼层
PDF是一种文件格式,PDF解析器通常通过读取文件末尾的一些全局信息来开始读取文件。在文档的最后,需要有一行

%%EOF

这是一个标记,pdf解析器知道,pdf文档在这里结束,并且它需要的全局信息应该在此之前(startxref部分)。

看到的错误消息意味着,其中一个输入文档被截断,并且缺少这个%%EOF标记。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-26 10:58:51 | 显示全部楼层
stackoverflow上说建议用 PdfFileMerger , 我试了一下,可以
  1. from PyPDF2 import PdfFileMerger, PdfFileReader
  2. pdfs = ['1.pdf', '2.pdf']
  3. merger = PdfFileMerger()
  4. for pdf in pdfs:
  5.     with open(pdf, 'rb', ) as f:
  6.         merger.append(PdfFileReader(f, 'rb'))

  7. merger.write('merged.pdf')

  8. # 参考:
  9. # https://stackoverflow.com/questions/17104926/pypdf-merging-multiple-pdf-files-into-one-pdf
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-26 22:24:49 | 显示全部楼层
阿奇_o 发表于 2021-7-26 10:58
stackoverflow上说建议用 PdfFileMerger , 我试了一下,可以

PdfFileMerger 是整个pdf吧,如果只想挑选某个pdf中的几页呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-26 22:59:56 | 显示全部楼层    本楼为最佳答案   
大麦1 发表于 2021-7-26 22:24
PdfFileMerger 是整个pdf吧,如果只想挑选某个pdf中的几页呢?

自个查查文档,就merge.append()增加指定一个pages参数,即可
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-31 23:29:27 | 显示全部楼层
阿奇_o 发表于 2021-7-26 22:59
自个查查文档,就merge.append()增加指定一个pages参数,即可

试了下可以了,还有个地方不太明白,1.在第六行那可以用 merger.append(open(f,'rb'))吗?两者读取file文件有什么区别?2.这个地方打开为什么要加‘rb’啊,否则会报错。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-1 13:42:20 | 显示全部楼层
大麦1 发表于 2021-7-31 23:29
试了下可以了,还有个地方不太明白,1.在第六行那可以用 merger.append(open(f,'rb'))吗?两者读取file文 ...


PdfFileReader() 第一个参数是steam, 需要一个 File Object 即 I/O Stream,
对于open()它是无法用'r'这样一般的文本模式来读取PDF文件的,故只能用'rb'模式,而PdfFileReader()它也要求stream是字节码的形式。
  
我的小错误,是第二个参数是 strict=True,我多写了'rb',写错了但刚好没影响 strict的值,bool('rb') -> True

故这里 第六行,正确的写法是 merge.append( PdfFileReader(f) )

我们单独拿出来,写法可以是 pdf_Reader_obj = PdfFileReader(open('1.pdf', 'rb'), )  

总结:随时注意 "它是什么,这是什么对象类型?"; 理解File Object的几种不同模式。

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-3 11:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表