[已解决]PdfReadError: EOF marker not found 求助

大麦1 · 发表于 2021-7-25 22:48:15

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

求助：PdfReadError: EOF marker not found
学习《Python让繁琐工作自动化》第13章，13.2小节，将多个pdf文件合并为1个pdf文件，代码如下:
#13.2 combinePdfs.py - Conbine all the pdfs in the current working directory
import PyPDF2,os
pdflist=[]
for f in os.listdir('.'):
if f.endswith('.pdf'):
      pdflist.append(f)
pdflist.sort(key=str.lower)
print(pdflist)
pdfWriter=PyPDF2.PdfFileWriter()
for i in range(len(pdflist)):
pdfFile=open(pdflist[i],'rb')
pdfReader=PyPDF2.PdfFileReader(pdfFile)
if pdfReader.isEncrypted:
      pdfReader.decrypt('123')
for num in range(pdfReader.numPages):
      pagObj=pdfReader.getPage(num)
      pdfWriter.addPage(pagObj)
pdfFile.close()
result=open('allminute.pdf','wb')
pdfWriter.write(result)
result.close()

报错误如下：
['allminute.pdf', 'conbin_watermarker.pdf', 'conbinedminutes.pdf', 'rotatedPage.pdf', 'vim-cheatsheet.pdf', 'watermark.pdf']
---------------------------------------------------------------------------
PdfReadError                            Traceback (most recent call last)
<ipython-input-3-dae0c3f9ccd7> in <module>
   10 for i in range(len(pdflist)):
   11    pdfFile=open(pdflist[i],'rb')
---> 12    pdfReader=PyPDF2.PdfFileReader(pdfFile)
   13    if pdfReader.isEncrypted:
   14       pdfReader.decrypt('123')

D:\ProgramData\Anaconda3\lib\site-packages\PyPDF2\pdf.py in __init__(self, stream, strict, warndest, overwriteWarnings)
1082          stream = BytesIO(b_(fileobj.read()))
1083          fileobj.close()
-> 1084       self.read(stream)
1085       self.stream = stream
1086

D:\ProgramData\Anaconda3\lib\site-packages\PyPDF2\pdf.py in read(self, stream)
1694       while line[:5] != b_("%%EOF"):
1695          if stream.tell() < last1K:
-> 1696                raise utils.PdfReadError("EOF marker not found")
1697          line = self.readNextEndLine(stream)
1698          if debug: print("  line:",line)

PdfReadError: EOF marker not found

最佳答案

月排行榜 / 总排行榜

阿奇_o

2021-7-26 22:59:56

大麦1 发表于 2021-7-26 22:24
PdfFileMerger 是整个pdf吧，如果只想挑选某个pdf中的几页呢？

自个查查文档，就merge.append()增加指定一个pages参数，即可

跳转到最佳答案楼层

小月yyds · 发表于 2021-7-26 09:16:47

PDF是一种文件格式，PDF解析器通常通过读取文件末尾的一些全局信息来开始读取文件。在文档的最后，需要有一行

%%EOF

这是一个标记，pdf解析器知道，pdf文档在这里结束，并且它需要的全局信息应该在此之前（startxref部分）。

看到的错误消息意味着，其中一个输入文档被截断，并且缺少这个%%EOF标记。

阿奇_o · 发表于 2021-7-26 10:58:51

stackoverflow上说建议用 PdfFileMerger , 我试了一下，可以

from PyPDF2 import PdfFileMerger, PdfFileReader
pdfs = ['1.pdf', '2.pdf']
merger = PdfFileMerger()
for pdf in pdfs:
with open(pdf, 'rb', ) as f:
merger.append(PdfFileReader(f, 'rb'))
merger.write('merged.pdf')
# 参考：
# https://stackoverflow.com/questions/17104926/pypdf-merging-multiple-pdf-files-into-one-pdf

复制代码

大麦1 · 发表于 2021-7-26 22:24:49

阿奇_o 发表于 2021-7-26 10:58
stackoverflow上说建议用 PdfFileMerger , 我试了一下，可以

PdfFileMerger 是整个pdf吧，如果只想挑选某个pdf中的几页呢？

阿奇_o · 发表于 2021-7-26 22:59:56

大麦1 发表于 2021-7-26 22:24
PdfFileMerger 是整个pdf吧，如果只想挑选某个pdf中的几页呢？

自个查查文档，就merge.append()增加指定一个pages参数，即可

大麦1 · 发表于 2021-7-31 23:29:27

阿奇_o 发表于 2021-7-26 22:59
自个查查文档，就merge.append()增加指定一个pages参数，即可

试了下可以了，还有个地方不太明白，1.在第六行那可以用 merger.append(open(f,'rb'))吗？两者读取file文件有什么区别？2.这个地方打开为什么要加‘rb’啊，否则会报错。

阿奇_o · 发表于 2021-8-1 13:42:20

大麦1 发表于 2021-7-31 23:29
试了下可以了，还有个地方不太明白，1.在第六行那可以用 merger.append(open(f,'rb'))吗？两者读取file文 ...

PdfFileReader() 第一个参数是steam, 需要一个 File Object 即 I/O Stream，
对于open()它是无法用'r'这样一般的文本模式来读取PDF文件的，故只能用'rb'模式，而PdfFileReader()它也要求stream是字节码的形式。

我的小错误，是第二个参数是 strict=True，我多写了'rb'，写错了但刚好没影响 strict的值，bool('rb') -> True

故这里第六行，正确的写法是 merge.append( PdfFileReader(f) )

我们单独拿出来，写法可以是 pdf_Reader_obj = PdfFileReader(open('1.pdf', 'rb'), )

总结：随时注意 "它是什么，这是什么对象类型？"；理解File Object的几种不同模式。

账号		自动登录	找回密码
密码			立即注册

[已解决]PdfReadError: EOF marker not found 求助

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块