大麦1 发表于 2021-7-25 22:48:15

PdfReadError: EOF marker not found 求助

求助:PdfReadError: EOF marker not found
学习《Python让繁琐工作自动化》第13章,13.2小节,将多个pdf文件合并为1个pdf文件,代码如下:
#13.2 combinePdfs.py - Conbine all the pdfs in the current working directory
import PyPDF2,os
pdflist=[]
for f in os.listdir('.'):
    if f.endswith('.pdf'):
      pdflist.append(f)
pdflist.sort(key=str.lower)
print(pdflist)
pdfWriter=PyPDF2.PdfFileWriter()
for i in range(len(pdflist)):
    pdfFile=open(pdflist,'rb')
    pdfReader=PyPDF2.PdfFileReader(pdfFile)
    if pdfReader.isEncrypted:
      pdfReader.decrypt('123')
    for num in range(pdfReader.numPages):
      pagObj=pdfReader.getPage(num)
      pdfWriter.addPage(pagObj)
    pdfFile.close()
result=open('allminute.pdf','wb')
pdfWriter.write(result)
result.close()

报错误如下:
['allminute.pdf', 'conbin_watermarker.pdf', 'conbinedminutes.pdf', 'rotatedPage.pdf', 'vim-cheatsheet.pdf', 'watermark.pdf']
---------------------------------------------------------------------------
PdfReadError                              Traceback (most recent call last)
<ipython-input-3-dae0c3f9ccd7> in <module>
   10 for i in range(len(pdflist)):
   11   pdfFile=open(pdflist,'rb')
---> 12   pdfReader=PyPDF2.PdfFileReader(pdfFile)
   13   if pdfReader.isEncrypted:
   14         pdfReader.decrypt('123')

D:\ProgramData\Anaconda3\lib\site-packages\PyPDF2\pdf.py in __init__(self, stream, strict, warndest, overwriteWarnings)
   1082             stream = BytesIO(b_(fileobj.read()))
   1083             fileobj.close()
-> 1084         self.read(stream)
   1085         self.stream = stream
   1086

D:\ProgramData\Anaconda3\lib\site-packages\PyPDF2\pdf.py in read(self, stream)
   1694         while line[:5] != b_("%%EOF"):
   1695             if stream.tell() < last1K:
-> 1696               raise utils.PdfReadError("EOF marker not found")
   1697             line = self.readNextEndLine(stream)
   1698             if debug: print("line:",line)

PdfReadError: EOF marker not found

小月yyds 发表于 2021-7-26 09:16:47

PDF是一种文件格式,PDF解析器通常通过读取文件末尾的一些全局信息来开始读取文件。在文档的最后,需要有一行

%%EOF

这是一个标记,pdf解析器知道,pdf文档在这里结束,并且它需要的全局信息应该在此之前(startxref部分)。

看到的错误消息意味着,其中一个输入文档被截断,并且缺少这个%%EOF标记。

阿奇_o 发表于 2021-7-26 10:58:51

stackoverflow上说建议用 PdfFileMerger , 我试了一下,可以
from PyPDF2 import PdfFileMerger, PdfFileReader
pdfs = ['1.pdf', '2.pdf']
merger = PdfFileMerger()
for pdf in pdfs:
    with open(pdf, 'rb', ) as f:
      merger.append(PdfFileReader(f, 'rb'))

merger.write('merged.pdf')

# 参考:
# https://stackoverflow.com/questions/17104926/pypdf-merging-multiple-pdf-files-into-one-pdf

大麦1 发表于 2021-7-26 22:24:49

阿奇_o 发表于 2021-7-26 10:58
stackoverflow上说建议用 PdfFileMerger , 我试了一下,可以

PdfFileMerger 是整个pdf吧,如果只想挑选某个pdf中的几页呢?

阿奇_o 发表于 2021-7-26 22:59:56

大麦1 发表于 2021-7-26 22:24
PdfFileMerger 是整个pdf吧,如果只想挑选某个pdf中的几页呢?

自个查查文档,就merge.append()增加指定一个pages参数,即可

大麦1 发表于 2021-7-31 23:29:27

阿奇_o 发表于 2021-7-26 22:59
自个查查文档,就merge.append()增加指定一个pages参数,即可

试了下可以了,还有个地方不太明白,1.在第六行那可以用 merger.append(open(f,'rb'))吗?两者读取file文件有什么区别?2.这个地方打开为什么要加‘rb’啊,否则会报错。

阿奇_o 发表于 2021-8-1 13:42:20

大麦1 发表于 2021-7-31 23:29
试了下可以了,还有个地方不太明白,1.在第六行那可以用 merger.append(open(f,'rb'))吗?两者读取file文 ...

PdfFileReader() 第一个参数是steam, 需要一个 File Object 即 I/O Stream,
对于open()它是无法用'r'这样一般的文本模式来读取PDF文件的,故只能用'rb'模式,而PdfFileReader()它也要求stream是字节码的形式。

我的小错误,是第二个参数是 strict=True,我多写了'rb',写错了但刚好没影响 strict的值,bool('rb') -> True

故这里 第六行,正确的写法是 merge.append( PdfFileReader(f) )

我们单独拿出来,写法可以是 pdf_Reader_obj = PdfFileReader(open('1.pdf', 'rb'), )

总结:随时注意 "它是什么,这是什么对象类型?"; 理解File Object的几种不同模式。

页: [1]
查看完整版本: PdfReadError: EOF marker not found 求助