PdfReadError: EOF marker not found 求助
求助:PdfReadError: EOF marker not found学习《Python让繁琐工作自动化》第13章,13.2小节,将多个pdf文件合并为1个pdf文件,代码如下:
#13.2 combinePdfs.py - Conbine all the pdfs in the current working directory
import PyPDF2,os
pdflist=[]
for f in os.listdir('.'):
if f.endswith('.pdf'):
pdflist.append(f)
pdflist.sort(key=str.lower)
print(pdflist)
pdfWriter=PyPDF2.PdfFileWriter()
for i in range(len(pdflist)):
pdfFile=open(pdflist,'rb')
pdfReader=PyPDF2.PdfFileReader(pdfFile)
if pdfReader.isEncrypted:
pdfReader.decrypt('123')
for num in range(pdfReader.numPages):
pagObj=pdfReader.getPage(num)
pdfWriter.addPage(pagObj)
pdfFile.close()
result=open('allminute.pdf','wb')
pdfWriter.write(result)
result.close()
报错误如下:
['allminute.pdf', 'conbin_watermarker.pdf', 'conbinedminutes.pdf', 'rotatedPage.pdf', 'vim-cheatsheet.pdf', 'watermark.pdf']
---------------------------------------------------------------------------
PdfReadError Traceback (most recent call last)
<ipython-input-3-dae0c3f9ccd7> in <module>
10 for i in range(len(pdflist)):
11 pdfFile=open(pdflist,'rb')
---> 12 pdfReader=PyPDF2.PdfFileReader(pdfFile)
13 if pdfReader.isEncrypted:
14 pdfReader.decrypt('123')
D:\ProgramData\Anaconda3\lib\site-packages\PyPDF2\pdf.py in __init__(self, stream, strict, warndest, overwriteWarnings)
1082 stream = BytesIO(b_(fileobj.read()))
1083 fileobj.close()
-> 1084 self.read(stream)
1085 self.stream = stream
1086
D:\ProgramData\Anaconda3\lib\site-packages\PyPDF2\pdf.py in read(self, stream)
1694 while line[:5] != b_("%%EOF"):
1695 if stream.tell() < last1K:
-> 1696 raise utils.PdfReadError("EOF marker not found")
1697 line = self.readNextEndLine(stream)
1698 if debug: print("line:",line)
PdfReadError: EOF marker not found PDF是一种文件格式,PDF解析器通常通过读取文件末尾的一些全局信息来开始读取文件。在文档的最后,需要有一行
%%EOF
这是一个标记,pdf解析器知道,pdf文档在这里结束,并且它需要的全局信息应该在此之前(startxref部分)。
看到的错误消息意味着,其中一个输入文档被截断,并且缺少这个%%EOF标记。 stackoverflow上说建议用 PdfFileMerger , 我试了一下,可以
from PyPDF2 import PdfFileMerger, PdfFileReader
pdfs = ['1.pdf', '2.pdf']
merger = PdfFileMerger()
for pdf in pdfs:
with open(pdf, 'rb', ) as f:
merger.append(PdfFileReader(f, 'rb'))
merger.write('merged.pdf')
# 参考:
# https://stackoverflow.com/questions/17104926/pypdf-merging-multiple-pdf-files-into-one-pdf 阿奇_o 发表于 2021-7-26 10:58
stackoverflow上说建议用 PdfFileMerger , 我试了一下,可以
PdfFileMerger 是整个pdf吧,如果只想挑选某个pdf中的几页呢? 大麦1 发表于 2021-7-26 22:24
PdfFileMerger 是整个pdf吧,如果只想挑选某个pdf中的几页呢?
自个查查文档,就merge.append()增加指定一个pages参数,即可 阿奇_o 发表于 2021-7-26 22:59
自个查查文档,就merge.append()增加指定一个pages参数,即可
试了下可以了,还有个地方不太明白,1.在第六行那可以用 merger.append(open(f,'rb'))吗?两者读取file文件有什么区别?2.这个地方打开为什么要加‘rb’啊,否则会报错。 大麦1 发表于 2021-7-31 23:29
试了下可以了,还有个地方不太明白,1.在第六行那可以用 merger.append(open(f,'rb'))吗?两者读取file文 ...
PdfFileReader() 第一个参数是steam, 需要一个 File Object 即 I/O Stream,
对于open()它是无法用'r'这样一般的文本模式来读取PDF文件的,故只能用'rb'模式,而PdfFileReader()它也要求stream是字节码的形式。
我的小错误,是第二个参数是 strict=True,我多写了'rb',写错了但刚好没影响 strict的值,bool('rb') -> True
故这里 第六行,正确的写法是 merge.append( PdfFileReader(f) )
我们单独拿出来,写法可以是 pdf_Reader_obj = PdfFileReader(open('1.pdf', 'rb'), )
总结:随时注意 "它是什么,这是什么对象类型?"; 理解File Object的几种不同模式。
页:
[1]