python识别PDF文件中文字,Python交流,编程语言专区,鱼C论坛

爱俯卧撑的123 发表于 2022-6-15 16:14:34

python识别PDF文件中文字

各位大佬，请问python识别PDF文件(扫描件)文字的情况，是只能通过转为PNG后保存，再通过cv2模块打开PNG后识别么？
想知道有没有效率更高的方法，这样先读取再保存再读取的效率实在太低了

目前代码如下:
def pdf_2_png(pdfPath,pngPath,zoom_x,zoom_y,rotation_angle):
# 打开PDF文件
pdf = fitz.open(pdfPath)

# 逐页读取PDF
for pg in range(0, pdf.pageCount):
   page = pdf
   # 设置缩放和旋转系数
   trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotation_angle)
   pm = page.get_pixmap(matrix=trans, alpha=False)
   # 保存在 PDF转PNG 文件夹中
   pm.save('PDF转PNG/' + pngPath + '(' + str(pg+1) + ')' + '.png')

pdf.close()

def png_text(img_path):
text=pytesseract.image_to_string(Image.open(img_path))
print(text)

页: [1]

鱼C论坛's Archiver

python识别PDF文件中文字