爱俯卧撑的123 发表于 2022-6-15 16:14:34

python识别PDF文件中文字

各位大佬,请问python识别PDF文件(扫描件)文字的情况,是只能通过转为PNG后保存,再通过cv2模块打开PNG后识别么?
想知道有没有效率更高的方法,这样先读取再保存再读取的效率实在太低了

目前代码如下:
def pdf_2_png(pdfPath,pngPath,zoom_x,zoom_y,rotation_angle):
    # 打开PDF文件
    pdf = fitz.open(pdfPath)

    # 逐页读取PDF
    for pg in range(0, pdf.pageCount):
      page = pdf
      # 设置缩放和旋转系数
      trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotation_angle)
      pm = page.get_pixmap(matrix=trans, alpha=False)
      # 保存在 PDF转PNG 文件夹中
      pm.save('PDF转PNG/' + pngPath + '(' + str(pg+1) + ')' + '.png')

    pdf.close()

def png_text(img_path):
    text=pytesseract.image_to_string(Image.open(img_path))
    print(text)
   
页: [1]
查看完整版本: python识别PDF文件中文字