python识别PDF文件中文字

爱俯卧撑的123 · 发表于 2022-6-15 16:14:34

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

各位大佬，请问python识别PDF文件(扫描件)文字的情况，是只能通过转为PNG后保存，再通过cv2模块打开PNG后识别么？
想知道有没有效率更高的方法，这样先读取再保存再读取的效率实在太低了

目前代码如下:
def pdf_2_png(pdfPath,pngPath,zoom_x,zoom_y,rotation_angle):
# 打开PDF文件
pdf = fitz.open(pdfPath)

# 逐页读取PDF
for pg in range(0, pdf.pageCount):
      page = pdf[pg]
      # 设置缩放和旋转系数
      trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotation_angle)
      pm = page.get_pixmap(matrix=trans, alpha=False)
      # 保存在 PDF转PNG 文件夹中
      pm.save('PDF转PNG/' + pngPath + '(' + str(pg+1) + ')' + '.png')

pdf.close()

def png_text(img_path):
text=pytesseract.image_to_string(Image.open(img_path))
print(text)

账号		自动登录	找回密码
密码			立即注册

python识别PDF文件中文字

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块