鱼C论坛

 找回密码
 立即注册
查看: 1980|回复: 0

python识别PDF文件中文字

[复制链接]
发表于 2022-6-15 16:14:34 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
各位大佬,请问python识别PDF文件(扫描件)文字的情况,是只能通过转为PNG后保存,再通过cv2模块打开PNG后识别么?
想知道有没有效率更高的方法,这样先读取再保存再读取的效率实在太低了


目前代码如下:
def pdf_2_png(pdfPath,pngPath,zoom_x,zoom_y,rotation_angle):
    # 打开PDF文件
    pdf = fitz.open(pdfPath)

    # 逐页读取PDF
    for pg in range(0, pdf.pageCount):
        page = pdf[pg]
        # 设置缩放和旋转系数
        trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotation_angle)
        pm = page.get_pixmap(matrix=trans, alpha=False)
        # 保存在 PDF转PNG 文件夹中
        pm.save('PDF转PNG/' + pngPath + '(' + str(pg+1) + ')' + '.png')

    pdf.close()

def png_text(img_path):
    text=pytesseract.image_to_string(Image.open(img_path))
    print(text)
   
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-17 21:36

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表