python识别PDF文件中文字
各位大佬,请问python识别PDF文件(扫描件)文字的情况,是只能通过转为PNG后保存,再通过cv2模块打开PNG后识别么?想知道有没有效率更高的方法,这样先读取再保存再读取的效率实在太低了
目前代码如下:
def pdf_2_png(pdfPath,pngPath,zoom_x,zoom_y,rotation_angle):
# 打开PDF文件
pdf = fitz.open(pdfPath)
# 逐页读取PDF
for pg in range(0, pdf.pageCount):
page = pdf
# 设置缩放和旋转系数
trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotation_angle)
pm = page.get_pixmap(matrix=trans, alpha=False)
# 保存在 PDF转PNG 文件夹中
pm.save('PDF转PNG/' + pngPath + '(' + str(pg+1) + ')' + '.png')
pdf.close()
def png_text(img_path):
text=pytesseract.image_to_string(Image.open(img_path))
print(text)
页:
[1]