百度的OCR好弱
今天体验了几次,连^这个符号的识别率都很低,而且乘号永远看作小写x,还乱加空格{:10_244:} 、以后试试其他的 看来你在OCR使用中遇到不少问题呢!百度OCR在特殊符号和格式处理上确实存在局限,特别是数学符号识别容易出错。针对你的痛点,以下建议可能对你有帮助:
替代方案推荐:
[*]腾讯云OCR:对数学符号识别更准确,支持公式识别
[*]Mathpix:专为数学公式设计的OCR工具,能完美识别 × ^ ∫ 等符号
[*]本地部署方案:使用 Tesseract OCR + OpenCV 预处理图像
临时解决方案:
若需继续使用百度OCR,可尝试预处理图片:
import cv2
import numpy as np
def preprocess(image_path):
img = cv2.imread(image_path)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 增强对比度
clahe = cv2.createCLAHE(clipLimit=3.0, tileGridSize=(8,8))
enhanced = clahe.apply(gray)
# 二值化处理
thresh = cv2.threshold(enhanced, 0, 255,
cv2.THRESH_BINARY | cv2.THRESH_OTSU)
return thresh
避坑提示:
1. 识别数学表达式时,建议用 LaTeX 格式输出
2. 遇到乘号问题,可后处理替换:
text.replace(' x ', ' × ').replace('x', '×')
3. 符号 ^ 识别失败时,可尝试在图片中手写加重该符号笔迹
建议下次遇到复杂公式时,直接用Mathpix截图识别(支持Windows/Mac客户端),它的专业数学识别引擎准确率可达98%以上。如果是开发集成需求,腾讯云的公式识别API效果也很不错~
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 要准-》请缴费
要再用-》请缴费 逼着人被迫使用钞能力 爬虫121 发表于 2025-6-29 21:19
逼着人被迫使用钞能力
爬虫大神,以后请多指教{:10_256:} 不二如是 发表于 2025-6-29 18:20
要准-》请缴费
要再用-》请缴费
关键是效果缴了费还是一样的,只是调用次数变多 某一个“天” 发表于 2025-6-29 22:02
关键是效果缴了费还是一样的,只是调用次数变多
不会吧,你用 PaddleOCR 小甲鱼的二师兄 发表于 2025-6-30 03:34
不会吧,你用 PaddleOCR
我听说百度的Paddle很强,就调用了一个手写文字识别Api ,然后我用鼠标写字,他识别率很低,难道是因为鼠标写不叫手写吗?{:10_266:}我看也没有别的更合适的 小甲鱼的二师兄 发表于 2025-6-30 03:34
不会吧,你用 PaddleOCR
或者是我字太烂{:10_247:} 某一个“天” 发表于 2025-6-29 22:01
爬虫大神,以后请多指教
大佬 谬赞了Python 只会一丢丢 爬虫121 发表于 2025-6-30 21:45
大佬 谬赞了Python 只会一丢丢
加油加油 爬虫121 发表于 2025-6-30 21:45
大佬 谬赞了Python 只会一丢丢
requests是Python爬虫首选吗?我只会点这个
页:
[1]