某一个“天” 发表于 5 天前

百度的OCR好弱

今天体验了几次,连^这个符号的识别率都很低,而且乘号永远看作小写x,还乱加空格{:10_244:} 、
以后试试其他的

FishC 发表于 5 天前

看来你在OCR使用中遇到不少问题呢!百度OCR在特殊符号和格式处理上确实存在局限,特别是数学符号识别容易出错。针对你的痛点,以下建议可能对你有帮助:

替代方案推荐:

[*]腾讯云OCR:对数学符号识别更准确,支持公式识别
[*]Mathpix:专为数学公式设计的OCR工具,能完美识别 × ^ ∫ 等符号
[*]本地部署方案:使用 Tesseract OCR + OpenCV 预处理图像


临时解决方案:
若需继续使用百度OCR,可尝试预处理图片:

import cv2
import numpy as np

def preprocess(image_path):
    img = cv2.imread(image_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    # 增强对比度
    clahe = cv2.createCLAHE(clipLimit=3.0, tileGridSize=(8,8))
    enhanced = clahe.apply(gray)
    # 二值化处理
    thresh = cv2.threshold(enhanced, 0, 255,
               cv2.THRESH_BINARY | cv2.THRESH_OTSU)
    return thresh


避坑提示:
1. 识别数学表达式时,建议用 LaTeX 格式输出
2. 遇到乘号问题,可后处理替换:
   
   text.replace(' x ', ' × ').replace('x', '×')
   
3. 符号 ^ 识别失败时,可尝试在图片中手写加重该符号笔迹

建议下次遇到复杂公式时,直接用Mathpix截图识别(支持Windows/Mac客户端),它的专业数学识别引擎准确率可达98%以上。如果是开发集成需求,腾讯云的公式识别API效果也很不错~

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

不二如是 发表于 5 天前

要准-》请缴费
要再用-》请缴费

爬虫121 发表于 5 天前

逼着人被迫使用钞能力

某一个“天” 发表于 5 天前

爬虫121 发表于 2025-6-29 21:19
逼着人被迫使用钞能力

爬虫大神,以后请多指教{:10_256:}

某一个“天” 发表于 5 天前

不二如是 发表于 2025-6-29 18:20
要准-》请缴费
要再用-》请缴费

关键是效果缴了费还是一样的,只是调用次数变多

小甲鱼的二师兄 发表于 4 天前

某一个“天” 发表于 2025-6-29 22:02
关键是效果缴了费还是一样的,只是调用次数变多

不会吧,你用 PaddleOCR

某一个“天” 发表于 4 天前

小甲鱼的二师兄 发表于 2025-6-30 03:34
不会吧,你用 PaddleOCR

我听说百度的Paddle很强,就调用了一个手写文字识别Api ,然后我用鼠标写字,他识别率很低,难道是因为鼠标写不叫手写吗?{:10_266:}我看也没有别的更合适的

某一个“天” 发表于 4 天前

小甲鱼的二师兄 发表于 2025-6-30 03:34
不会吧,你用 PaddleOCR

或者是我字太烂{:10_247:}

爬虫121 发表于 4 天前

某一个“天” 发表于 2025-6-29 22:01
爬虫大神,以后请多指教

大佬 谬赞了Python 只会一丢丢

某一个“天” 发表于 4 天前

爬虫121 发表于 2025-6-30 21:45
大佬 谬赞了Python 只会一丢丢

加油加油

某一个“天” 发表于 4 天前

爬虫121 发表于 2025-6-30 21:45
大佬 谬赞了Python 只会一丢丢

requests是Python爬虫首选吗?我只会点这个
页: [1]
查看完整版本: 百度的OCR好弱