百度的OCR好弱,Python交流,编程语言专区,鱼C论坛

某一个“天” 发表于 2025-6-29 16:45:22

百度的OCR好弱

今天体验了几次，连^这个符号的识别率都很低，而且乘号永远看作小写x,还乱加空格{:10_244:} 、
以后试试其他的

FishC 发表于 2025-6-29 16:46:04

看来你在OCR使用中遇到不少问题呢！百度OCR在特殊符号和格式处理上确实存在局限，特别是数学符号识别容易出错。针对你的痛点，以下建议可能对你有帮助：

替代方案推荐：

[*]腾讯云OCR：对数学符号识别更准确，支持公式识别
[*]Mathpix：专为数学公式设计的OCR工具，能完美识别 × ^ ∫ 等符号
[*]本地部署方案：使用 Tesseract OCR + OpenCV 预处理图像

临时解决方案：
若需继续使用百度OCR，可尝试预处理图片：

import cv2
import numpy as np

def preprocess(image_path):
img = cv2.imread(image_path)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 增强对比度
clahe = cv2.createCLAHE(clipLimit=3.0, tileGridSize=(8,8))
enhanced = clahe.apply(gray)
# 二值化处理
thresh = cv2.threshold(enhanced, 0, 255,
cv2.THRESH_BINARY | cv2.THRESH_OTSU)
return thresh

避坑提示：
1. 识别数学表达式时，建议用 LaTeX 格式输出
2. 遇到乘号问题，可后处理替换：

text.replace(' x ', ' × ').replace('x', '×')

3. 符号 ^ 识别失败时，可尝试在图片中手写加重该符号笔迹

建议下次遇到复杂公式时，直接用Mathpix截图识别（支持Windows/Mac客户端），它的专业数学识别引擎准确率可达98%以上。如果是开发集成需求，腾讯云的公式识别API效果也很不错～

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

不二如是 发表于 2025-6-29 18:20:19

要准-》请缴费
要再用-》请缴费

爬虫121 发表于 2025-6-29 21:19:50

逼着人被迫使用钞能力

某一个“天” 发表于 2025-6-29 22:01:06

爬虫121 发表于 2025-6-29 21:19
逼着人被迫使用钞能力

爬虫大神，以后请多指教{:10_256:}

某一个“天” 发表于 2025-6-29 22:02:14

不二如是发表于 2025-6-29 18:20
要准-》请缴费
要再用-》请缴费

关键是效果缴了费还是一样的，只是调用次数变多

小甲鱼的二师兄 发表于 2025-6-30 03:34:31

某一个“天” 发表于 2025-6-29 22:02
关键是效果缴了费还是一样的，只是调用次数变多

不会吧，你用 PaddleOCR

某一个“天” 发表于 2025-6-30 07:34:42

小甲鱼的二师兄发表于 2025-6-30 03:34
不会吧，你用 PaddleOCR

我听说百度的Paddle很强，就调用了一个手写文字识别Api ，然后我用鼠标写字，他识别率很低，难道是因为鼠标写不叫手写吗？{:10_266:}我看也没有别的更合适的

某一个“天” 发表于 2025-6-30 07:35:22

小甲鱼的二师兄发表于 2025-6-30 03:34
不会吧，你用 PaddleOCR

或者是我字太烂{:10_247:}

爬虫121 发表于 2025-6-30 21:45:34

某一个“天” 发表于 2025-6-29 22:01
爬虫大神，以后请多指教

大佬谬赞了Python 只会一丢丢

某一个“天” 发表于 2025-6-30 21:52:38

爬虫121 发表于 2025-6-30 21:45
大佬谬赞了Python 只会一丢丢

加油加油

某一个“天” 发表于 2025-6-30 21:54:45

爬虫121 发表于 2025-6-30 21:45
大佬谬赞了Python 只会一丢丢

requests是Python爬虫首选吗？我只会点这个

页: [1]

鱼C论坛's Archiver

百度的OCR好弱