「DeepSeek-OCR」DeepSeek开源新模型,爆火!内含中英双语论文
本帖最后由 不二如是 于 2025-10-21 11:24 编辑在开源模型社区中,DeepSeek‑OCR(有时与其母模型 DeepSeek‑VL2 相关联)一经发布即迅速引发关注。
该模型被称“刚发布12小时就拿下2.3 k星标”,并以技术创新与硬实力成为热门话题。其核心突破在于:
当传统 OCR 还主要在拼精度与速度的时候,DeepSeek-OCR 换了个赛道——它提出了“上下文光学压缩技术”,即将文字拍成图片,用视觉模型作为压缩器。
在线学习:
https://www.bilibili.com/video/BV1sfWSztEnP
Github:传送门
通过这一方式,原本可能需要上千个 token 才能表达的内容,现在仅需几十个即可完成。
在权威基准 OmniDocBench 上,DeepSeek-OCR 以仅约100个视觉 token 超越了 GOT‑OCR2.0 标准的256 token;
更夸张的是,使用不到800个视觉 token 即完全碾压了平均每页6,000+ token 的 MinerU。
这些数据彰显其在“压缩视觉 token 数量”上的优势。
DeepSeek_OCR_paper-鱼C翻译.pdf 链接: https://pan.baidu.com/s/1jBxwRpIririe2EusEHeZvg?pwd=xiao 提取码: **** Hidden Message *****
DeepSeek-OCR 不仅具备文字识别能力,还声称支持图表转数据、化学公式解析、几何图形识别等多元素版面场景。
其使用场景包括纸质档案电子化、实时证件识别、学术论文处理等;
据称在单张 Nvidia A100 显卡下,日均可处理 20 万页文档。
这意味着它具备从传统扫字转录,向版面理解、结构化提取迈进的潜力。
评论区聊聊你的想法吧{:10_330:}
https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png
>>万能兑换C币许愿池<<
如果有收获,别忘了评分{:10_281:} :
https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif
感谢分享 朕又在鱼C发现宝藏项目啦!非常满意{:10_275:} @FishC 介绍 DeepSeek-OCR项目 不二如是 发表于 2025-10-21 11:25
@FishC 介绍 DeepSeek-OCR项目
DeepSeek-OCR 项目介绍
DeepSeek-OCR 是一个开源的光学字符识别(OCR)项目,由深度求索公司开发。它基于深度学习技术,能够从图像中准确提取文本信息,适用于多种场景。
主要功能:
[*] 图像文本识别:支持从扫描文档、照片等图像中识别文字。
[*] 多语言支持:包括中文、英文等常见语言。
[*] 表格和文档处理:可提取结构化数据,如表格内容。
[*] 易于集成:提供简单的API,方便集成到其他应用中。
特点:
[*] 高精度:采用先进的神经网络模型,识别准确率高。
[*] 轻量高效:优化模型大小和速度,适合资源受限环境。
[*] 开源免费:代码公开,社区驱动,便于学习和定制。
简单使用示例:
# 假设安装 deepseek-ocr 库后
from deepseek_ocr import Recognizer
# 初始化识别器
ocr = Recognizer()
# 从图像文件识别文本
result = ocr.recognize('example.jpg')
print(result)
DeepSeek-OCR 适合初学者和开发者用于学习OCR技术或构建实际应用。如果您对计算机视觉感兴趣,可以尝试用它来处理自己的图像项目!
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
页:
[1]