鱼C论坛

 找回密码
 立即注册
查看: 106|回复: 5

[大语言模型] 「DeepSeek」赶在2.18发重磅论文,截胡马斯克!!

[复制链接]
发表于 3 天前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
IMG_0382.JPG

就在马斯克昨天高调发布「史上最聪明 AI」 Grok-3的同一天,奥特曼突然宣布将开源 GPT-o3 系列,狠狠抢了一波注意力,呵呵,截胡是吧?

Grok-3科普:



结果没想到,当他DeepSeek 更是甩出突破性研究《原生稀疏注意力技术 (NSA)》,核弹级论文直接炸场,还是梁文峰亲自署名的!

直接抢了马斯克的头条。

这个NSA到底是个啥?

IMG_0383.JPG
IMG_0384.JPG
IMG_0385.JPG
IMG_0386.JPG

要知道当前所有 AI 在处理长文本时,都面临算力的问题 —— 读取 6.4 万字需要消耗 80% 的计算资源。

而现在其他大模型的方案都是治标不治本,比如:

  • 滑动窗口法:只看当前段落 → 容易漏掉全局信息
  • 随机抽样法:随便抽几句话 → 可能错过关键线索
  • 事后压缩法:先完整读一遍 → 浪费初始算力

但DeepSeek 的突破性方案 NSA,其实就是在模仿人的思考方式。

从根本上解决了这个问题,压缩信息去掉无用的修饰词获取全局视角。

关注信息的关键词:

  • 智能分块:将长文本切成 512 字小块,自动生成每个块的「摘要」(类似书籍目录)
  • 动态筛选:通过训练自主选择 16 个关键块(比如小说高潮章节)
  • 精准深挖:对选中内容逐字分析,同时扫描周边上下文

实测数据震撼业界:

  • 效率飞跃:处理 6.4 万字文本,训练速度提升 9 倍,推理提速 11.6 倍
  • 能力突破:在「万文寻针」测试中准确率 100%(传统方法仅 35%)
  • 成本重构:同等算力可处理 10 倍长文本,或仅需 1/10 资源达成相同效果
  • 智力提升:奥数题正确率从 9.2% 飙升至 14.6%,证明不止省算力更能提智商

为啥说 NSA 比 Grok-3 更值得关注呢?

马斯克的 Grok-3 还在那傻傻堆参数呢(宣称使用 10 万张显卡训练),而 NSA 已经直接挑战了大模型底层架构:

  • 首次实现「边筛选边学习」的端到端训练
  • 算法与 GPU 内存特性深度协同,从理论到商用全链路打通,摆明要快速落地

如果NSA能普及,可以说未来 1-2 年可能出现非常繁荣的前景:

  • 文档分析:千页报告 10 秒提炼核心结论
  • 教育革命:百万字文献解析成基础功能
  • 代码开发:AI 真正理解整体架构而非片段补全
  • 内容审核:实时分析 3 小时长视频全上下文

这就是一个行业格局洗牌信号!

当马斯克还在比拼显卡数量时,
游客,如果您要查看本帖隐藏内容请回复

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 前天 08:57 | 显示全部楼层
算力 算法 各取所长
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 前天 09:11 | 显示全部楼层
感谢分享!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 前天 09:23 | 显示全部楼层
感谢分享!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 前天 09:23 | 显示全部楼层
当马斯克还在比拼显卡数量时,DeepSeek 已改写了游戏规则。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 前天 09:26 | 显示全部楼层
快速收敛 发表于 2025-2-20 09:23
当马斯克还在比拼显卡数量时,DeepSeek 已改写了游戏规则。

是的!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-2-22 21:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表