「DeepSeek」赶在2.18发重磅论文，截胡马斯克！！

不二如是 · 发表于 2025-2-19 20:00:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

就在马斯克昨天高调发布「史上最聪明 AI」 Grok-3的同一天，奥特曼突然宣布将开源 GPT-o3 系列，狠狠抢了一波注意力，呵呵，截胡是吧？

Grok-3科普：

结果没想到，当他DeepSeek 更是甩出突破性研究《原生稀疏注意力技术 (NSA)》，核弹级论文直接炸场，还是梁文峰亲自署名的！

直接抢了马斯克的头条。

这个NSA到底是个啥？

要知道当前所有 AI 在处理长文本时，都面临算力的问题 —— 读取 6.4 万字需要消耗 80% 的计算资源。

而现在其他大模型的方案都是治标不治本，比如：

滑动窗口法：只看当前段落 → 容易漏掉全局信息
随机抽样法：随便抽几句话 → 可能错过关键线索
事后压缩法：先完整读一遍 → 浪费初始算力

但DeepSeek 的突破性方案 NSA，其实就是在模仿人的思考方式。

从根本上解决了这个问题，压缩信息去掉无用的修饰词获取全局视角。

关注信息的关键词：

智能分块：将长文本切成 512 字小块，自动生成每个块的「摘要」（类似书籍目录）
动态筛选：通过训练自主选择 16 个关键块（比如小说高潮章节）
精准深挖：对选中内容逐字分析，同时扫描周边上下文

实测数据震撼业界：

效率飞跃：处理 6.4 万字文本，训练速度提升 9 倍，推理提速 11.6 倍
能力突破：在「万文寻针」测试中准确率 100%（传统方法仅 35%）
成本重构：同等算力可处理 10 倍长文本，或仅需 1/10 资源达成相同效果
智力提升：奥数题正确率从 9.2% 飙升至 14.6%，证明不止省算力更能提智商

为啥说 NSA 比 Grok-3 更值得关注呢？

马斯克的 Grok-3 还在那傻傻堆参数呢（宣称使用 10 万张显卡训练），而 NSA 已经直接挑战了大模型底层架构：

首次实现「边筛选边学习」的端到端训练
算法与 GPU 内存特性深度协同，从理论到商用全链路打通，摆明要快速落地

如果NSA能普及，可以说未来 1-2 年可能出现非常繁荣的前景：

文档分析：千页报告 10 秒提炼核心结论
教育革命：百万字文献解析成基础功能
代码开发：AI 真正理解整体架构而非片段补全
内容审核：实时分析 3 小时长视频全上下文

这就是一个行业格局洗牌信号！

当马斯克还在比拼显卡数量时，

游客，如果您要查看本帖隐藏内容请回复

tomok · 发表于 2025-2-20 08:57:55

算力算法各取所长

不二如是 · 发表于 2025-2-20 09:11:51

感谢分享！！

MGi_DL · 发表于 2025-2-20 09:23:00

感谢分享！！

快速收敛 · 发表于 2025-2-20 09:23:12

当马斯克还在比拼显卡数量时，DeepSeek 已改写了游戏规则。

不二如是 · 发表于 2025-2-20 09:26:06

快速收敛发表于 2025-2-20 09:23
当马斯克还在比拼显卡数量时，DeepSeek 已改写了游戏规则。

是的！

不二如是 · 发表于 2025-3-30 18:59:40

感谢分享！！

账号		自动登录	找回密码
密码			立即注册

[最新资讯] 「DeepSeek」赶在2.18发重磅论文，截胡马斯克！！

马上注册，结交更多好友，享用更多功能^_^

评分

相关帖子

浏览过的版块