不二如是 发表于 前天 11:00

苹果新论文「质疑DeepSeek-R1,o3等AI没有推理能力」引1000万人围观!



苹果机器学习团队在2025年6月9日发布论文《TheIllusionofThinking》,系统评估了Deepseek-R1、Claude3.7Sonnet、o3-mini等大型推理模型(LRM)的真实推理能力。研究指出,这些模型在低复杂度任务上表现尚可,但当题目复杂度超过阈值时会出现“准确率断崖式崩溃”,且思考token数量不仅未随难度增加而增加,反而锐减,暗示其所谓“推理”主要依赖记忆。相关推文在X平台迅速获得逾千万次浏览,引发学术界与产业界的大规模讨论。

在现学习:

https://www.bilibili.com/video/BV1mHMwzsEko

论文下载:**** Hidden Message *****

为避开常用数学与编程基准测试可能出现的数据污染,论文作者设计了四类逻辑结构稳定且复杂度可控的经典谜题:

TowerofHanoi、PegSolitaire、RiverCrossing与BlocksWorld。
他们通过逐级调高参数细化难度,并用高保真模拟器验证模型每一步动作的合法性,从而量化“思考”轨迹。

实验发现:


[*]①简单场景下,常规模型往往比LRM更快更准;
[*]②当复杂度达到拐点时,两类模型准确率均趋近零,但LRM的崩溃只是稍晚一步;
[*]③LRM在易题上倾向过度思考,而在难题早期即走错后缺乏自我纠错;
[*]④即使提供完整算法步骤,模型仍无法稳定执行,说明其基础逻辑执行与验证能力缺失。

论文发布后,支持者认为这项工作暴露了行业在“大规模记忆+链式思考”路线上的天花板;

批评者则指出实验范围过窄、未评估多模态推理与外部工具调用能力,并揶揄苹果“吃不到葡萄说葡萄酸”。

GaryMarcus等专家称结果“令人警醒”,呼吁行业考虑范式转移;

亦有开发者期待下一代混合架构与工具协同突破瓶颈。无论立场如何,这项研究提醒业界:

若要真正攻克复杂推理,必须深入剖析模型内部思考流程,而不仅依赖堆砌参数或提示工程。
论文发布后,支持者认为这项工作暴露了行业在“大规模记忆+链式思考”路线上的天花板;

批评者则指出实验范围过窄、未评估多模态推理与外部工具调用能力,并揶揄苹果“吃不到葡萄说葡萄酸”。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获,别忘了评分{:10_281:} :

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif                                                                  

小甲鱼的二师兄 发表于 前天 12:40

{:9_217:} 敢情是记忆力好是吧?

快速收敛 发表于 前天 13:35

吃不到葡萄说葡萄酸

不二如是 发表于 前天 14:29

小甲鱼的二师兄 发表于 2025-6-13 12:40
敢情是记忆力好是吧?

论文结论是滴

不二如是 发表于 前天 14:29

快速收敛 发表于 2025-6-13 13:35
吃不到葡萄说葡萄酸

有这个可能

爬虫121 发表于 前天 16:48

啊啊啊啊啊啊啊,怎么回四呢

满足我的日常需求了 其他的不关心

鱼C-小师妹 发表于 昨天 15:54

啊啊啊啊啊啊啊,怎么回四呢

不二如是 发表于 昨天 18:36

鱼C-小师妹 发表于 2025-6-14 15:54
啊啊啊啊啊啊啊,怎么回四呢

{:5_109:}

Clay_Chow 发表于 11 小时前

啊啊啊啊啊啊啊,怎么回四呢

不二如是 发表于 8 小时前

Clay_Chow 发表于 2025-6-15 07:34
啊啊啊啊啊啊啊,怎么回四呢

{:10_288:}{:10_288:}{:10_288:}
页: [1]
查看完整版本: 苹果新论文「质疑DeepSeek-R1,o3等AI没有推理能力」引1000万人围观!