苹果新论文「质疑DeepSeek-R1，o3等AI没有推理能力」引1000万人围观！,科技·AI·新纪元,前沿与探索,鱼C论坛

不二如是 发表于 2025-6-13 11:00:00

苹果新论文「质疑DeepSeek-R1，o3等AI没有推理能力」引1000万人围观！

苹果机器学习团队在2025年6月9日发布论文《TheIllusionofThinking》，系统评估了Deepseek-R1、Claude3.7Sonnet、o3-mini等大型推理模型（LRM）的真实推理能力。研究指出，这些模型在低复杂度任务上表现尚可，但当题目复杂度超过阈值时会出现“准确率断崖式崩溃”，且思考token数量不仅未随难度增加而增加，反而锐减，暗示其所谓“推理”主要依赖记忆。相关推文在X平台迅速获得逾千万次浏览，引发学术界与产业界的大规模讨论。

在现学习：

https://www.bilibili.com/video/BV1mHMwzsEko

论文下载：**** Hidden Message *****

为避开常用数学与编程基准测试可能出现的数据污染，论文作者设计了四类逻辑结构稳定且复杂度可控的经典谜题：

TowerofHanoi、PegSolitaire、RiverCrossing与BlocksWorld。
他们通过逐级调高参数细化难度，并用高保真模拟器验证模型每一步动作的合法性，从而量化“思考”轨迹。

实验发现：

[*]①简单场景下，常规模型往往比LRM更快更准；
[*]②当复杂度达到拐点时，两类模型准确率均趋近零，但LRM的崩溃只是稍晚一步；
[*]③LRM在易题上倾向过度思考，而在难题早期即走错后缺乏自我纠错；
[*]④即使提供完整算法步骤，模型仍无法稳定执行，说明其基础逻辑执行与验证能力缺失。

论文发布后，支持者认为这项工作暴露了行业在“大规模记忆+链式思考”路线上的天花板；

批评者则指出实验范围过窄、未评估多模态推理与外部工具调用能力，并揶揄苹果“吃不到葡萄说葡萄酸”。

GaryMarcus等专家称结果“令人警醒”，呼吁行业考虑范式转移；

亦有开发者期待下一代混合架构与工具协同突破瓶颈。无论立场如何，这项研究提醒业界：

若要真正攻克复杂推理，必须深入剖析模型内部思考流程，而不仅依赖堆砌参数或提示工程。
论文发布后，支持者认为这项工作暴露了行业在“大规模记忆+链式思考”路线上的天花板；

批评者则指出实验范围过窄、未评估多模态推理与外部工具调用能力，并揶揄苹果“吃不到葡萄说葡萄酸”。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获，别忘了评分{:10_281:} ：

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif

小甲鱼的二师兄 发表于 2025-6-13 12:40:40

{:9_217:} 敢情是记忆力好是吧？

快速收敛 发表于 2025-6-13 13:35:56

吃不到葡萄说葡萄酸

不二如是 发表于 2025-6-13 14:29:12

小甲鱼的二师兄发表于 2025-6-13 12:40
敢情是记忆力好是吧？

论文结论是滴

不二如是 发表于 2025-6-13 14:29:18

快速收敛发表于 2025-6-13 13:35
吃不到葡萄说葡萄酸

有这个可能

爬虫121 发表于 2025-6-13 16:48:54

啊啊啊啊啊啊啊，怎么回四呢

满足我的日常需求了其他的不关心

鱼C-小师妹 发表于 2025-6-14 15:54:21

啊啊啊啊啊啊啊，怎么回四呢

不二如是 发表于 2025-6-14 18:36:26

鱼C-小师妹发表于 2025-6-14 15:54
啊啊啊啊啊啊啊，怎么回四呢

{:5_109:}

Clay_Chow 发表于 2025-6-15 07:34:55

啊啊啊啊啊啊啊，怎么回四呢

不二如是 发表于 2025-6-15 10:37:23

Clay_Chow 发表于 2025-6-15 07:34
啊啊啊啊啊啊啊，怎么回四呢

{:10_288:}{:10_288:}{:10_288:}

页: [1]

鱼C论坛's Archiver

苹果新论文「质疑DeepSeek-R1，o3等AI没有推理能力」引1000万人围观！