苹果新论文「质疑DeepSeek-R1,o3等AI没有推理能力」引1000万人围观!
苹果机器学习团队在2025年6月9日发布论文《TheIllusionofThinking》,系统评估了Deepseek-R1、Claude3.7Sonnet、o3-mini等大型推理模型(LRM)的真实推理能力。研究指出,这些模型在低复杂度任务上表现尚可,但当题目复杂度超过阈值时会出现“准确率断崖式崩溃”,且思考token数量不仅未随难度增加而增加,反而锐减,暗示其所谓“推理”主要依赖记忆。相关推文在X平台迅速获得逾千万次浏览,引发学术界与产业界的大规模讨论。
在现学习:
https://www.bilibili.com/video/BV1mHMwzsEko
论文下载:**** Hidden Message *****
为避开常用数学与编程基准测试可能出现的数据污染,论文作者设计了四类逻辑结构稳定且复杂度可控的经典谜题:
TowerofHanoi、PegSolitaire、RiverCrossing与BlocksWorld。
他们通过逐级调高参数细化难度,并用高保真模拟器验证模型每一步动作的合法性,从而量化“思考”轨迹。
实验发现:
[*]①简单场景下,常规模型往往比LRM更快更准;
[*]②当复杂度达到拐点时,两类模型准确率均趋近零,但LRM的崩溃只是稍晚一步;
[*]③LRM在易题上倾向过度思考,而在难题早期即走错后缺乏自我纠错;
[*]④即使提供完整算法步骤,模型仍无法稳定执行,说明其基础逻辑执行与验证能力缺失。
论文发布后,支持者认为这项工作暴露了行业在“大规模记忆+链式思考”路线上的天花板;
批评者则指出实验范围过窄、未评估多模态推理与外部工具调用能力,并揶揄苹果“吃不到葡萄说葡萄酸”。
GaryMarcus等专家称结果“令人警醒”,呼吁行业考虑范式转移;
亦有开发者期待下一代混合架构与工具协同突破瓶颈。无论立场如何,这项研究提醒业界:
若要真正攻克复杂推理,必须深入剖析模型内部思考流程,而不仅依赖堆砌参数或提示工程。
论文发布后,支持者认为这项工作暴露了行业在“大规模记忆+链式思考”路线上的天花板;
批评者则指出实验范围过窄、未评估多模态推理与外部工具调用能力,并揶揄苹果“吃不到葡萄说葡萄酸”。
评论区聊聊你的想法吧{:10_330:}
https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png
>>万能兑换C币许愿池<<
如果有收获,别忘了评分{:10_281:} :
https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif {:9_217:} 敢情是记忆力好是吧? 吃不到葡萄说葡萄酸 小甲鱼的二师兄 发表于 2025-6-13 12:40
敢情是记忆力好是吧?
论文结论是滴 快速收敛 发表于 2025-6-13 13:35
吃不到葡萄说葡萄酸
有这个可能 啊啊啊啊啊啊啊,怎么回四呢
满足我的日常需求了 其他的不关心 啊啊啊啊啊啊啊,怎么回四呢 鱼C-小师妹 发表于 2025-6-14 15:54
啊啊啊啊啊啊啊,怎么回四呢
{:5_109:} 啊啊啊啊啊啊啊,怎么回四呢 Clay_Chow 发表于 2025-6-15 07:34
啊啊啊啊啊啊啊,怎么回四呢
{:10_288:}{:10_288:}{:10_288:}
页:
[1]