GPT5.2“作弊上榜”？高耗Token刷分被网友扒出！用过的都出来说说,科技·AI·新纪元,前沿与探索,鱼C论坛

不二如是 发表于 2025-12-16 16:00:00

GPT5.2“作弊上榜”？高耗Token刷分被网友扒出！用过的都出来说说

最新发布的GPT5.2一出炉立刻在AI圈引发热议，有网友指责它在公开基准测试中“公然作弊”，声称成绩其实是靠消耗大量算力和Token堆高分得来。

在线感受：

https://www.bilibili.com/video/BV1ozq4BcEte

根据社区曝光，在备受关注的ARC AGI 2等标准测试中，GPT5.2被发现每个任务消耗的Token数量远超竞争对手谷歌Gemini3 Pro，达到约**** Hidden Message *****Token左右，而Gemini3 Pro完成类似任务只需约6.7万Token。

按API定价计算，这意味着GPT5.2在这些评测上的单位算力成本显著更高，令不少网友质疑其所谓“领先成绩”是否公平可信。

这样的现象在AI社区内部引发了大量讨论，有观点认为如果不标准化Token投入，榜单结果可能并不真实反映模型实力。

更令人关注的是，尽管GPT5.2在某些高消耗Token的测试中取得了表面上的高分，但在一些具体任务和相同标准下的对比中，它并未完全压倒性领先。

例如，在HLE、MMMU-Pro和Frontier Math等多个评测项目中，即便投入更多Token，GPT5.2的实际表现与Gemini3 Pro并无明显差距，在部分子项目表现甚至接近持平。

这说明GPT5.2在资源使用效率上可能存在较大劣势，而所谓“高级推理能力”部分来源于更多Token和算力堆砌，而非纯粹模型智能的实质性提升。

与此同时，从用户真实体验来看，部分开发者和AI使用者也反映GPT5.2并未在所有实际应用场景中展现出显著优于前代或竞品的性能。

一些人指出在复杂代码理解、任务执行效率和稳定性等方面，GPT5.2的表现并不总是优于Gemini3或自家旧版本模型，有时还出现了幻觉信息或不够准确的回答。

因此，这次“作弊争议”并非完全空穴来风，它折射出当前大模型评测体系和真实体验之间的差异，强调了在对比AI模型时需要更全面、更标准化的数据和评测方法，而不是只看一两个“爆点成绩”。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获，别忘了评分{:10_281:} ：

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif

不二如是 发表于 2025-12-16 17:04:34