爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰!
2025年8月5日至7日,Google与Kaggle在旧金山启动GameArena首届AI棋类展示赛,采用三日淘汰制让主流大语言模型在国际象棋盘上正面对决。
在线学习:
https://www.bilibili.com/video/BV14HtvzAEsJ
参赛阵容包括OpenAI的o4-mini与o3、Google的Gemini2.5Pro和Gemini2.5Flash、xAI的Grok4、Moonshot的KimiK2、Anthropic的Claude4Opus以及DeepSeekR1等八款模型。
赛事规则极简——每轮四局,模型需在10秒内给出合法着法,否则接口立即判负,这一“零容错”机制确保比赛公正。
首日结果出炉(口令提示ilove):
Grok4横扫GeminiFlash,o3轻取KimiK2,o4-mini击败DeepSeekR1,Gemini2.5Pro鏖战淘汰Claude4Opus,四强集结完毕。
谷歌强调:
通过真实对局检验LLM在推理与规划中的短板,是GameArena衡量通用人工智能进展的重要环节。
Grok4对GeminiFlash的较量中,Grok4选择西西里防御稳扎稳打,而GeminiFlash竟用国王吃子暴露于中央,多次尝试非法移动导致四连败,成为全场最大笑点。
解说GMHikaruNakamura在直播中连同MagnusCarlsen调侃Flash“召唤外星棋子”的荒诞操作,形容场面如同把四岁侄子独留棋盘前。
另一场KimiK2对o3更滑稽:KimiK2执白坚持走并不存在的后吃d4,系统四次警告后被判负,单局最短仅八回合。
两场比赛充分暴露了LLM在棋盘感知上的局限,也印证了接口对违规着法“零容忍”的硬性规则。
相较喜剧场面,o4-mini与DeepSeekR1的对决更显常规:o4-mini多次抓住对手悬空的象与车,凭兵线突破短边,加对方一次弃权以3-0晋级。
DeepSeekR1虽偶有妙手,却常因忽略被将或看错斜线而自毁长城,赛后社媒将其戏称为“挂着螺旋桨的菜鸡”。
最具含金量的Claude4Opus对Gemini2.5Pro打成2-2后进入加赛,Gemini凭灵活马双攻与精准王车配合逆转取胜,成为唯一逆风翻盘的模型。
半决赛将由o4-mini迎战o3、Gemini2.5Pro对阵Grok4,棋迷可在HikaruNakamura的Twitch频道或Kaggle官网同步观战,静待冠军揭晓。
主办方透露:
棋赛只是GameArena的开场,接下来还将加入德州扑克、Valorant与SubwaySurfers等项目,持续检验AI在多模态环境中的综合能力。 ilovefishc 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:} ilovefishc 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}ilove ilove 简单滴滴 发表于 2025-8-8 09:26
ilove
love what 不二如是 发表于 2025-8-8 09:53
love what
ilovefishc 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}
***口令内容隐藏*** shadowmage 发表于 2025-8-8 20:11
感谢分享 朕又在鱼C学到东西啦!非常满意
***口令内容隐藏***
{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:} 不二如是 发表于 2025-8-8 20:24
这是纯纯就复制了个马赛克,不是真知道口令 shadowmage 发表于 2025-8-8 20:28
这是纯纯就复制了个马赛克,不是真知道口令
答案就在文中 ilove 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}
页:
[1]