|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
2025年8月5日至7日,Google与Kaggle在旧金山启动GameArena首届AI棋类展示赛,采用三日淘汰制让主流大语言模型在国际象棋盘上正面对决。
在线学习:
参赛阵容包括OpenAI的o4-mini与o3、Google的Gemini2.5Pro和Gemini2.5Flash、xAI的Grok4、Moonshot的KimiK2、Anthropic的Claude4Opus以及DeepSeekR1等八款模型。
赛事规则极简——每轮四局,模型需在10秒内给出合法着法,否则接口立即判负,这一“零容错”机制确保比赛公正。
首日结果出炉(口令提示ilove):
Grok4横扫GeminiFlash,o3轻取KimiK2,o4-mini击败DeepSeekR1,Gemini2.5Pro鏖战淘汰Claude4Opus,四强集结完毕。
谷歌强调:
通过真实对局检验LLM在推理与规划中的短板,是GameArena衡量通用人工智能进展的重要环节。
Grok4对GeminiFlash的较量中,Grok4选择西西里防御稳扎稳打,而GeminiFlash竟用国王吃子暴露于中央,多次尝试非法移动导致四连败,成为全场最大笑点。
解说GMHikaruNakamura在直播中连同MagnusCarlsen调侃Flash“召唤外星棋子”的荒诞操作,形容场面如同把四岁侄子独留棋盘前。
另一场KimiK2对o3更滑稽:KimiK2执白坚持走并不存在的后吃d4,系统四次警告后被判负,单局最短仅八回合。
两场比赛充分暴露了LLM在棋盘感知上的局限,也印证了接口对违规着法“零容忍”的硬性规则。
相较喜剧场面,o4-mini与DeepSeekR1的对决更显常规:o4-mini多次抓住对手悬空的象与车,凭兵线突破短边,加对方一次弃权以3-0晋级。
DeepSeekR1虽偶有妙手,却常因忽略被将或看错斜线而自毁长城,赛后社媒将其戏称为“挂着螺旋桨的菜鸡”。
最具含金量的Claude4Opus对Gemini2.5Pro打成2-2后进入加赛,Gemini凭灵活马双攻与精准王车配合逆转取胜,成为唯一逆风翻盘的模型。
半决赛将由o4-mini迎战o3、Gemini2.5Pro对阵Grok4,棋迷可在HikaruNakamura的Twitch频道或Kaggle官网同步观战,静待冠军揭晓。
主办方透露:
棋赛只是GameArena的开场,接下来还将加入德州扑克、Valorant与SubwaySurfers等项目,持续检验AI在多模态环境中的综合能力。 |
|