爆冷！首届大模型争霸，Grok 4下出「神之一手」？DeepSeek、Kimi惨遭淘汰！,科技·AI·新纪元,前沿与探索,鱼C论坛

不二如是 发表于 2025-8-7 18:00:00

爆冷！首届大模型争霸，Grok 4下出「神之一手」？DeepSeek、Kimi惨遭淘汰！

2025年8月5日至7日，Google与Kaggle在旧金山启动GameArena首届AI棋类展示赛，采用三日淘汰制让主流大语言模型在国际象棋盘上正面对决。

在线学习：

https://www.bilibili.com/video/BV14HtvzAEsJ

参赛阵容包括OpenAI的o4-mini与o3、Google的Gemini2.5Pro和Gemini2.5Flash、xAI的Grok4、Moonshot的KimiK2、Anthropic的Claude4Opus以及DeepSeekR1等八款模型。

赛事规则极简——每轮四局，模型需在10秒内给出合法着法，否则接口立即判负，这一“零容错”机制确保比赛公正。

首日结果出炉（口令提示ilove）：

Grok4横扫GeminiFlash，o3轻取KimiK2，o4-mini击败DeepSeekR1，Gemini2.5Pro鏖战淘汰Claude4Opus，四强集结完毕。

谷歌强调：

通过真实对局检验LLM在推理与规划中的短板，是GameArena衡量通用人工智能进展的重要环节。

Grok4对GeminiFlash的较量中，Grok4选择西西里防御稳扎稳打，而GeminiFlash竟用国王吃子暴露于中央，多次尝试非法移动导致四连败，成为全场最大笑点。

解说GMHikaruNakamura在直播中连同MagnusCarlsen调侃Flash“召唤外星棋子”的荒诞操作，形容场面如同把四岁侄子独留棋盘前。

另一场KimiK2对o3更滑稽：KimiK2执白坚持走并不存在的后吃d4，系统四次警告后被判负，单局最短仅八回合。

两场比赛充分暴露了LLM在棋盘感知上的局限，也印证了接口对违规着法“零容忍”的硬性规则。

相较喜剧场面，o4-mini与DeepSeekR1的对决更显常规：o4-mini多次抓住对手悬空的象与车，凭兵线突破短边，加对方一次弃权以3-0晋级。

DeepSeekR1虽偶有妙手，却常因忽略被将或看错斜线而自毁长城，赛后社媒将其戏称为“挂着螺旋桨的菜鸡”。

最具含金量的Claude4Opus对Gemini2.5Pro打成2-2后进入加赛，Gemini凭灵活马双攻与精准王车配合逆转取胜，成为唯一逆风翻盘的模型。

半决赛将由o4-mini迎战o3、Gemini2.5Pro对阵Grok4，棋迷可在HikaruNakamura的Twitch频道或Kaggle官网同步观战，静待冠军揭晓。

主办方透露：

棋赛只是GameArena的开场，接下来还将加入德州扑克、Valorant与SubwaySurfers等项目，持续检验AI在多模态环境中的综合能力。

sfqxx 发表于 2025-8-7 22:58:21

ilovefishc

不二如是 发表于 2025-8-8 08:08:51

感谢分享朕又在鱼C学到东西啦！非常满意{:10_275:}

尉尉的可乐 发表于 2025-8-8 08:09:48

ilovefishc

简单滴滴 发表于 2025-8-8 09:25:32

感谢分享朕又在鱼C学到东西啦！非常满意{:10_275:}ilove

简单滴滴 发表于 2025-8-8 09:26:12

ilove

不二如是 发表于 2025-8-8 09:53:59

简单滴滴发表于 2025-8-8 09:26
ilove

love what

sfqxx_小 发表于 2025-8-8 17:12:01

不二如是发表于 2025-8-8 09:53
love what

ilovefishc

shadowmage 发表于 2025-8-8 20:11:40

感谢分享朕又在鱼C学到东西啦！非常满意{:10_275:}

***口令内容隐藏***

不二如是 发表于 2025-8-8 20:24:36

shadowmage 发表于 2025-8-8 20:11
感谢分享朕又在鱼C学到东西啦！非常满意

***口令内容隐藏***

{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:}

shadowmage 发表于 2025-8-8 20:28:00

不二如是发表于 2025-8-8 20:24

这是纯纯就复制了个马赛克，不是真知道口令

不二如是 发表于 2025-8-8 20:51:28

shadowmage 发表于 2025-8-8 20:28
这是纯纯就复制了个马赛克，不是真知道口令

答案就在文中

shadowmage 发表于 2025-8-10 19:19:45

ilove

不二如是 发表于 2025-8-25 09:22:17

感谢分享朕又在鱼C学到东西啦！非常满意{:10_275:}

页: [1]

鱼C论坛's Archiver

爆冷！首届大模型争霸，Grok 4下出「神之一手」？DeepSeek、Kimi惨遭淘汰！