鱼C论坛

 找回密码
 立即注册
查看: 67|回复: 3

[最新资讯] 爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰!

[复制链接]
发表于 昨天 18:00 | 显示全部楼层 |阅读模式

拼手气红包

红包金额剩余8鱼币

剩余红包8个

抢红包>

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
d930ee42bc6e04a53ad42235599ccce708627741.jpg@308w_174h.jpeg

2025年8月5日至7日,Google与Kaggle在旧金山启动GameArena首届AI棋类展示赛,采用三日淘汰制让主流大语言模型在国际象棋盘上正面对决。

在线学习:



参赛阵容包括OpenAI的o4-mini与o3、Google的Gemini2.5Pro和Gemini2.5Flash、xAI的Grok4、Moonshot的KimiK2、Anthropic的Claude4Opus以及DeepSeekR1等八款模型。

赛事规则极简——每轮四局,模型需在10秒内给出合法着法,否则接口立即判负,这一“零容错”机制确保比赛公正。

首日结果出炉(口令提示ilove):

Grok4横扫GeminiFlash,o3轻取KimiK2,o4-mini击败DeepSeekR1,Gemini2.5Pro鏖战淘汰Claude4Opus,四强集结完毕。


谷歌强调:

通过真实对局检验LLM在推理与规划中的短板,是GameArena衡量通用人工智能进展的重要环节。


Grok4对GeminiFlash的较量中,Grok4选择西西里防御稳扎稳打,而GeminiFlash竟用国王吃子暴露于中央,多次尝试非法移动导致四连败,成为全场最大笑点。

解说GMHikaruNakamura在直播中连同MagnusCarlsen调侃Flash“召唤外星棋子”的荒诞操作,形容场面如同把四岁侄子独留棋盘前。

另一场KimiK2对o3更滑稽:KimiK2执白坚持走并不存在的后吃d4,系统四次警告后被判负,单局最短仅八回合。

两场比赛充分暴露了LLM在棋盘感知上的局限,也印证了接口对违规着法“零容忍”的硬性规则。

相较喜剧场面,o4-mini与DeepSeekR1的对决更显常规:o4-mini多次抓住对手悬空的象与车,凭兵线突破短边,加对方一次弃权以3-0晋级。

DeepSeekR1虽偶有妙手,却常因忽略被将或看错斜线而自毁长城,赛后社媒将其戏称为“挂着螺旋桨的菜鸡”。

最具含金量的Claude4Opus对Gemini2.5Pro打成2-2后进入加赛,Gemini凭灵活马双攻与精准王车配合逆转取胜,成为唯一逆风翻盘的模型。

半决赛将由o4-mini迎战o3、Gemini2.5Pro对阵Grok4,棋迷可在HikaruNakamura的Twitch频道或Kaggle官网同步观战,静待冠军揭晓。

主办方透露:

棋赛只是GameArena的开场,接下来还将加入德州扑克、Valorant与SubwaySurfers等项目,持续检验AI在多模态环境中的综合能力。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 昨天 22:58 | 显示全部楼层
ilovefishc
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 4 分钟前 | 显示全部楼层
感谢分享 朕又在鱼C学到东西啦!非常满意
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 3 分钟前 | 显示全部楼层
ilovefishc
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-8-8 08:13

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表