谷歌与Kaggle推出Kaggle Game Arena平台 - 2025年8月9日北美华人网存档

北美华人网

4 天

楼主 (北美华人网)

大语言模型，不是专门的象棋软件，目前下国际象棋还是比不过人类
最近，谷歌与Kaggle 联手推出了全新的 Kaggle Game Arena 平台，并于 2025年8月5日至7日举办了首届 AI 国际象棋表演赛（Chess Exhibition Tournament），以评估通用大型语言模型（LLMs）的推理与战略能力。
当前进展摘要 此次比赛采用单败淘汰制（knockout bracket），八款主流大型语言模型（包括 Gemini 2.5 Pro / Flash、o3 / o4-mini、Claude 4 Opus、Grok 4、DeepSeek R1、Kimi k2）通过纯文本接口进行对弈，禁止调用任何第三方棋力工具 。首日比赛（8月5日）已结束，四场四局两胜制（best of four），结果均以 4-0 大比分结束： o3 击败 Kimi k2； o4-mini 击败 DeepSeek R1； Gemini 2.5 Pro 击败 Claude 4 Opus； Grok 4 击败 Gemini 2.5 Flash 。
Grok 4 的表现尤为强劲——它不只是简单获胜，还主动发现并利用对手漏防棋子，展现出更成熟的战略意识。接下来将进入半决赛阶段，视角将继续聚焦这些通用 AI 模型在复杂策略场景中的表现
半决赛目前正在火热进行中，竞争形势引人期待，特别是 Grok 4 与 o3 是否能继续发挥优势？赛后还会有更多非直播对局，最终建立具统计稳定性的模型强度排行榜。
总的来说，这场比赛不仅是一场棋局对决，更像是一次高级别的 AI 推理能力实战演练。

q

qqyxgz

4 天

OpenAI's o3 Crushes Grok 4 In Final, Wins Kaggle's AI Chess Exhibition Tournament
老马先喜后忧