看帖神器
北美华人网
追帖动态
头条新闻
每日新帖
最新热帖
新闻存档
热帖存档
文学峸
虎扑论坛
未名空间
北美华人网
北美微论坛
看帖神器
登录
← 下载
《看帖神器》官方
iOS App
,体验轻松追帖。
谷歌与Kaggle推出Kaggle Game Arena平台
查看北美华人网今日新帖
最新回复:2025年8月9日 12点34分 PT
共 (2) 楼
返回列表
订阅追帖
只看未读
更多选项
阅读全帖
只看图片
只看视频
查看原帖
q
qqyxgz
4 天
楼主 (北美华人网)
大语言模型,不是专门的象棋软件, 目前下国际象棋还是比不过人类
最近,谷歌与Kaggle 联手推出了全新的 Kaggle Game Arena 平台,并于 2025年8月5日至7日 举办了首届 AI 国际象棋表演赛(Chess Exhibition Tournament),以评估通用大型语言模型(LLMs)的推理与战略能力 。
当前进展摘要
此次比赛采用 单败淘汰制(knockout bracket),八款主流大型语言模型(包括 Gemini 2.5 Pro / Flash、o3 / o4-mini、Claude 4 Opus、Grok 4、DeepSeek R1、Kimi k2)
通过纯文本接口进行对弈,禁止调用任何第三方棋力工具
。 首日比赛(8月5日)已结束,四场四局两胜制(best of four),结果均以 4-0 大比分结束: o3 击败 Kimi k2; o4-mini 击败 DeepSeek R1; Gemini 2.5 Pro 击败 Claude 4 Opus; Grok 4 击败 Gemini 2.5 Flash 。
Grok 4 的表现尤为强劲——它不只是简单获胜,还主动发现并利用对手漏防棋子,展现出更成熟的战略意识 。 接下来将进入半决赛阶段,视角将继续聚焦这些通用 AI 模型在复杂策略场景中的表现
半决赛目前正在火热进行中,竞争形势引人期待,特别是 Grok 4 与 o3 是否能继续发挥优势? 赛后还会有更多非直播对局,最终建立具统计稳定性的模型强度排行榜。
总的来说,这场比赛不仅是一场棋局对决,更像是一次高级别的 AI 推理能力实战演练。
q
qqyxgz
4 天
2 楼
OpenAI's o3 Crushes Grok 4 In Final, Wins Kaggle's AI Chess Exhibition Tournament
老马先喜后忧
请输入帖子链接
收藏帖子
最近,谷歌与Kaggle 联手推出了全新的 Kaggle Game Arena 平台,并于 2025年8月5日至7日 举办了首届 AI 国际象棋表演赛(Chess Exhibition Tournament),以评估通用大型语言模型(LLMs)的推理与战略能力 。
当前进展摘要 此次比赛采用 单败淘汰制(knockout bracket),八款主流大型语言模型(包括 Gemini 2.5 Pro / Flash、o3 / o4-mini、Claude 4 Opus、Grok 4、DeepSeek R1、Kimi k2)通过纯文本接口进行对弈,禁止调用任何第三方棋力工具 。 首日比赛(8月5日)已结束,四场四局两胜制(best of four),结果均以 4-0 大比分结束: o3 击败 Kimi k2; o4-mini 击败 DeepSeek R1; Gemini 2.5 Pro 击败 Claude 4 Opus; Grok 4 击败 Gemini 2.5 Flash 。
Grok 4 的表现尤为强劲——它不只是简单获胜,还主动发现并利用对手漏防棋子,展现出更成熟的战略意识 。 接下来将进入半决赛阶段,视角将继续聚焦这些通用 AI 模型在复杂策略场景中的表现
半决赛目前正在火热进行中,竞争形势引人期待,特别是 Grok 4 与 o3 是否能继续发挥优势? 赛后还会有更多非直播对局,最终建立具统计稳定性的模型强度排行榜。
总的来说,这场比赛不仅是一场棋局对决,更像是一次高级别的 AI 推理能力实战演练。
老马先喜后忧