AI来玩超级马里奥 ChatGPT惨败 反应慢

今日头条
Toutiao
最新回复:2025年3月8日 18点56分 PT
  返回列表
67984 阅读
5 评论
潇湘晨报

近日,美国加州大学圣地亚哥分校的研究机构Hao AI Lab,将几款人工智能(AI)引入超级马里奥游戏中,看看这些AI们玩得好不好。

其中,美国人工智能初创公司Anthropic发布Claude 3.7表现最好,其次是Claude 3.5。谷歌的Gemini 1.5 Pro 和Open AI 的 ChatGPT 4.0苦苦挣扎。研究团队内部开发的GamingAgent,为AI提供基本指令,例如“如果附近有障碍物或敌人,请向左移动或者跳跃以躲避”。AI则以Python代码的形式生成输入来控制马里奥。

有趣的是,实验室发现,像ChatGPT这样的推理模型,即逐步“思考”问题以得出解决方案,表现得比“非推理”模型差,尽管它们通常在大多数基准测试中更强。

研究人员表示,推理模型在玩这类游戏时遇到困难的主要原因是,它们需要一段时间(通常是几秒钟)来决定行动。

但在《超级马里奥兄弟》中,时间就是一切,一秒钟可能意味着安全完成跳跃和坠落致死之间的区别。

几十年来,游戏一直被用来对 AI 进行基准测试。但一些专家质疑,他他们认为将人工智能的游戏技能和技术进步联系起来是否明智。

编译/潇湘晨报记者傅圆圆

m
maomaodog
1 楼
无聊,你让数学家跑100米,然后说你真挫
我爱北京的秋天
2 楼
游戏玩儿得越多玩儿得越好。
樱桃儿熟了
3 楼
怎么不敢提 DeepSeek,阿里的,腾讯的,等等,和 Manus 呢?
w
wangrenxiang
4 楼
因为这几个大模型和主流的大模型还有相当差距。尤其DS,性能还不如豆包,千问等国内模型。属于被过度吹捧了。
j
jolly11
5 楼
当年一般学渣经常混游戏厅,玩的比学霸好多了 有个游戏名就说明了这个问题:街头霸王