科技魔方

AI挑战《超级马力欧兄弟》:Claude表现优异

更多动态

2025年03月04日

  加利福尼亚大学圣地亚哥分校的Hao人工智能实验室上周五开展了一项独特研究,将AI引入经典游戏《超级马力欧兄弟》,以测试其性能。结果显示,Anthropic的Claude 3.7表现最为出色,紧随其后的是Claude 3.5,而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则表现不佳。

  实验并非使用1985年最初发布的版本,而是通过自主研发的GamingAgent框架在模拟器中进行。GamingAgent向AI提供基本指令和游戏截图,AI则生成Python代码操控马力欧。研究人员发现,推理模型如OpenAI的o1表现不如“非推理”模型,主要因为它们需要数秒时间来决定行动,而《超级马力欧兄弟》中时机至关重要。

  尽管游戏一直是衡量AI性能的重要工具,但一些专家质疑将游戏表现与技术进步直接挂钩的做法。游戏环境相对简单且抽象,能够为AI训练提供无限数据。不过,观看AI玩马力欧本身也是一种有趣的体验。

+1

来源:DoNews

延展资讯