AI挑战《超级马力欧兄弟》：Claude表现优异_科技魔方-中文AI大模型门户网站

　　加利福尼亚大学圣地亚哥分校的Hao人工智能实验室上周五开展了一项独特研究，将AI引入经典游戏《超级马力欧兄弟》，以测试其性能。结果显示，Anthropic的Claude 3.7表现最为出色，紧随其后的是Claude 3.5，而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则表现不佳。

　　实验并非使用1985年最初发布的版本，而是通过自主研发的GamingAgent框架在模拟器中进行。GamingAgent向AI提供基本指令和游戏截图，AI则生成Python代码操控马力欧。研究人员发现，推理模型如OpenAI的o1表现不如“非推理”模型，主要因为它们需要数秒时间来决定行动，而《超级马力欧兄弟》中时机至关重要。

　　尽管游戏一直是衡量AI性能的重要工具，但一些专家质疑将游戏表现与技术进步直接挂钩的做法。游戏环境相对简单且抽象，能够为AI训练提供无限数据。不过，观看AI玩马力欧本身也是一种有趣的体验。