近日,谷歌DeepMind的研究团队宣布推出一款面向3D虚拟环境的通用AI代理——SIMA。这一创新成果标志着AI技术在游戏领域的应用迈出了重要一步。SIMA的独特之处在于,它能够无需游戏的源代码或定制API,仅依赖于用户提供的图像和简单文本指令,就能像人类玩家一样在游戏世界中自由行动。
SIMA的研发过程中,DeepMind与八家游戏工作室紧密合作,将其在《无人深空》、《模拟山羊3》、《Teardown》、《挖矿模拟器》等多款知名3D游戏中进行了广泛测试。测试结果显示,SIMA能够执行超过600种基本操作,包括挖矿、驾驶飞船、制作装备等,且每项操作的完成时间平均不超过10秒。
SIMA的架构设计灵感来源于人类的身体构造,由多种大模型组合而成。其中,视觉感知模型相当于AI的“眼睛”,负责处理图像观察并提取关键信息;大语言模型则是“大脑”,解析和理解自然语言指令;建模规划模型扮演“思维”的角色,通过强化学习规划最佳行动策略;最后,控制和执行模型作为“四肢”,将动作序列转化为实际的游戏控制指令。
在数据收集和预处理方面,SIMA采用了先进的技术手段。研究人员从商业游戏中收集了大量数据,并通过数据清洗、转换和标准化等步骤,确保了数据的质量和一致性。这些工作为SIMA的学习和执行提供了坚实的基础。
谷歌DeepMind的研究人员表示,他们将继续迭代和提升SIMA的通用代理能力,期望未来SIMA能在现实生活中为用户提供更多帮助。