谷歌 DeepMind 推出了两款新型 AI 模型,旨在帮助机器人更好地应对现实世界中的任务。其中一款名为 Gemini Robotics,它是一款视觉语言行动模型,能够在没有专门训练的情况下理解新情境。Gemini Robotics 基于谷歌最新的 Gemini 2.0 模型,通过加入物理行动的新模态,实现了多模态世界理解能力的应用。
该模型在通用性、互动性和灵活性方面取得了显著进展,能够执行更精确的物理操作,如折纸或打开瓶盖。另一款模型 Gemini Robotics-ER(具象推理)则专注于复杂动态世界的理解。谷歌 DeepMind 的研究员表示,Gemini Robotics-ER 已被训练用于评估特定情况下的动作安全性,并开发了分层安全策略。
此外,谷歌 DeepMind 正与 Apptronik 合作,致力于打造下一代人形机器人,并向多家公司开放 Gemini Robotics-ER 模型,以推动智能技术在多个领域的应用。