UCLA提出多模态具身智能大模型MultiPLY AI首次拥有类人感官

　　近日，UCLA等机构的研究人员推出了具身智能大模型MultiPLY，该模型不仅具备多模态感知能力，包括触觉、视觉、听觉等，使得AI能够更全面地与3D环境进行交互。这标志着具备多感官能力的大模型成为未来AI发展的重要方向。

　　MultiPLY在多任务实验中表现出色，包括对象检索、工具使用、多感官标注和任务分解等，刷新了当前技术水平。为了训练这一新模型，研究人员创建了Multisensory-Universe数据集，包含50万条多感官数据，涵盖了多种任务类型。尽管面临挑战，如当前缺少训练多感官交互的数据和正确表示3D场景的多感官信息，但MultiPLY的出现为实现AGI提供了新的方向。

　　在模型训练阶段，研究人员引入了新物体，并通过触觉、环境声音、撞击声音、温度等多种传感器数据获取方式，让模型学会感知物体的多模态信息。

　　为此，研究人员提出了多感官全景生成管线，通过不同传感器收集触觉、声音、温度等信息。整个训练过程中，MultiPLY通过智能体与3D环境交互，生成多感官观测值，并在推理过程中不断生成动作token，展现出强大的多模态能力。这一研究的出现，为构建更全面、具备多感官能力的大模型提供了新思路。

UCLA提出多模态具身智能大模型MultiPLY AI首次拥有类人感官

延展资讯