加利福尼亚大学圣地亚哥分校(UCSD)和南加利福尼亚大学(USC)的研究人员最近推出了一种名为 CyberDemo 的新型人工智能框架,旨在通过视觉观察进行机器人模仿学习。
传统的模仿学习方法通常需要大量高质量的示范数据来教导机器人完成复杂任务,特别是对于需要高度灵巧的任务来说。然而,CyberDemo 通过利用模拟人类示范来完成真实世界的机器人操纵任务,从而减少了对物理硬件的需求,使得远程和并行数据收集成为可能。此外,通过模拟器专属的数据增强技术,CyberDemo 显著增强了任务性能,生成的数据集比在真实世界环境中收集的数据集大得多。
CyberDemo 的方法从在模拟环境中使用低成本设备进行远程操作收集人类示范开始。随后,通过广泛的增强方法对数据进行丰富处理,包括各种视觉和物理条件,以提高训练策略对真实世界变化的鲁棒性。该框架采用课程学习策略进行策略训练,首先使用增强数据集,然后逐渐引入真实世界示范以对策略进行微调。与使用真实世界示范数据微调的预训练策略相比,这种方法确保了平稳的从模拟到现实的过渡,解决了光照、物体几何和初始姿势变化等问题,而无需额外的示范。
在各种操纵任务中,CyberDemo 的性能令人印象深刻。相比传统方法,CyberDemo 在任务成功率上取得了显著提高。尤其值得注意的是,在涉及未见过的物体时,CyberDemo 的泛化能力特别突出,在旋转新物体的成功率达到42.5%,这是传统方法表现的显著飞跃。对比基线包括先进的视觉预训练模型如 PVR、MVP 和 R3M,CyberDemo 的成功之处突显了其效率和稳健性,以及其能够胜过在真实世界示范数据集上微调的模型。
CyberDemo 的创新方法通过利用增强的模拟数据挑战了解决实际问题必须依赖真实示范数据的传统观念。通过 CyberDemo 的性能所展示的经验数据,突显了通过数据增强增强的模拟数据在机器人操纵任务的价值方面能够超越真实世界数据。虽然为每个任务设计模拟环境需要额外的工作,但减少了数据收集的人为干预,并避免了复杂的奖励设计过程,为机器人操纵领域带来了一种可扩展且高效的解决方案。