灵初智能近日发布了其首个基于强化学习(RL)的端到端具身模型 Psi R0。该模型通过双灵巧手协同操作,能够完成复杂的长程任务,并具备跨物品、跨场景的泛化能力。
Psi R0 在电商场景中表现尤为突出。以商品打包为例,这一任务涉及抓取、扫码、放置、塑料袋打结等多个操作步骤。Psi R0 能够流畅地完成这一系列动作,官方表示,该模型在客户现场可以取代一个完整工位。
该模型通过海量仿真数据训练出双手操作的智能体,并采用双向训练框架串联多技能,率先在开放环境中完成长程任务。其技能训练框架从物体时空轨迹中抽象出关键信息,构建通用目标函数,解决了奖励函数难设计的问题。
在后训练阶段,Psi R0 通过少量高质量真机数据对齐,进一步提升长程任务的成功率。双向训练框架中的转移可行性函数则微调技能,提高串联的成功率与泛化性,使模型在遭遇操作失败时能够迅速调整策略,确保高成功率。