人工智能正逐渐渗透到各行各业,其中一项重要的进展是通过长篇文本生成自然人类运动,这在动画、游戏和电影等领域具有巨大潜力。然而,从文本到运动的转化一直是一个巨大挑战,尤其是在处理角色在不同区域移动和执行特定动作时。
尽管过去已经付出了大量努力来研究文本到运动和角色控制,但迄今为止尚未找到合适的解决方案。现有的角色控制方法存在许多限制,无法处理文本描述,而当前的文本到运动方法则需要更多的位置约束,导致生成不稳定的运动。
为了应对这些挑战,研究团队提出了一种独特的方法,该方法通过三个关键组件解决了“故事到运动”的问题。首先是文本驱动的运动调度,它利用现代大型语言模型从长篇文本中提取文本、位置和持续时间对,作为文本驱动的运动调度器,确保生成的运动基于故事并包含有关每个动作的位置和长度的详细信息。
其次是文本驱动的运动检索系统,通过将运动匹配和对运动轨迹和语义的约束相结合,创建了一个全面的运动检索系统,确保生成的运动满足预期的语义和位置属性以及文本描述。最后是渐进式掩蔽变换器,它专门设计用于处理过渡运动中的常见伪影,如脚滑动和不寻常的姿势,以提高生成运动的质量,产生更平滑的过渡和更真实的外观。
这一方法经过了在运动混合、时间动作组合和轨迹跟踪等三个子任务上的测试,结果显示在每个领域都优于先前的运动合成技术。
研究人员总结了他们的主要贡献,包括引入轨迹和语义以从长篇文本生成全面的运动,提出了一种新方法——基于文本的运动匹配,以提供准确和可定制的运动合成,并在轨迹跟踪、时间动作组合和运动混合子任务上的实验证明其优于现有技术。
总的来说,这个系统标志着从文本叙述中合成人类运动的一大步前进。它不仅为“故事到运动”任务提供了完整的解决方案,还在动画、游戏和电影等行业中具有革命性的影响。这项研究的成果为人工智能技术在创意产业中的应用开辟了新的可能性,有望为相关领域带来巨大的发展。