Meta研究改进光学手部追踪_科技魔方-读懂科技做科技极客

　　随着光学手部追踪技术的不断改进，基于第一人称摄像头的手部追踪越来越优于基于控制器的追踪。基于第一人称camea的追踪依靠头显摄像头和计算机视觉来检测摄像头图像中的手部。这种无控制器追踪允许用户与虚拟环境进行更自然的交互，并增加乐趣和参与度。然而，由于视觉条件不理想，光学手部追踪可能会经常失败。例如，用户的手部离开摄像头的可视空间，或者一只手遮挡另一只手，或者一只手可能移动过快，从而在摄像头图像中产生运动模糊。

　　当手部追踪丢失时，默认的解决方案是将虚拟化身的手部挂在上次追踪的位置，而当追踪恢复时，手会突然弹到新位置，从而在身体运动中产生跳跃。渲染运动中的这一错误可能会降低对真实感的感知，并影响用户体验。

　　在名为《Evaluating Study Design and Strategies for Mitigating the Impact of Hand Tracking Loss》的论文中，Meta和都柏林圣三一大学首先调查了用户对由于失去手部追踪而导致的运动错误感知，并针对上述场景提出和评估了三种不同的改进策略。

　　团队提出了一种模拟手部追踪丢失发生的方法，并为感知实验生成样本。其次，研究人员调查了实验设计的各个方面，探索刺激呈现、问题设计、为观众同时提供任务的影响、以及错误是否被解读为社会信号。所述主题是通过涉及数百名参与者的四个实验进行研究。

　　由于疫情限制，所有实验都是基于视频，并在用户家中完成。为了确保视觉感知尽可能接近虚拟现实体验，团队要求屏幕最小尺寸为13英寸，所有视频都以全屏模式自动播放，只播放一次，并且必须在参与者能够回答提示之前播放到完成。除注明外，每个子实验有100名参与者。共有4个主要实验，每个实验由1-5个子实验组成。除DSI约需1.5小时外，实验持续约1小时。

　　实验1：运动误差敏感性。实验1的第一个目标是确认手腕位置的误差是显著可见的。为此，团队比较了两种情况：无人为误差的最高质量运动和完全误差，其中包含所有误差，无改进策略。第二个目标是比较两种不同形式的运动重建。由于团队对理解社交过程中对错误的敏感性特别感兴趣，因此从Talking With Hands 16.2 M数据集中选择了参与对话的个人测试片段。这包括高质量的全身运动捕捉数据以及语音音频。每个实验的输入动作都相同，由10个动作捕捉对象(7个男性和3个女性)的10个不同片段组成，总共有100个话语。每个剪辑大约有20秒长，选择包含连贯的讲话，不会被对话伙伴打断。团队使用称为3pt IK的反向运动学算法处理高质量原始运动，以模拟基于第一人称摄影头的VR追踪。为此，研究人员从运动捕捉中提取头部和手的六个自由度，并使用OculusVR SDK中包含的自定义3pt IK解算器生成新的全身运动。解算器将头部和双手的3D世界位置和旋转作为输入，并估计上半身姿势和根位置。

　　实验2：改进策略和提示设计。实验2有两个目标。首先，团队想了解哪种改进策略对于解决不可避免的追踪错误最有效。其次，团队想了解问题类型和回答形式是否会影响获得的结果。共有五个子实验，每个实验使用不同的提示来获得评分。在要求评分之前，所有其他测试仅显示单一刺激。DSIS_NP作为DSIS的单一刺激变体添加，以分离呈现模式和反应形式。每个子实验包含所有5个动作条件和所有100个话语。在每个运动条件下呈现每个话语，然后形成5个剪辑集，每个剪辑集在每个运动条件下包含20个剪辑(每个说话人2个)。参与者随机分配查看这5组中的一组，每组约20名参与者(每个子实验100名参与者)。这样，每一个话语的每一个动作条件都被包括在内，而一个个体参与者只看到一个给定话语的一个条件。

　　实验3：任务的影响。用户(希望)参与体验，与角色互动，尝试完成游戏目标等。他们的注意力没有完全集中在尝试检测运动错误上。实验3的目的是调查用户在完成需要注意的交互任务时是否对动作错误不那么敏感，从而提供更真实的测试环境。研究人员向参与者告知，在每次篇端后，他们将被问及角色对话中的一个问题。所述问题是多项选择题，需要仔细听对话。例如：“司机遇到了什么事情?a)他被杀了，b)他逃离了现场，c)他发生了事故，或d)他赢得了比赛”;“演讲者谈论了……a)乐高电影，b)迪斯尼电影，c)戏剧表演，或d)恐怖电影。”内容问题与动作质量评级问题一起提出。

　　实验4：个性感知。明显的运动错误可能会降低用户体验。他们同时可能改变交互对象的印象。先前的研究已经证实，手势表现的微小变化可以可靠地影响角色的感知个性。研究人员尝试理解追踪丢失所产生的运动错误是否也会影响感知的个性，从而确定此类错误会导致对话者印象的改变。使用实验1中相同的IK刺激进行了一个实验。刺激呈现的结构与此相同，但在本实验中，参与者被要求对角色的性格进行评级，而不是评级错误，方法是为每个片段提供对十项人格清单提示的Likert反应。这是一个测量五因素人格模型(外向性、经验开放性、情绪稳定性、宜人性和责任心)的小型工具，并且是社会心理学中广泛使用的人格模型。45名参与者参与了这个实验，22人看到了第一组动作，23人看到了第二组动作。

　　第一个实验证实了人们对追踪误差的敏感性，并表明随着运动质量的提高，敏感度会增加。第二个实验评估了错误改善策略，并表明所有策略都是有益的，而且团队比较了不同的调查提示和呈现模式。第三个实验表明，当参与者被赋予额外的会话任务时，错误敏感性会降低。第四个实验表明，动作错误可解释为角色性格的转变，而这会对社交虚拟现实产生影响，至少在一定程度上是如此。

　　相关论文：Evaluating Study Design and Strategies for Mitigating the Impact of Hand Tracking Loss

　　总的来说，团队研究了会话交互中的手部追踪丢失。首先，研究人员提出了一种在无错误运动捕获数据上模拟基于头显的手部追踪丢失事件的方法，并评估了参与者对这些错误的敏感性，包括对感知个性的影响。接下来，团队提出了三种错误改善策略，并表明每种策略都提高了感知运动质量。最后，研究人员调查了研究设计问题。尽管所有三种错误改善策略都改善了感知运动质量，但与其他策略相比，衰减趋势更差。当进行会话回忆任务时，对动作质量的敏感性较低，但改善仍有显著改善。对于更高质量的基础运动，对运动误差的敏感性同样更高。

　　错误的存在显著降低了人们对性格特征外向性和体验开放性的感知，这表明人们在一定程度上将错误理解为对话者的“特征”。然而，这种变化的幅度很小。改善策略还有改进的余地。机器学习方法可用于确定追踪失败时的最佳响应。

　　另一个改进可能来自将改进策略直接应用于IK输入：通过将一个假设姿势输入到IK算法中，身体的其他姿势将相应地调整，并可能致使运动的整体外观更自然。在虚拟现实中测试所述策略同样很有趣，因为它们可以应用到一个人的虚拟化身上。从第一人称和第三人称的角度来看，不同的策略可能更可取;对于第三人称视图，可以优选视觉上最吸引人的解决方案，而对于第一人称视图中，空间上最靠近用户手部的解决方案可以最好地保持用户参与感和临场感。用户同时可能由于意识到有限的追踪性能而改变他们的手势行为，因此在VR中手势行为可能不同于本研究中使用的捕获运动。

Meta研究改进光学手部追踪

推荐文章