眼动追踪对于实现下一代AR/VR交互和应用至关重要。多年来,商用技术在硬件、传感器、人工智能和计算能力方面的进步已经从实现可靠的头部追踪发展到控制器追踪和手部追踪。眼动追踪传感器已出现在HTC VivePro Eye、HoloLens2、MetaQuestPro和PICO 4 Pro等设备中,并将成为未来AR/VR设备的基础组件。
然而,目前的头显具有多种输入模式,包括控制器,基于头部运动和语音等等。所以,如何比较它们之间的相对性能呢。
比较输入模式并不简单,因为这通常取决于使用时的情景。例如,语音输入在隐私空间内非常有用,但在公共环境中则具有挑战性。同样,外出时携带和使用控制器存在不同于家居环境的挑战。显然,以公平和有效的方式有效比较输入方法和交互技术缺乏一致的基础。
目标定位和选择只是当今AR/VR中实现的众多潜在交互组合之一,但作为一种在虚拟环境中通过UI进行交互和导航的方法,它在商业头显十分普遍。
在名为《Leveling the Playing Field: A Comparative Reevaluation of Unmodified Eye Tracking as an Input and Interaction Modality for VR》的论文中,Meta的研究人员尝试比较了不同输入方式的性能。
团队将眼动追踪与其他大量使用的AR/VR输入进行了比较,包括头部追踪和控制器六自由度追踪。同时,他们把控制器作为手动目标定位和选择方法的间接代理,亦即眼睛控制光标,然后用控制器进行确定选择。这是因为控制器通常提供更高保真的选择,并且不太容易出现计算机视觉错误以及与用户相关的身体和行为特质。
结果显示,眼动追踪的表现接近于控制器(稍差一点),但在同样的测试条件中,眼动追踪始终好于头部追踪。
如图1所示,研究人员测试了以下条件:输入模式(眼睛、控制器、头部) 标准(Double-ISO, Random-Web) 几何图形(平面、球形) 目标直径(3、4、5度)
在整个实验过程中,共32名实验参与者完成了1098个目标(每个输入条件366个)。每名参与者都执行实验的练习版本,以固定的顺序显示分别代表控制器、头部和眼睛输入模态的三个模块。其中,30人成功完成了实验,而剩余两人在调整头显时意外关闭头显。
12名参与者表示不使用虚拟现实;10名参与者表示每周花在虚拟现实中的时间为0.5-3个小时;4名参与者每周花在虚拟现实的时间则>3个小时。
除了在帧级别记录有关正在运行的条件(输入模态、标准、几何和目标直径)的信息外,研究人员同时记录了每个目标在世界坐标和虚拟camera坐标中的位置和旋转。另外,实验记录了主摄像头(参与者头部)的位置和旋转、控制器的位置和转动、相关的眼动追踪数据,以及将相关值转换为上述任何坐标系的相关信息。
在虚拟环境中,实验被试需要完成面板显示的3个问题。参与者使用Meta Quest 2控制器提供输入,使用拇指摇杆增加或减少值,并按下扳机键选择数值。向左或向右按拇指摇杆会将光标向左或向右移动一个单位。 Q1:这种定位和激活方法有多容易?A1:-5最难,5最容易,默认值为0。 Q2:对于“我愿意将其作为AR/VR设备中的目标定位和选择方法”的说法,你有多认同? Q3:对你感知到的努力(所有身体压力和疲劳的感觉)进行评分。
另外,每名参与者都通过谷歌文档填写一份问卷: 对你喜欢的瞄准对象方法进行排名(控制器,头部,眼睛注视) 你为什么更喜欢这种瞄准方法 你在执行每项任务时是否使用了任何特定的策略。如果是,请简要描述。 你平均每周花多少小时玩游戏(包括主机游戏和手机游戏等) 你平均每周花在虚拟现实中的时间有多少小时 是否有其他意见、评论或建议想分享
对于研究,研究人员提出了5个假设: H1:在ISO和Random-Web条件下,控制器和眼动追踪的吞吐量(bits/s)和移动时间(s)相似。 H2:预计眼动追踪的错误率最高,因为在选择之前没有提供任何形式的反馈。由于不提供反馈,预计用户不一定会在直视目标时按下控制器扳机键。 H3:预计控制器和眼动追踪在上述评估问题1-3,以及调查中提供的主观问题偏好方面相似。Meta希望参与者对这两种输入模式的评分在所有维度上都高于头部。连续的头部运动需要最大的努力,尤其是与6自由度的手腕控制器运动相比。眼睛需要更少的努力,但在按下扳机键之前保持注视目标有点不自然。随着时间的推移,眼动追踪累积的失误可能会令人疲惫。 H4:预计参与者在Double-ISO任务中的吞吐量将高于Random-Web任务,因为参与者可以随着时间的推移学习ISO任务的模式。 H5:在比较输入模态时,预计平面几何与球形几何的吞吐量不会有差异。对于正在测试的角度位置(距离中心最大15度),尽管目标位置和在球面坐标中向用户旋转,但从用户角度看,目标角度大小依然相似。
为了评估H1和H4,研究人员分析了吞吐量作为条件的函数。全方差分析结果显示,眼动追踪和控制器输入在吞吐量之间没有显著差异,但两者与头部追踪有显著差异,其中头部追踪是较差的输入。另外,对运动时间的影响与吞吐量基本一致。
所以,实验结果在很大程度上支持H1,因为眼动追踪和控制器输入在吞吐量和移动时间方面基本相同,两者都明显优于头部。吞吐量分析同样支持H4,因为标准条件在ANOVA结果中有显著差异,并且ISO条件的吞吐量高于Web条件。
在评估H5时,研究人员发现几何(平面与球面)对吞吐量(bits/s)没有影响。几何对运动时间同样没有统计显著影响;然而,它对未命中有显著的主要影响(平面:9.71%;球面:8.97%;F(1,29)=4.864,p=.036,η2 p=.144),但几何对未命中没有显著的相互作用影响(所有F<1.0和p>.2)。总的来说,实验结果支持H5,在球面或平面坐标系中呈现的刺激在吞吐量和运动时间方面不会影响靶向和选择,并且在未命中方面只有很小的差异。
对于H2,事后比较显示,眼睛的失误比控制器(12.02,p<.001)和头部(9.511,p<.0001)多,但头部和控制器之间没有显著差异(2.51,p>.104)。另外,对于目标尺寸,3度目标的未命中率高于4度(3.91,p<.001)和5度(5.37,p<0.001)目标;4度目标的高于5度目标(1.46,p=.003)。对于所有目标尺寸中,眼睛的未命中次数更多,但对于每个配对目标尺寸,控制器和头部之间没有显著差异(p>.3)。 关于H4,标准条件在吞吐量、移动时间和未命中方面存在显著差异。值得注意的例外是,Double ISO条件(9.816%)的未命中率高于Random Web条件(8.857%,p=.023)。然而,正如H4所预期的一样,ISO在吞吐量(分别为3.605和2.901,p<.001)和移动时间(分别为.891秒和.853秒,p=.003)方面优于Web条件,这可能是因为目标位置的确定性有助于提高速度,但不精确。总结
Meta的目标是为评估眼动追踪作为一种输入和交互模式奠定基础。他们设计了一个实验,将未经修改的眼动追踪与商业头显中可用的其他输入模式进行比较,特别是使用控制器或头部的头显。
研究人员有意不以任何方式修改通过设备API提供的眼动追踪信号。具体来说,在目标定位和选择任务中,一个人的自然倾向是保持对目标的注视,然后选择。在自然注视探索中,我们倾向于快速地将眼睛从一个兴趣点移动到下一个(例如以每秒高达3次的频率),这使得用户很难准确估计注视和手部事件相对何时发生。
但正如H1中所预期的那样,控制器和眼动追踪在吞吐量和移动时间方面的表现类似。尽管眼动追踪稍微比控制器差一点,但在同样的测量中,眼动追踪始终优于头部。
在应用内问题和实验后调查中,人们倾向于对眼动追踪和控制器有类似的偏好,亦即两者都比头部好,这与H3一致。
过去的研究发现,眼动追踪并不比使用控制器更费力。然而,在目标未命中的情况下,眼动追踪的表现似乎相对较差。研究人员假设眼动追踪具有最差的选择错误率(H2)。他们没有向参与者提供任何关于眼动追踪条件的在线视觉反馈,当校准误差较大时,这更是一个问题,因为可能无法选择意向目标。
相比之下,参与者通过提供的红色光标不断地得到用头或手指向哪里的反馈。事实上,如果将光标从控制器和头部条件下移除,性能可能会受到影响。因为与眼睛追踪不同,用户不知道他们的头或手准确指向哪里。
如果使用原始注视来驱动光标,这样的光标同样不会产生同样的效果。具体而言,在注视交互系统中,在线光标风格反馈的可用性将导致“追逐”现象,即用户试图将目光放在具有固有错误的眼动光标上。发生“追逐”是因为视网膜位置错误部分驱动扫视。因为视觉系统已经进化到期望世界中的对象保持稳定。不过,可以通过提供通过轮廓、颜色变化、触觉反馈或其他类似方式选择目标的视觉指示器来避免光标不稳定移动的负面影响。
总之,研究人员认为,在需要便携性和隐私的情况下,眼动追踪可能非常具有价值,而且在这种场景中,实验后调查显示,参与者喜欢未经修改的眼动追踪。
Meta表示:“我们的新实验范式为改善AR和VR头显中基于眼动追踪的输入和交互奠定了基础。随着对眼动追踪技术的持续投资,我们可以预期眼动追踪误差会随着时间的推移而减少。总之,这项研究表明,眼动追踪具有巨大的潜力,它不仅能够在目标定位和选择任务中发挥作用,而且可以在重塑未来的AR/VR交互中发挥作用。”