科技魔方

首尔科技大学探索基于惯性传感器的预测性AR/VR眼动追踪方案

AR/VR

2023年07月18日

  眼动追踪技术主要是追踪每只眼睛的视线,并已成为下一代XR系统的高需求技术,包括用于减轻计算开销的注视点渲染。传统的VR眼动追踪实现是一种基于视频的系统,一般是使用朝向双眼的双摄像头,以及通过对角膜反射图像的实时分析来检测眼球运动。

  这种对额外硬件的需求增加了VR头显的成本,并限制了其外形尺寸。另外,摄像头、图像处理程序和VR系统存在延迟。

  XR社区已经开始探索一系列的优化方案,而韩国首尔科技大学则提出了一种基于惯性传感器的预测性眼动追踪方案,无需专用的眼动追踪组件。

  团队宣称,实验结果表明,在50 ms和150 ms的预期时间内,所提出的最终问题的解决方案将中心固定注视点(假设眼睛的注视点总是在视场的中心)的误差分别降低了50%和20%。另外,所述方案在预测用户未来眼睛注视点的能力能够抵消VR系统的延迟,并在额外延迟预算下实现了响应性眼动追踪。

  为了完成预测任务,研究人员制定了三个预测问题

  从过去的头部方向预测当前的注视点。

  从过去的注视点和头部方向来预测未来的注视点。

  从过去的头部方向预测未来的注视点。

  显然,第三点是团队的最终目标。换句话说,当在时间为t0进行预测时,目标是使用≤t0时刻提取的可用传感器数据来预测≥t0时刻的眼睛注视。

  首先,研究人员观察了不同延迟期情况下眼睛注视与头部方向的关系。观察结果显示出非常强的相关性,这意味着眼睛的注视点可以从头部方向来预测。但观察同时表明,随着延迟的增加,单一的头部方向样本不足以预测眼睛的注视。相反,头部方向的运动路径(即时间序列数据)成为预测的必要条件。

  然后,团队使用各种ML机器学习模型解决第一个预测问题和第二个预测问题,并最终为第三个问题开发两种解决方案:两阶段方法和单阶段方法。最终问题的两阶段方法依赖于串联的两个ML模型,一个用于第一个问题,另一个用于第二个问题。

  即第一阶段模型根据头部方向数据预测当前眼睛注视,第二阶段模型根据预测的当前眼睛注视数据预测未来眼睛凝视。相比之下,单阶段方法使用单一模型直接从过去的头部方向数据预测未来的眼睛注视。

  研究人员基于多名被试玩家从VR头显中捕获的真实眼动追踪轨迹来评估所提出的解决方案,并考虑到ML模型的各种组合。实验结果表明,在50 ms和150 ms的预期时间内,所提出的最终问题的解决方案将中心固定注视点的误差分别降低了50%和20%,并且单阶段方法优于两阶段方法。

  对眼球运动可预测性的观察

  他们从以下两个角度观察眼睛注视与头部朝向之间的相关性:

  当前的头部方向和当前的眼睛注视。

  当前的头部方向与未来的眼睛注视。

  所以,他们在图1中绘制了每个用户在t时刻记录的头部方向(横轴)和在t+ t时刻记录的眼睛注视(纵轴)之间的散点图,其中t为对未来眼睛注视预测的预期时间。考虑T= 0,100,200和300 ms,其中T=0 ms对应于当前头部方向与当前眼睛注视的情况,而T>0对应于当前头部方向与未来眼睛注视的情况。

  首先,T=0的图(每行的第一个子图)表明这两个变量线性相关。这一观察结果适用于所有五个用户。换句话说,观察到变量之间存在很强的相关性,同时意味着眼睛的注视可以从头部方向来预测。另外,以往的社区研究支持这一初步结论。

  当T>0时,这两个变量依然表现出相关关系,但不再是线性关系,而是呈现出棱角形关系。随着T的增加,这种形状变得更加明显。对所有用户都观察到类似的模式,但它们在特定T处的形状彼此不同。

  团队指出,这种倾斜关系是由于用户可以向左或向右旋转头部,所以未来的眼睛注视可以位于当前头部方向的任何一侧。我们的观察表明,随着延迟的增加,从单个头部方向样本中预测眼睛注视变得不可能。相反,头部方向的运动路径(即时间序列数据)成为预测的必要条件。另外,图表显示,由于用户依赖性,需要对两个变量之间的关系进行特定于用户的识别。

  问题定义与解决方案

  团队假设惯性传感器单元在时间t捕获的头部方向由h[t]=⟨hx[t],hy[t],hz[t]⟩给出,其中hx,hy和hz分别是欧拉角旋转坐标系中的偏航,俯仰和侧倾。眼睛注视定义为用户在FOV视场中查看的方向,它是头部方向和眼睛方向角的总和。

  研究人员用g[t]=⟨gx[t],gy[t]⟩表示注视t的眼睛。水平眼睛注视gx是头部偏航方向与眼睛水平方向角度之和。同样地,眼睛的垂直注视角是头部的俯仰方向和眼睛方向的垂直角度之和。

  他们希望从t时刻的可用信息中预测用户在t+ T时刻(T≥0)的眼睛注视。因此,预测的眼睛注视用g

  [t+ T]=⟨g

  x[t+ T],g

  y[t+ T]⟩表示,并可以定义为传感器数据样本窗口的函数:

  并且

  其中,θ为函数f的模型参数;h˙和h¨分别是陀螺仪和加速度计捕捉到的头部方向的角速度和加速度;τ为连续数据样本之间的时间间隔;W为输入数据样本的窗口长度。

  然后,将预测误差定义为:

  对于N个样本的预测,计算预测的平均绝对误差为:

  需要找到函数f及其参数集θ,以使e¯最小。

  问题1的解决方案:从过去的头部运动数据预测当前的眼睛注视

  问题1的目标是在没有g输入数据的情况下,找到T=0时的模型fθ,使得:

  解决问题1的模型架构如图2所示:

  解决这个问题最简单的方法是假设眼睛的注视点总是在视场的中心,即g

  [t]=⟨hx[t],hy[t]⟩。这是目前头戴式设备在无眼动追踪的情况下进行注视点渲染所采用的方法。

  另一个简单的方法是假设f是一个线性函数。研究结果表明,当人处于静止状态时,两者之间存在线性关系。使用这种线性方法,团队得到g

  [t]=α⟨hx[t],hy[t]⟩,其中系数α是使用最小二乘线性回归找到。

  另一种方法是将头眼关系建模为n阶动态系统:

  对于基于机器学习的方法,团队考虑了MLP、GBR、CNN、RNN和LSTM模型。对于MLP模型,将所有时间序列输入数据h、h˙、h¨和g平摊到一个数组中。输入数据一旦被平化,就会通过MLP模型中的多个隐藏层传递,最终产生两个不同的输出值,一个对应于g

  x,另一个对应于g

  y。

  对于CNN,来自各个惯性传感器的时间序列单独输入到模型中,不进行平化。输入数据序列在卷积层中进行滤波以提取数据的特征。从卷积层获得数据特征后,将其输入到后续的全连接网络中。

  在RNN模型中,使用W个cell,每个cell接收来自特定时间点和前一个cell的输入数据。这个cell链的输出与初始输入具有相同的维度,然后输入到一个产生g

  x和g^y的完全连接网络中。LSTM模型的结构与这一配置非常相似。

  问题2的解决方案:从过去的注视点和头部运动数据预测未来的注视点

  问题2的目标是找到T>0时的模型fθ,输入数据为g,使得

  他们首先考虑三种不使用ML的方法:

  无预测:在这种方法中,简单地假设未来的眼睛注视与当前的眼睛注视相同。

  恒定速率预测:这种方法假设用户头部的角速度(h˙)和相对眼睛注视在预期时间T保持不变。

  恒定加速度预测:这种方法假设用户头部的角加速度(h¨)和相对的眼睛注视在预期时间T保持不变。

  对于基于机器学习的方法,考虑类似于问题1的架构,并将当前眼睛注视作为模型的输入。而且,输出的不是当前时间,而是预期时间T提前的未来时间。换句话说,在时间t +T的未来眼睛注视是在时间t预测得到。

  问题3的解决方案:从过去的头部运动数据预测未来的注视点

  团队将问题3定义为从过去的惯性传感器数据预测未来注视点的问题。换句话说,问题3的目标是在没有g输入数据的情况下,找到T>0的模型fθ,使得

  图4说明了过去数据样本与预测之间随时间的关系:

  图5所示的第一种方法是将问题1和问题2的解决方案按顺序组合起来,亦即两阶段方法。

  等式为:

  在两阶段方法的训练过程中,第一步包括训练第一个子模型。接下来,利用惯性数据和第一个子模型产生的输出数据来训练第二个子模型。

  第二种方法称之为单阶段方法,它只使用一个训练成直接在等式(8)中找到θ的ML模型。

  单阶段方法在训练和推理阶段的数据流如图6所示。

  单阶段方法的输入数据与两阶段方法中的第一个子模型的输入数据相同。相较于两阶段方法需要眼睛注视数据作为第二个模型的输入,单阶段方法只需要头部方向数据作为输入,在这个基础上,单阶段方法直接输出预测的眼睛注视。

  单阶段方法的训练和推理过程比两阶段方法的计算效率更高。这是因为单阶段模型在训练过程中只需要一个步骤,并且在推理过程中只需要通过单个模型传播输入数据,而对于两阶段模型,两个子模型都必须参与两个过程。

  评估

  图9为两阶段模型归一化后的MAE平均绝对误差结果与Center+NOP的MAE对比。问题1和问题2的所有预测模型合并为相应的两阶段模型,然后根据它们的MAE性能对它们进行排序。最后,在这个图中只显示了所有组合中排名前五的模型。在50 ms的预期时间内,与Center+NOP相比,它们的MAE降低了约40%。

  当预期时间为150ms时,这种减少减少到大约20%。对于200 ms的预期时间,除LF+Ensemble方法外,其他方法的性能与Center+NOP方法相似。对于250 ms的预期时间,LF+Ensemble与Center+NOP相似。对于350和450毫秒的预期时间,所有方法都比Center+NOP更差,因为随着预期时间的延长,预测未来的注视变得更加困难。

  图10对单阶段模型的归一化MAE结果进行了比较。可以看到,单阶段模型比两阶段模型实现更低的MAEs。与Center+NOP相比,CNN模型和由所有基本模型构建的集成模型在50 ms的预测时间内均实现了约50%的MAE降低,而两阶段模型仅实现了高达40%的MAE降低。

  对于100 ms的预测时间,单阶段模型依然优于两阶段模型,实现了大约30%的MAE降低,而两阶段模型显示了大约20%的MAE降低。

  然而,单阶段模型的减少增益随着预期时间的增加而下降。在250 ms的预期时间时,减少增益与Center+NOP相似或更差。具有所有基本模型的集成方法总是比没有CAP的集成方法更好。这表明,尽管单独使用CAP在问题2中表现不佳,但将其包含在问题3的集成模型中有利于减少MAE。

  表3给出了分配给每种方法的排名。研究人员将实验结果总结如下:

  对于问题1,CNN模型通常在所有单一模型中提供最好的性能,而集成方法,特别是LASSO回归,优于所有其他方法。

  对于问题2,CNN和RNN模型以及集成方法通常表现出较强的性能,其优于NOP的增益随着预期时间的增加而降低。除了在50ms的短预期时间外,其他模型的表现都不如NOP。

  对于问题3,在较短的预测时间内,单阶段方法略优于两阶段方法,但在较长的预测时间内,两阶段方法更胜一筹。在单阶段方法中,CNN模型和集成模型通常表现出最好的性能,其优于NOP的增益随着预期时间的增加而再次降低。除了在50ms的短预期时间外,其他模型的表现都不如NOP。

  总的来说,针对三个时间序列回归问题,韩国首尔科技大学开发了仅使用惯性传感器的眼动追踪解决方案,即:

  使用过去的头部方向数据预测当前的眼睛注视

  使用过去的头部方向和眼睛注视数据预测未来的眼睛注视

  仅使用过去的头部方向数据预测未来的眼睛注视。

  团队使用各种ML模型解决了第一个和第二个问题,并开发了两种方法来解决最后一个问题:两阶段和单阶段方法。

  在两阶段方法中,两个ML模型串联起来,一个用于第一个问题,另一个用于第二个问题。相比之下,单阶段解决方案使用单一模型直接从过去的头部方向数据预测未来的眼睛注视。

  团队基于从VR头显中捕获的真实眼动追踪轨迹对多名测试玩家进行了评估,并考虑了各种ML模型的组合。结果表明,预测模型在几百毫秒的预测时间内是有效的,单阶段方法优于两阶段方法。

+1

来源:映维网

延展资讯