科技魔方

受心理学启发,这项眼球追踪生成式模型大幅降低训练成本

AR/VR

2022年11月03日

  现有的AR/VR技术通过沉浸的视觉和空间音频,以及6DoF手柄、手势交互,已经呈现出与2D媒介非常不同的优质体验。接下来,AR/VR还有望结合逼真体感反馈、眼球追踪等技术,为用户带来更丰富的交互。

  目前,一些VR头显已经配备眼球追踪模块,Meta Quest Pro、PSVR2等已确定支持眼球追踪。尽管如此,理想的眼球追踪依然受到技术局限,在普遍适用性、延迟、准确性等方面都存在挑战。

  实际上,除了技术提升外,训练眼球追踪算法也很重要。然而,训练算法需要大量有标记的眼球运动数据,然而这种生物数据通常涉及个人隐私,不容易采集,因此市面上缺少大规模的数据库。

  因此,杜克大学的科研人员Maria Gorlatova和其团队决定研发一种受心理学启发的生成式模型:EyeSyn,它可以根据公开的图像和视频来合成大量逼真的眼球运动数据,这些数据带有标记,可降低AR/VR眼球追踪训练的成本。眼球追踪的重要性

  当谈及研发EyeSyn的原因,科研人员表示:眼球追踪在AR/VR领域有多种用途,比如内容开发者可根据眼球数据来分析用户的兴趣点、感受、偏好和偏见等信息,从而为用户量身定制内容。此外,延伸追踪也可以优化AR/VR虚拟化身的生动感、提升AR/VR交互体验、作为一种自然的输入方式、眼球身份认证、注视点渲染、动态变焦、AR HUD系统的驾驶员疲劳识别等等。

  然而,市面上的一些眼球追踪技术采用机器学习、深度神经网络等技术来进行训练,这将需要收集一个有标记的大规模眼球运动数据集,包含来自数百人、一整个小时的数据。

  收集真人数据面临三大困难:

  1)不同人在不同视觉刺激、不同传感器、不同环境之中的表现存在高度差异;人眼阅读的文字材料的布局、格式不同,眼球运动也有无数种组合,因此收集大规模相关数据并不实际;

  2)眼球数据与用户的心理和生理信息相关,因此构建眼球数据库可能涉及隐私安全;

  3)收集眼球运动数据耗费人力和时间,尤其是在疫情期间难以展开大规模采集。

  初创AR/VR公司很少有能力收集这样大规模的数据。因此,EyeSyn提供了一种低门槛工具,科研人员希望它可以帮助初创公司、开发者们创造受欢迎的AR/VR游戏。 准确、大量的数据

  目前,EyeSyn已经合成180小时以上注视点数据,是现有同类数据集的18到45倍规模,数据合成过程无需大量的人力和时间,不侵犯隐私安全。

微信图片_20220414160247

  而为了验证EyeSyn的准确性,科研人员让虚拟眼球观看一段视频或浏览虚拟博物馆,并将虚拟眼球的运动与真人观众进行对比,变焦规律、反应方式足够接近。实验结果还显示,利用EyeSyn合成数据来训练的CNN分类模型,可达到90%准确率,可达到目前最好的标准。

  经验证,EyeSyn可复制眼球追踪设备捕捉到的各种不同信号模式,具有多样性。在小样本学习场景中,它容易和迁移学习或元学习(meta-learning,教算法学会学习)结合,它无需大规模数据就能训练。 EyeSyn特点

  EyeSyn的特点是:1)不同于生成对抗网络(GAN),EyeSyn不需要根据真实的眼动数据来训练;2)可根据图像和视频数据来生成多样化的大规模眼动数据集;3)EyeSyn可以模拟不同的眼动追踪设置,包括视觉距离、视觉刺激的渲染尺寸、采样频率和多样的对象。

  具体来讲,EyeSyn可合成文本阅读、口头交流以及静态和动态场景感知四种情景中,眼球的运动规律,同时也可以模拟不同人的眼球运动差异。

  在文本阅读情景中,EyeSyn引入了一种名为ReadGaze的模型,这实际上是一种基于文本识别的最佳观看位置检测模块,可识特定定文本刺激中的潜在注视点。此外,还开发了一个跳跃效果模拟器来模拟跳跃阅读的视觉行为。

  而在模拟对话情景时,EyeSyn则采用VerbalGaze模型,其中包含面部区域追踪模组、注意力模型,以模拟在口头交流中固定和切换不同面部区域的视觉行为。而StaticScene和DynamicScene模型,则用来合成静态和动态场景感知中的眼球运动。 四种眼球运动模拟

  接下来将更加详细的讲一讲,EyeSyn包含的合成模型的细节:

  1)文本阅读:

  在阅读过程中,人眼决策注视位置和注视时间是两个独立的过程,注视位置通常取决于单词的长度,或是与上一个注视位置之间的距离。人们普遍认为,读者试图将注意力集中在单词的中心,这被称为最佳观​​看位置 (OVP),也是视觉系统识别单词所需时间最少的位置。注视持续时间由词的特征决定,特别是词长。

  此外,在阅读中有时会出现单词跳读,这就是所谓的跳读效应。一般来说,跳过一个单词的概率与单词长度成反比。

  根据上述规律,科研人员提出了一种ReadGaze模型,可模拟文本阅读中的视觉注意力。ReadGaze 由基于文本识别的 OVP 检测模块组成,用于识别给定文本刺激中的潜在注视点,以及用于模拟跳读视觉行为的跳读效果模拟器。

  2)语言交流:

  认知神经科学的研究表明,口头交流的参与者将大部分视觉注意力集中在他们的交流伙伴身上。具体来说,他们倾向于注视和扫描伴侣面部的不同区域。实际上,面部只占据视场角一小部分,人眼的主要关注点是眼睛、鼻子和嘴巴。

  这个场景利用VerbalGaze模型来模拟,其中包括面部区域追踪模块,以及基于马尔可夫链的注意力模型。

  3)静态和动态场景感知:

  在检查复杂的视觉场景时,人类视觉系统不会处理场景的每个部分。相反,它选择场景的一部分,并以连续的方式将注意力集中在每个场景上。根据特征整合理论,视觉系统最初将整个场景以颜色、方向和空间频率等低级特征进行分类。然后,视觉注意力被连续引导到从周围环境中突出的每个显著区域。

  注视点的选择也受到中心注视偏差的影响,这指的是人眼倾向于观看场景中心。

  研究表明,场景中心是提取全局视觉信息的最佳位置,是动眼神经系统开始探索场景的起点。在这项模拟中,科研人员设计了两个生成模型:StaticScene和DynamicScene,分别模拟静态和动态场景感知(对象正在观看绘画或观看视频)中的眼球运动。其中,StaticScene基于显著区域注视点预测,而DynamicScene则基于视觉中心的注视点预测。

  为了提升注视点信号模拟的逼真感,还引入注视模型,来模拟在注视某一点时产生的微眼跳、下意识微眼动,以及眼球追踪噪点,以模拟逼真的眼球注视运动。 心理学发现

  实际上,人眼的运动非常复杂,面对外界的各种刺激会产生各种不同的反应。因此通过EyeSyn,科研人员也希望了解人眼观看世界和处理视觉信息的过程。

微信图片_20220414160435

  EyeSyn在实验中体现了多项心理学发现,比如在对话场景中,人们的注视点通常在讲话人的眼睛、鼻子、嘴巴之间交替。因此,EyeSyn配备了麦克风,在听到视频中有人说话时,便开始模拟人眼的自然运动,即注视点停留时间分布在讲话人的眼睛、鼻子、嘴巴之间。而患有自闭症、精神分裂、社交焦虑等神经发育或精神障碍的人,可能会在社交互动中表现出非典型的眼球运动模式,比如避免目光对视。

  此外,视觉注意力的决策受到许多认知因素的影响,比如心理压力、认知任务、场景中显著的视觉区域等等。目前,EyeSyn的设计还没有考虑到这些因素。未来,可能需要结合心理学、神经科学、社会科学等其他知识,才能进一步探索万能的注视点模拟模型。 技术局限

  尽管如此,目前EyeSyn的设计无法完全复制人类视觉处理的复杂机制,因此不能合成所有人的眼球运动。

微信图片_20220414160428

  理想的眼球追踪系统可捕捉瞳孔扩张、人眼快速扫视等微小动作,从而推测出人的实时状态/心情和关注点。甚至还可以分析一个人是在看漫画还是文学作品。另外,理想的眼球追踪有望提升AR/VR交互的上下文感知功能,并且动态识别使用者的情绪和认知负荷变化。

  Gorlatova表示:目前EyeSyn的合成数据还不完美,未来通过更多次测试和运行,将可以生成一个具有规模的眼球运动合成数据集,用来培训机器学习分类算法。

  未来科研人员计划将EyeSyn用来自闭症在社交场景中,注视点的变化,或者模拟精神分裂患者的非典型眼球运动模式。也可以应用于虚拟化身、动画、游戏、虚拟助手、VR社交等等场景。参考:杜克大学

+1

来源:青亭网

推荐文章