微软研究团队分享：用数据集LaMAR开发AR场景定位、映射算法

　　计算机视觉是计算机科学中最引人注目的领域之一。它的发展速度非常迅速，并且有望显著影响人们的生活和工作方式。近年来，机器学习和计算机视觉的融合交叉进展正在加速，并为众多领域带来了重大进展，包括医疗保健、机器人、汽车工业和增强现实。

　　为了帮助人们实现更多目标，微软研究人员一直在与所述领域的学者和专家合作，共同开展一系列的计算机视觉项目。一个例子是PeopleLens。这款以HoloLens作为灵感的头戴式设备可以通过空间化音频识别周围的人员，从而帮助失明人士或视力低下人士在社交场合进行互动。另一个例子是Swin Transformer。这个计算机视觉架构在目标检测中实现了高精度，并提供了将计算机视觉和自然语言处理(NLP)架构统一的机遇。

　　在日前举行的2022年欧洲计算机视觉大会(ECCV)，微软介绍了团队在计算机领域的最新成果。下面将重点与混合现实相关的两份研究论文。第一篇是通过增加面部landmark的数量来实现更精确的3D面部重建，在降低所需计算能力的同时获得最先进的结果。另一篇主要涉及一个利用AR设备对真实世界进行视觉定位和映射的数据集。以下是第二篇“LaMAR: Benchmarking Localization and Mapping for Augmented Reality”的分享。

　　为了充分发挥增强现实的潜力，任何头显用户都应该能够将虚拟内容放置在物理世界中，与他人共享，并期望虚拟内容能够随着时间的推移而保持在原处。但是，在AR设备以全息图形式增强现实世界之前，它们需要构建物理3D世界的数字映射。然后，设备需要相对于所述映射进行定位或重新定位。这允许它们检索先前放置的全息图并在指定位置向用户显示。实现所述功能的计算机视觉基础称为映射和视觉定位。

　　通常，视觉定位的研究集中在单个图像，一般是精心挑选的著名景点的视图。但这并不能反映真实的AR场景。AR设备可以本地映射环境，并提供空间配准序列，而不是单个图像。这种序列同时可以包括其他数据，如来自传感器的惯性信号或无线电信号。然而，使用这样的序列进行定位非常具有挑战性，因为它们通常只是在正常设备使用过程中收集，而且并不旨在促进定位。

　　为了弥补这一差距，微软引入了一个全新的基准。这是微软一个专注于AR的设置，并明白到视觉重新定位是共享性和持久性AR体验的关键要素。考虑到典型AR场景的空间尺度，例如导航机场或检查工厂，团队必须设计一条能够自动计算各种现成AR设备(如HoloLens或iPhone)捕获真实AR序列的ground truth摄像头位置的管道。通过在所述基准评估最先进的方法，研究人员对当前研究提供了新的见解，并为AR视觉定位和映射领域的未来探索提供了途径。

　　这是微软苏黎世混合现实与人工智能实验室和苏黎世联邦理工学院为期两年合作的成果。

　　1. 开发大规模AR数据集

　　为了帮助研究社区解决AR映射绘制和视觉定位的具体问题，团队从现代AR设备收集了多传感器数据流。相关传感器流在每个时刻都来自设备追踪器的camera姿态(摄像头的位置和方向)。所述数据流同时包含图像、深度测量、惯性测量单元(IMU)的样本和无线电信号。利用它们可以产生更有效的算法。

　　例如，无线信号(如Wi-Fi或蓝牙)可以简化图像检索。类似地，序列定位可以利用传感器流的时间方面来提供更多的空间背景，这可以实现camera姿态的更准确估计。这是一个典型的现实用例，其中用户启动AR应用程序并流式传输感知数据，以相对于先前构建的映射定位摄像头，它反映了基于混合现实云服务(如AzureSpatial Anchors)构建的AR应用程序的工作方式。

　　LaMAR数据集的首次发布包含了超过100小时的记录，覆盖面积45000平方米，是使用HoloLens 2和iPhone/iPad设备在两年的时间内录制。所述数据是在不同的室内和室外位置采集，代表了典型的AR场景，例如历史建筑，多层办公楼和城市中心等。它包括照明的变化和对象的移动，或者是缓慢的动作，比如把书放到桌面，或者是更快的动作，比如匿名人员在人行道行走。

　　2. 自动对准AR序列以建立ground truth

　　为了估计ground truth摄像头姿态，团队将捕获的数据与位置的参考3D模型对准。所述参考模型是使用NavVis M6和VLX测绘系统捕获。这两个系统都配备了激光扫描仪(激光雷达)，可生成密集、纹理化和高度精确的位置3D模型。为了对准数据，他们开发了一个不需要手动标记或设置自定义基础设施强大管道，这使得研究人员能够可靠地处理来自各种AR设备的长期数据。

　　实际对准过程全自动，并利用AR设备的实时追踪器在其本地坐标系中提供camera姿态。团队将每个捕捉到的序列分别与密集ground truth参考模型对准。完成后，通过优化序列内和序列间的视觉约束，对所有camera姿态进行联合优化。

　　3. 评估AR背景下的本地化和映射

　　他们在单帧设置中评估了当前最先进的方法：定位从手机获得的单个图像，以及从HoloLens 2获得的单个图片。然后为了利用无线电信号，团队调整了相关的方法。最后，研究人员设计了基线，以所述方法为基础，并在与真实AR应用相对应的多帧定位设置中使用设备实时追踪器。结果表明，通过包括现代AR设备中通常可用的附加数据流，他们可以显著提高最先进方法的性能表现。

　　为了获得令人信服的用户体验，AR应用程序应该在启动会话后尽快检索和可视化内容。为了量化这一点，研究人员引入了一种称为time-to-recall的新度量。它主要测量成功定位所需的序列持续时间。这可以鼓励研究人员开发能够尽可能快地准确定位camera的算法。

　　如上面所示，HoloLens 2的time-to-recall为80% ，手机为70%。使用无线电信号则可以将time-to-recall分别从10秒缩短到1.40秒和3.58秒。

　　4. 使用LaMAR基准

　　LaMAR是一个关注于使用AR设备进行视觉定位和映射的真实设置基准。评估结果显示，利用姿态序列而不是单个帧，以及利用其他传感器模式(如无线电信号)来定位camera和绘制环境具有巨大潜力。

　　研究人员可以通过这个页面访问LaMAR基准测试、评估服务器、ground truth管道的实现，以及带有附加感官数据的基准。团队表示：“我们希望这项工作能够启发未来的研究，鼓励大家开发出适合真实AR场景的定位和映射算法。”

微软研究团队分享：用数据集LaMAR开发AR场景定位、映射算法

推荐文章