苹果AR/VR专利探讨单目SLAM的初始化解决方案_科技魔方-读懂科技做科技极客

　　真实环境的camera姿态(camera运动)估计和/或数字重建是常见且具有挑战性的任务，例如3D对象重建和增强现实可视化等。camera姿态估计的任务是计算camera与参考对象(或环境)之间的空间关系或变换。camera姿态描述了camera在一个位置相对于同一camera在另一位置的姿态，而空间关系或变换则描述了三维空间中的平移、旋转或其组合。

　　基于视觉的方法常用于计算camera姿态，例如SLAM。其中，可以根据camera捕获的环境的一个或多个图像来计算camera相对于环境的姿态(或运动)。这种基于视觉的方法依赖于捕获的图像，并且需要图像中的可检测视觉特征。

　　对于为AR开发的各种基于单目视觉的SLAM系统，特别移动手持式AR应用，常见的挑战和限制包括SLAM系统的初始化和度量尺度因子的确定。

　　大多数SLAM系统必须初始化，而初始化必须通过camera在获取真实环境的两幅图像之间的明显移动来完成。不同的运动要求从两个不同的camera位置捕获两个图像，与到环境的距离相比要具有足够的位移。所以，从零开始手动初始化单目SLAM非常具有挑战性，因为用户无法直观地移动手持设备的camera以实现足够的位移。

　　另外，正确的比例因子定义了真实的camera姿态和重建环境模型在真实世界中的大小。

　　针对上述问题，苹果在名为“Method of tracking a mobile device and method of generating a geometrical model of a real environment using a camera of a mobile device”的专利申请中提出了自己的解决方案。

　　概括来说，专利描述了在真实环境中追踪包括至少一个camera的移动设备，亦即确定camera姿态(运动)。所述方法步骤包括：接收与由至少一个camera捕获的至少一个图像相关联信息;根据至少一个传感器获取的环境数据或移动系统状态数据，生成真实环境至少一部分的几何模型;并且根据与至少一个图像相关联信息执行追踪过程。专利同时描述了利用至少一个camera提供的图像信息来生成真实环境至少一部分的几何模型。

　　图3示出了根据本发明实施例的方法的流程图。其中，所述方法基于由移动系统的传感器获取的环境数据生成真实环境的几何模型，并基于生成的环境模型追踪移动设备。

　　应对SLAM系统的初始化挑战

　　假设移动系统正在真实环境中运行(图3，步骤301)。在图3中，具有一个实心轮廓的框指示可以在移动系统中执行动作。带有一个破折号轮廓的框指示可以在移动设备中执行动作。具有双实线轮廓的框表示可以在移动系统、移动设备或两者中执行操作。

　　在环境中或通过环境驱动移动系统期间，安装在移动系统的一个或多个传感器可以获取环境数据ED。环境数据ED的获取过程可以由用户手动启动、恢复、暂停和/或停止。另外，当满足特定条件时(步骤302)，可以自动开始、恢复、暂停和/或停止获取过程。

　　当满足开始或恢复采集环境数据的一个或多个条件时，或者当用户手动触发开始或恢复时，开始或恢复环境数据ED的采集(步骤303)。然后，如果环境数据ED的采集必须停止或暂停(步骤304)，则停止或暂停采集过程(步骤305)。

　　如果环境数据ED可用于配备有用户camera的手持式设备，则由移动系统的任何处理器设备基于环境数据ED生成环境的几何模型Md(步骤307)，然后将模型转移到手持设备(步骤308)，或者将环境数据ED传送到手持设备(步骤311)。接下来，基于手持设备中的环境数据ED生成环境模型Md(步骤312)。

　　在一个实施例中，可以将环境数据ED传送到另一计算机，例如，远离移动设备和移动系统的服务器计算机，并且例如通过在服务器计算机上运行的应用程序，基于服务器计算机的环境数据ED创建环境的几何模型Md。在这种配置中，服务器计算机在客户端-服务器架构中与作为客户端设备的移动设备和移动系统通信。然后，将环境数据ED和/或几何模型Md从服务器计算机传送到移动设备。

　　当环境数据或部分环境数据可用时，可随时执行几何模型Md，例如，在环境数据采集过程中在线，或在采集环境数据后离线。例如只要有新的环境数据可用，就集成新环境数据以生成几何模型Md。

　　假设几何模型Md在手持设备中可用，如果必须在环境中追踪手持式设备(步骤309)，则至少部分根据几何模型Md执行追踪(步骤310)。步骤309和310可以在手持式设备中执行。

　　例如，当在环境中驱动移动系统时，可通过移动系统的深度传感器提供的环境深度数据生成真实环境的几何模型。一系列的方法可用于从深度数据重建真实环境的3D表面。

　　当在环境中驾驶移动系统时，可通过使用基于视觉的SLAM和至少一个camera来创建或生成真实环境的几何模型。行业已经开发了多种基于视觉的SLAM方法，并且可以使用由移动系统的至少一个camera捕获的图像来创建环境模型。移动系统的其他传感器也可以用于支持环境模型的构建。

　　应对环境几何模型的比例因子不确定

　　通过使用camera拍摄环境中具有已知距离的两点或具有已知物理尺寸的真实对象图像，可以有效地确定将环境模型带入公制比例所需的正确比例因子。例如，可以使用交通信号灯、具有已知3D模型的汽车或其他道路设备来估计比例因子。

　　在一个实施例中，可以从移动系统和环境之间的距离恢复正确的比例因子。如果捕获两个图像的一个(或两个)camera之间的参考距离已知，则可以确定正确的比例因子。对于立体camera，两个camera中心之间的基线距离可用作参考距离。

　　如果移动系统在环境中的位置已知，可以确定正确的比例因子。移动系统在环境中的位置可以从GPS或从固定在环境中的传感器确定。

　　现在参考图1，在给定至少一个camera的情况下，基于由至少一个camera捕获的图像来创建或生成几何模型和/或计算摄像机姿态的过程可以包括特征检测(步骤102或105)、特征描述(步骤102和105)、特征匹配(步骤106)和/或其他步骤，三角测量(步骤107)和可选地(全局)地图细化，其调整三角测量位置和/或相机姿态，和/或从三角测量中移除和/或添加点。

　　创建几何模型和/或计算camera姿态的过程同时可以基于使用立体camera系统来实现。在一个实施例中，camera的光流可用于生成几何模型或支持模型的生成。

　　为了重建环境模型，camera可能必须在不同位置拍摄至少两幅图像。例如，在步骤101中，camera在姿态PA处捕获图像IA，然后camera以不同的位移M移动，以在不同于姿态PB的位置的姿态捕获图像IB(步骤103和104)。

　　可以通过具有高重复性的方法执行特征检测，以识别图像IA和IB中的特征。换句话说，将选择图像中对应于相同物理3D表面的部分作为不同视点、不同旋转和/或照明设置的特征的概率很高。特征通常在尺度空间中提取，即在不同的尺度下提取。因此，每个特征除了其二维位置之外，还具有可重复的比例。另外，可以根据特征周围区域中像素的强度计算可重复方向(旋转)，例如作为强度梯度的主导方向。

　　特征描述是将检测到的图像区域转换为典型特征描述符，所述特征描述符对特定类型的变化具有鲁棒性或不变性。确定特征描述符以实现特征的比较和匹配。常用方法使用计算的特征比例和方向来变换特征描述符的坐标，这提供了旋转和比例不变性。

　　例如，描述符可以是n维实数向量，其通过连接局部图像强度(例如梯度)的函数的直方图来构造。或者，描述符可以是n维二进制向量。

　　同时，每个检测到的特征可以(可选地)与相对于环境和/或相对于camera的先前姿态之一的(部分)位置和取向相关联。可以从GPS传感器/接收器、IR或RFID三角测量或通过使用宽带或无线基础设施的定位方法获得位置。方位可以从例如罗盘、加速度计、陀螺仪或重力传感器获得。当camera安装在移动系统中时，可以从移动系统的速度或转向获得相对于camera先前姿态之一的位置和定向。

　　在一幅图像中可以检测到多个特征。特征匹配是为一个特征集的每个特征找到另一个特征集中具有最相似描述符的特征，并将这两个特征存储为对应(匹配)。例如，给定在图像IA和IB中检测并描述的两个特征集FA和FB，目标是为特征集Fas的每个特征找到具有最相似描述符的特征集FB的一个特征。

　　参考图2，其示出了具有特征c和特征c的相应描述符d(c)和参考特征r的描述符d(r)的图像CI。

　　可以通过确定特征集FA中的每个相应特征描述符与特征集FB中的每个各自特征描述符之间的相应相似性度量来实现特征集FA与特征集FB的匹配。图像相似性度量的常见示例包括负或反向平方差和(SSD)、负或反向绝对差和(SAD)，(归一化)互相关和互信息。相似性的结果是实数。相似性度量结果越大，两个视觉特征越相似。

　　特征匹配的最简单方法是通过穷举搜索找到当前特征描述符的最近邻居，并选择相应的参考特征作为匹配。更高级的方法使用描述符域中的空间数据结构来加速匹配。常用方法使用近似近邻搜索，例如通过空间划分数据结构(如kd树)来实现。

　　特征匹配后，创建特征集FA和特征集FB的特征之间的对应关系。对应可以是2D-2D或2D-3D。基于这些对应关系，确定相对于环境或相对于先前相机姿态之一的相机姿态。在此之后，通常(但可选)有一个(全局)细化步骤，可能重新评估在初始阶段丢弃的对应关系。细化有多种方法和启发式方法。

　　特征可能没有相关的特征描述符(如SIFT)，但可以由图像块表示。特征的比较和匹配可以通过使用诸如平方差和(SSD)、归一化互相关(NCC)、绝对差和(SAD)、互信息(MI)等方法计算图像块之间的差(例如像素强度差)来执行。

　　名为“Method of tracking a mobile device and method of generating a geometrical model of a real environment using a camera of a mobile device”的苹果专利申请最初在2022年5月提交，并在日前由美国专利商标局公布。

苹果AR/VR专利探讨单目SLAM的初始化解决方案

推荐文章