从单目数据生成3D模型 Meta智能眼镜摄像头校正算法揭秘

　　众所周知，Meta下一个目标就是AR眼镜，尽管开发AR比VR面临更多复杂的难题，因此可能还要过一段时间才能看到Meta的AR眼镜。目前，该公司已推出了第一代Ray-Ban Stories智能眼镜，特点是搭载的双摄像头不仅可以拍照，更重要的意图在于捕捉具有双目视差的3D数据，进行第一视角的分析和利用，从而推动贴近日常生活的AI应用。

图片_20230518152957

　　通过Stories，Meta可以了解到穿戴式设备在实际应用中会出现的问题，比如摄像头、传感器被遮挡，性能下降，捕捉到的3D数据不完整等等。

　　在最新的论文中，Meta进一步揭秘了Stories采用的3D深度传感方案，其中包含一种新颖的实时校正算法，一种单目和双目视差网格协同设计，以及从单目数据导出3D数据集的方式。同时，该方案结合配对手机的GPU来处理3D数据，比如图像预处理、立体校正和深度估计。

　　据了解，该方案的重点主要是优化3D深度传感的性能，同时为了确保准确性，系统还会识别校正数据的可靠程度，不可靠时会退回至单目深度预测模式。另一方面，Meta科研人员希望让这种3D视图生成管道适用于更广泛的设备，包括比较旧的手机型号。

图片_20230518152959

　　Meta指出，即便使用6年前发布的Galaxy S8手机，CPU计算3D视图的时间也能低至1秒，而且模型泛化能力比较好。技术挑战

　　科研人员指出，立体视差预测是计算机视觉的基本问题之一，这项技术在多种领域都有广泛应用，比如AR/VR、计算摄影、机器人和自动驾驶等等。

　　然而，在端到端深度传感系统中合成立体图像面临许多挑战，对于移动设备来讲，算力是最大的局限。因此，Meta根据手机上有限的算力，设计了这种比较实用的3D图像处理管道。这也意味着，管道中的步骤需要协同工作，在出现故障或数据不理想时更好的进行调整，校准因不可预见因素对性能的影响(比如高温、户外)。

　　Meta表示：我们希望智能眼镜足够通用，因此需要让更多类型的手机与之匹配，而不能依赖于特定的硬件或机器学习加速模型。而这项研究的主要目标，则是为3D计算摄影带来最佳的用户体验。解决方案

　　为了确保3D捕捉的稳定性，Meta研发了一套实时的校正系统，其优势包括：端到端3D数据处理系统，可动态调整数据处理模式; 包含快速、稳定的线上校正算法; 3D深度系统和单目深度系统输出格式相似; 在有限的算力下，依然能达到足够准确。

图片_20230518152952

　　细节方面，该方案的运算流程如下：将智能眼镜输出的3D数据进行出厂校正、去畸变、降采样(降低两倍)、HDR包围曝光，然后在线上校正，校正质量达标后，会输入到立体CNN网络中，然后进入渲染管道，生成涂层、纹理修复、网格等等。如果校正质量未达标，则退回到单目模式，输入到单目CNN网络中处理，然后再进入渲染管道，生成新的视角。

图片_20230518152949