众所周知,Meta下一个目标就是AR眼镜,尽管开发AR比VR面临更多复杂的难题,因此可能还要过一段时间才能看到Meta的AR眼镜。目前,该公司已推出了第一代Ray-Ban Stories智能眼镜,特点是搭载的双摄像头不仅可以拍照,更重要的意图在于捕捉具有双目视差的3D数据,进行第一视角的分析和利用,从而推动贴近日常生活的AI应用。
通过Stories,Meta可以了解到穿戴式设备在实际应用中会出现的问题,比如摄像头、传感器被遮挡,性能下降,捕捉到的3D数据不完整等等。
在最新的论文中,Meta进一步揭秘了Stories采用的3D深度传感方案,其中包含一种新颖的实时校正算法,一种单目和双目视差网格协同设计,以及从单目数据导出3D数据集的方式。同时,该方案结合配对手机的GPU来处理3D数据,比如图像预处理、立体校正和深度估计。
据了解,该方案的重点主要是优化3D深度传感的性能,同时为了确保准确性,系统还会识别校正数据的可靠程度,不可靠时会退回至单目深度预测模式。另一方面,Meta科研人员希望让这种3D视图生成管道适用于更广泛的设备,包括比较旧的手机型号。
Meta指出,即便使用6年前发布的Galaxy S8手机,CPU计算3D视图的时间也能低至1秒,而且模型泛化能力比较好。技术挑战
科研人员指出,立体视差预测是计算机视觉的基本问题之一,这项技术在多种领域都有广泛应用,比如AR/VR、计算摄影、机器人和自动驾驶等等。
然而,在端到端深度传感系统中合成立体图像面临许多挑战,对于移动设备来讲,算力是最大的局限。因此,Meta根据手机上有限的算力,设计了这种比较实用的3D图像处理管道。这也意味着,管道中的步骤需要协同工作,在出现故障或数据不理想时更好的进行调整,校准因不可预见因素对性能的影响(比如高温、户外)。
Meta表示:我们希望智能眼镜足够通用,因此需要让更多类型的手机与之匹配,而不能依赖于特定的硬件或机器学习加速模型。而这项研究的主要目标,则是为3D计算摄影带来最佳的用户体验。 解决方案
为了确保3D捕捉的稳定性,Meta研发了一套实时的校正系统,其优势包括: 端到端3D数据处理系统,可动态调整数据处理模式; 包含快速、稳定的线上校正算法; 3D深度系统和单目深度系统输出格式相似; 在有限的算力下,依然能达到足够准确。
细节方面,该方案的运算流程如下:将智能眼镜输出的3D数据进行出厂校正、去畸变、降采样(降低两倍)、HDR包围曝光,然后在线上校正,校正质量达标后,会输入到立体CNN网络中,然后进入渲染管道,生成涂层、纹理修复、网格等等。如果校正质量未达标,则退回到单目模式,输入到单目CNN网络中处理,然后再进入渲染管道,生成新的视角。
当然,在线校准不一定保证可靠性,当一侧摄像头被遮挡时,或者摄像头捕捉的特征数据不足时,便只能退而求其次,通过单目深度网络来预测。不管是双目深度预测还是单目深度预测,都使用相同的下游处理管道,好处是可以输出准确性高的相对视差,可以很好的满足3D捕捉和建模的目的。
另外,在生成深度视差图后,系统会裁剪最大有效区域,并保持原始的纵横比,这样做可以进一步优化3D建模的整体质量。最后一步,则是结合右侧相机预测的视差,和相应的彩色图像,渲染出三维效果。
而在新颖视图合成部分,Meta使用了基于LDI(分层深度图像)的方案来创建立体训练数据集,以创建3D合成效果。参考:Meta