从立体视觉中估计深度是一个基本的计算机视觉问题,在3D重建和AR/VR等方面都有应用。随着多摄像头设备的出现,立体视觉可以简化日常场景的3D重建,将其提取为在虚拟现实或混合现实中体验的内容。
来自立体视觉的深度以从不同视点捕捉同一场景的两个图像作为输入。然后,它找到成对的匹配点,这个问题称为视差估计。由于两个摄像头经过校准,因此可以使用三角测量将匹配的点投影到3D中。
尽管这个过程很健定,但当应用于视频数据时,它是次优的,因为它只能单独重建立体帧,并会导致不一致。所以在名为《DynamicStereo: Consistent Dynamic Depth from Stereo Videos》的论文中,Meta和牛津大学的研究人员考虑了立体视觉的动态深度问题,以提高视频数据立体重建的时间一致性。
传统的立体视觉计算方法计算局部图像patch之间的匹配成本,将成本聚合到目标函数中,并将后者与正则化项一起优化以推断差异。这种方法的例子包括max-flow和graph-cut。近来,立体视觉方法使用了从大量用真实差异注释的图像对中学习的深度网络。
它们通常采用类传统方法,但使用深度CNN特征来计算匹配成本,并用预先训练的回归深度网络代替每张图像的优化,处理成本量并输出估计的差异。在视频设置中,通过在空间和时间上寻找匹配,可以隐式提高匹配质量。
例如,在给定时间被一个camera遮挡的点在其他时间可以从二个camera看到。transformer架构已经表明,attetion可以是一种强大而灵活的方法,用于在一系列情景中汇集信息。
团队的DynamicStereo模型结合了self attetion和cross attetion,以提取空间、时间和立体对中的相关信息。所属架构依赖于divided attention实现对这个高维空间的有效处理。
作为一种基于学习的方法,他们希望从代表现实生活中的3D动态重建应用程序的数据中学习先验,其中视频描绘了人或动物移动和与物体交互。
有几种合成视频数据集通常用于训练立体和光流方法,但它们包含具有多层运动对象的抽象场景,与现实生活几乎没有相似之处。存在更逼真的立体数据集,但它们要么不包含视频序列,要么专注于静态场景。
鉴于所述限制,研究人员提出了一个新的合成立体数据集,包含Replica数据集中真实物理空间内移动的人类和动物角色。他们将这个新的数据集称为Dynamic Replica(DR),并将其用于学习动态立体匹配。DR包含524个虚拟人和动物的视频,嵌入物理环境的逼真数字扫描中。
研究表明,与仅在立体数据集的现有深度上训练动态立体方法相比,DR可以显著提高动态立体方法的质量。
方法
研究人员首先公式化dynamic depth from stereo问题。挑战在于设计一种能够有效地在如此大的数据量上传递信息的架构。团队通过编码器-解码器设计实现了这一点。编码器独立于所有帧提取特征,并获得其内容的多尺度表示。解码器然后逐步匹配更详细的特征,以coarse to fine地恢复差异。低分辨率匹配很容易发现大图像区域的大位移,从而捕捉视差图的粗略结构,而高分辨率匹配则恢复细节。
为了提高效率,匹配总是沿着对极线进行。跨空间、视图和时间交换信息的任务委托给两种机制。首先,编码器终止于transformer网络。其中,transformer网络通过依次在这三个维度上运行attetion来更新最低分辨率特征。这是有效的,因为它只针对最低分辨率的特征进行。其次,解码器在匹配特征时进一步传播信息以恢复差异。解码器本身由更新块组成,其使用空间和时间信息来逐渐细化视差。
由于其迭代性质,所提出的模型为每个时间戳生成M个预测。在训练过程中,研究人员在整个预测序列。然后,较低分辨率的视差估计上采样到ground truth分辨率。
模型是在固定长度为T的立体视觉序列训练。为了增加测试时的时间相干性,使用具有重叠的滑动窗口方法将其应用于任意长度的视频,在重叠的时间步长中丢弃预测。有短于T时间步长的视频可以通过重复第一帧或最后一帧直到最短长度T来使用。这对应于没有移动camera的静态场景,并且完全在模型的训练分布范围内。
结果
研究人员在SceneFlow使用超参数对模型进行50k次迭代训练,并在Sintel和Dynamic Replica评估了模型。他们测量准确性和时间一致性。为了准确度,对Sintel和DR分别使用3px和1px的端点误差阈值。这显示了端点误差高于3px的像素比例。
为了保持一致性,使用TEPE。表6比较了在解码器的三个分辨率上三个块的共享权重与学习单独的更新块。由于不同的尺度利用不同分辨率的特征,学习单独的更新块可以改善权重共享的结果。
尽管先前的研究(如CRE Stereo)在迭代更新块中使用2D卷积,因为它们在单个时间步长上操作,但团队发现跨时间扩展更新块的处理是有益的,如表7所示。这带来了总体上的改进,同时在时间一致性方面表现出特别大的改进。
总的来说,团队做出了两个主要贡献。首先,引入了一种新的立体视频数据集Dynamic Replica,它允许训练时间一致的视差估计器;另外,引入了一种能够使用新的数据集在时间一致的立体视觉估计方面优于现有技术的新方法。实验表明,其他方法受益于在这个新数据集上的训练,因为它包含真实场景,因此可以减少现实世界与典型的合成抽象训练数据集(如SceneFlow)之间的领域差距。
他们结合了空间、时间和立体信息,实现了跨时间的精确一致预测。在广泛的消融研究中,模型的每个组件都有助于最终性能。