视频捕获并保存了生活中众多值得纪念的时刻。但在查看普通视频时,我们是从固定的视点感知场景,之后无法交互式地导航场景。动态视图合成技术旨在从任意camera角度和视点创建动态场景的逼真新视图。这种系统对于虚拟现实等创新应用至关重要。
动态辐射场重建方法旨在模拟动态场景的时变结构和外观。然而,现有的方法都假定通过运动构造SfM算法能够可靠地估计出精确的camera姿态。但所述方法并不一定可靠,因为SfM算法经常失败,或者在具有高度动态对象,次优纹理表面和旋转camera运动等具有挑战性的视频中产生错误的姿态。
在《Robust Dynamic Radiance Fields》的论文中,Meta,台湾大学,韩国科学技术院和马里兰大学的研究人员提出了一种从视频重建动态辐射场的算法RoDynRF。不需要精确的camera姿势作为输入,它可通过联合估计静态和动态辐射场以及camera参数(姿态和焦距)来解决这一鲁棒性问题。大量的定量和定性实验都证明了所述方法的鲁棒性,而且研究结果显示了比目前最先进的动态视图合成方法更好的性能。
动态视图合成系统可以实现自由视点视频,并允许用户与视频序列进行交互,从而能够促进诸如虚拟现实等下游应用。动态视图合成系统通常依赖于昂贵且费力的设置,例如固定的多摄像头捕获平台,并从多个摄像头同时捕获。
但随着技术的进步,业界现在已经能够从单个立体或RGB摄像头生成动态的新视图。尽管特定方法可以处理非结构化视频输入,但它们通常需要通过SfM系统估计精确的camera姿态。
当然,近来出现了一系列针对非结构化视频的动态视图合成方法,以及基于可变形场的新方法。然而,所述技术同样需要通过COLMAP等SfM系统来估计精确的camera姿态。
SfM系统对诸多问题并不具有鲁棒性,例如低光条件下的噪点图像、用户引起的运动模糊或场景中的动态对象,如人、汽车和动物。
由于SfM系统的鲁棒性问题,现有的动态视图合成方法不适合一系列具有挑战性的视频。所以,由Meta,台湾大学,韩国科学技术院和马里兰大学组成的团队介绍了一种从视频重建动态辐射场的算法RoDynRF。
与现有的方法不同,它不需要精确的camera姿势作为输入。他们优化camera姿态和两个辐射场,建模静态和动态元素。另外,所述方法包括一个从coarse-to-fine的策略和极域几何,以排除移动像素、变形场、时间相关的外观模型和正则化损失,从而提高一致性。
上图给出了团队提出的框架。给定一个N帧的输入视频序列,所述方法共同优化了camera姿态、焦距、静态和动态辐射场。他们分别用显式神经体素Vs和Vd来表示静态和动态部分。静态辐射场负责重建静态场景并估计camera姿态和焦距。同时,动态辐射场的目标是模拟视频中的场景动态。
进一步讲,研究人员用静态和动态辐射场对动态场景进行建模。静态辐射场以采样坐标(x, y, z)和观测方向d作为输入,预测密度σs和颜色cs。请注意,静态部分的密度与时间和观察方向不变。因此,使用查询特征的总和作为密度,而不是使用MLP。
他们只计算静态区域的损失。计算的梯度不仅反向传播到静态体素场和mlp,而且反向传播到camera参数。动态辐射场取采样坐标和时间t,得到正则空间中的变形坐标(x′,y′,z′)。
然后,利用动态体素场的变形坐标查询特征,并将特征与时间索引一起传递给时间相关的shallow MLP,得到动态部分的颜色cd、密度σd和非刚性md。
在volume rendering之后,可以得到静态部分和动态部分的RGB图像C{s,d}和深度图d {s,d},以及非刚性掩码Md。最后,研究人员计算了每帧重构的损失。注意,这里只包括每帧损失。
大量的定量和定性实验都证明了所述方法的鲁棒性,而且研究结果显示了比目前最先进的动态视图合成方法更好的性能。例如,Table 3中报告了PSNR和LPIPS。研究人员提出的方法比最先进的方法表现得更好。另外,即便没有COLMAP姿势,所述方法依然可以获得与使用COLMAP姿态相当的结果。
他们同时遵循DyCheck的评估协议,对iPhone数据集进行定量评估。Table 4中报告了掩码的PSNR和SSIM,并表明团队的方法与现有方法的性能相当。
我们提出了健壮的动态辐射场,用于随意捕获的单目视频的时空合成,而不需要相机姿势作为输入。通过提出的模型设计,我们证明了我们的方法可以从各种具有挑战性的视频中重建精确的动态辐射场。我们通过与最先进的广泛的定量和定性比较来验证所提出方法的有效性。