将场景表示为神经辐射场(NeRF)在3D重建和分析方面带来了一系列突破,只需数秒钟的训练就可以获得真实世界场景的高保真实时渲染。尽管NeRF在静态场景中取得了成果,但将其扩展到动态场景依然具有挑战性。
将额外的时间维度t引入NeRF的5D表示并不简单。首先,时空点(x,y,z,t)的监控信号比静态点(x、y,z)稀疏。静态场景的多视图图像容易访问,因为你可以移动摄像头,但动态场景中的额外视图需要额外的记录摄像头,从而导致稀疏的输入视图;然后,场景的外观和几何频率沿空间轴和时间轴不同。当从一个位置移动到另一个位置时,内容通常会发生相当大的变化,但背景场景不太可能从一个时间戳完全改变到另一时间戳。时间t维度的频率建模不当导致时间插值性能不佳。
在一篇新的研究论文中,来自布法罗大学、苏黎世联邦理工大学、图宾根大学和InnoPeak Technology的团队展示了NeRF如何表示动态场景,并从2D图像中学习4D表示。
他们假设动态场景中有三种时间模式:Static静态、Deforming变形和New新区域,并建议将动态场景分解为所述类别,具体是通过预测Static、Deforming和New区域的逐点概率的分解场。分解场通过手动指定的全局简约正则化行自我监督和正则化。
这种分解可以解决前文所述两个挑战。首先,为每个分解区域引入不同的时间正则化,从而减轻稀疏观测重建中的模糊性。例如,静态区域分解将动态建模简化为静态场景建模问题。变形区域强制前景对象在动态场景中保持一致。其次,根据场景的时间特征将其划分为不同的区域,从而在每个区域的时间维度上产生一致的频率。
为了响应空间和时间频率之间的差异,团队基于最近开发的混合表示进一步解耦了空间和时间维度。混合表示保持(x,y,z)feature volume的网格,从而实现快速渲染。研究人员将(x,y,z)feature volume的通道视为时间依赖性,而不是设计(x,x,z,t)feature volume网格。为了支持可流动态场景表示,他们在特征通道提出了一种滑动窗口方案,从而将t引入到表示中。
在上图中,左边是一个厨师烹调食物。在右边,你可以看到对应场景的不同深浅蓝色,其表示神经网络的图像分析。NeRF可以根据2D图像学习3D表示。
在上图的咖啡示例中,放置玻璃的木板属于静止Static。玻璃的内容物归类为New,可见的手归类为Deforming。分解场将场景分为三类。每个区域由其自己的神经场表示。
在研究中,他们在多摄像头和单摄像头数据集上的实验都验证了所述方法的效率和有效性。另外,与其他方法相比,动态场景的分解表示显著减少了视觉伪影。
值得一提的是,团队将虚拟现实中对真实4D时空环境的视觉探索称为一种愿景,并认为这项研究有助于实现这一目标。研究人员表示:“在VR中,自由地在真实世界的4D时空空间中进行视觉探索是一项长期的任务。当只使用几个甚至单个RGB摄像头来捕捉动态场景时,这项任务尤其有吸引力。”