科技魔方

Meta研究员提出Pose-Guided模型,改善从单图像合成AR/VR新视图

AR/VR

2023年08月07日

  从单个图像合成新视图已经成为众多虚拟现实应用程序提供沉浸式体验的基础问题。然而,大多数现有技术只能在有限的camera运动范围内合成新视图,或者不能在显著的camera运动下生成一致和高质量的新视图。

  所以在名为《Consistent View Synthesis with Pose-Guided Diffusion Models》的论文中,马里兰大学和Meta的研究人员提出了一个pose-guided扩散模型,以从单个图像中生成一致的long-term新视图。他们设计了一个使用极线作为约束的attention层,以促进不同视点之间的联系。

  从日常照片中提供沉浸感3D体验吸引了相当多的关注。它是广泛应用的基础技术,如3D照片,3D asset生成和3D场景导航。值得注意的是,业界在解决单图像视图合成问题方面取得了快速进展。

  给定任意的窄视场图像,相关框架可以从新视点产生高质量的图像。然而,它们仅限于小camera运动范围内的视点。为了解决camera运动范围小的限制,业界提出了long-term single-image view synthesis。

  如图1所示,所述任务尝试从单个图像和一系列camera姿态生成视频。请注意,与单图像视图合成问题不同,在所述设置下产生的最后几帧视频的视点可能远离原始视点。以图1所示的结果为例,camera移动到输入图像中没有观察到的不同房间。

  从单个图像生成long-term single-image view synthesis具有挑战性,主要有两个原因。首先,由于大camera运动范围(例如移动到一个新的房间),需要对输入图像中未观察到的区域产生大量的新内容。其次,视图合成结果应该在不同视点之间保持一致,特别是在输入视点中观察到的区域。

  业界提出了基于显式和基于隐式的解决方案来处理所述问题。基于显式的方法使用“warp and refine”策略。具体来说,首先根据一定的3D先验,即单目深度估计,将图像从输入翘曲到新的视点。然后设计了一种基于transformer或基于GAN的生成式模型来改进扭曲图像。但基于显式的方案是否成功,这取决于单目深度估计的精度。

  为了解决这一限制,有人设计了一个无几何的transformer来隐式学习输入和输出视点之间的三维对应关系。尽管产生了合理的新内容,但无法产生跨视点的连贯结果。

  其他人提出的框架则利用自回归transformer进一步提高一致性。然而,生成一致的、高质量的long-term视图合成结果依然具有挑战性。

  在研究中,马里兰大学和Meta的研究人员提出了一个基于扩散模型的框架,以用于一致和逼真的long-term新视点合成。其中,所述扩散模型在一系列的内容创建应用中取得了令人印象深刻的性能,例如文本到图像的生成。

  然而,所述方法只适用于二维图像,缺乏三维可控性。所以,团队又开发了一个具有极域attention层的pose-guided扩散模型。具体而言,在所提出的扩散模型的UNet网络中,他们设计了极域attetion层来关联输入视图和输出视图特征。根据camera姿态信息,对输出视图特征图上的每个像素估计输入视图特征图的极线。由于极线表示候选对应,研究人员使用它们作为约束来计算输入和输出视图之间的attetion权重。

  上图是团队方法的概述。在左边,pose-guided扩散模型的核心组件是UNet,它将源视图图像和camera姿态作为输入(红色字体),并在目标视点对图像进行去噪。

  研究人员使用编码器从源视图特征中提取特征。他们同时设计了一种将目标视图与源视图特征相关联的极域attention,并在UNet网络的每个self-attention层之后添加极域attetion层。UNet模型通过极域attention层将源视图特征和camera参数作为输入,预测去噪后的目标视图图像。

  在右边,根据输入的camera参数,可以将极线作为约束来估计源视图和目标视图特征之间的attention。

  为了评估所提出的方法,团队对真实世界的Realestate10K和合成的Matterport3D数据集进行了广泛的定量和定性研究。利用极域attetion层,pose-guided扩散模型能够合成在不可见区域具有逼真新内容,并且与其他视点一致的long-term新视图。

  总的来说,团队提出了一种pose-guided扩散模型,以从单幅图像合成新视图视频。所述扩散模型的核心是估计两个camera视点图像之间依赖关系的极域attention。定性和定量结果表明,所提出的姿pose-guided扩散模型产生的新视图是真实的(即便视点远离输入视图),而且不同视点之间保持一致。

+1

来源:映维网

延展资讯