从游戏到电影,再到虚拟现实和混合现实,市场对新的视觉3D内容需求正不断增长。在名为《SNeRF: Stylized Neural Implicit Representations for 3D Scenes》的论文中,Meta提出了一种有趣的方案:用毕加索或莫内等艺术家的美术风格视图来渲染3D世界,并允许穿戴VR头显的我们在其中漫步探索。
直接将基于图像的样式化技术应用于3D场景会导致不同视图之间出现闪烁伪影,因为每个视图都是独立样式化,没考虑底层3D结构。尽管社区已经探索了各种3D表示方法来解决这个问题,但大多不能很好地捕捉目标样式,因为它们只对场景的外观进行样式化,而几何同样是样式的重要组成部分。
最近,神经辐射场(NeRF)提供了一种可以产生高质量新视图合成结果的紧凑3D场景表示。紧凑性、表现力和灵活性令NeRF成为一种极具吸引力的选择。然而,采用NeRF进行神经风格转换会带来巨大的内存约束。要从NeRF渲染像素,必须沿camera光线进行密集采样。这需要大量内存用于渲染和执行反向传播。
针对这个问题,Meta提出结合神经负反馈和基于图像的神经风格转换来执行三维场景样式化。神经风格转换实现了一种灵活的样式化方法,不需要专业美术的示例输入。另外,研究人员通过将3D场景样式转换过程分为两个交替运行的步骤来解决NeRF的内存限制。这允许他们能够充分利用硬件的内存容量,在高分辨率图像渲染NeRF或执行神经风格的传输。
在在《SNeRF: Stylized Neural Implicit Representations for 3D Scenes》这项研究中,他们重点研究了样式化三维场景以匹配参考样式图像的问题,并提出了一种三维场景神经样式化框架SNeRF。据介绍,它可以生成样式化三维场景的新视图,同时保持交叉视图的一致性。
具体来说,给定一个三维场景,团队的目标是对其进行操作,并令所述场景的渲染图像与参考图像的样式相匹配。另外,来自不同视图的同一场景渲染图像应保持一致。所以,由于紧凑性和灵活性优势,研究人员使用NeRF作为场景表示的选择。他们提出了一种内存高效的训练方法,可以在样式化和NeRF训练之间交替进行,从而获得高分辨率的结果。
Meta使用以下函数对表示为NeRF的3D场景进行样式化,从而匹配参考样式图像:
之前社区的研究是同时优化了两种损失,以进行场景样式化。这需要从NeRF渲染完整图像,从而在每个训练步骤计算