用2D图像补全3D场景，谷歌发布NeRFiller_科技魔方-中文AI大模型门户网站

　　本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN)，作者:AIGC开放社区。

　　在许多3D场景捕获中，由于网格重建失败或者缺乏观测，例如，物体接触区域或难以触及的区域，场景中的某些部分经常会出现缺失的情况。

　　谷歌和加州大学伯克利分校的研究人员提出了NeRFiller框架，可通过2D图像来修复残缺的3D场景，同时发现当图像形成2x2网格时，会生成更多3D一致性的修复效果。

　　测试数据显示，研究人员通过多个评估指标对比原始数据与重建效果，如PSNR、SSIM等。同时记录不同数据集每个迭代循环耗时，发现NeRFiller重建的效果更出色，并将重建效率提升了10倍左右。

　　通常3D修复目标是完成一个包含缺失区域场景，例如，由多视图重建方法获得的场景，其中可能存在由于网格重建失败导致的“空洞”。NeRFiller则是要填充这些缺失区域，生成一个完整的3D场景。

　　所以，NeRFiller的整体修复思路主要分为两大块:使用联合多视角图像补全一致性的3D模型，以及通过对3D场景表示的迭代优化，将这些2D图像补全整合到全局一致的3D场景中。

　　联合多视角图像补全

　　使用独立的2D补全模型进行多视角图像的补全存在一致性问题，因此NeRFiller提出了网格先验和联合多视角补全两种策略，来提高一致性。

　　1)网格先验

　　研究人员发现，将四幅图像缩放到较低分辨率后以2x2网格形状提供给补全模型，可以获得更加一致的补全结果。可能这是由于在补全模型的训练数据中，存在很多视图示例。

　　方法是将4幅图像的潜在表示缩放到1/4分辨率，拼接成2x2网格后提供给扩散模型，对网格进行联合预测和采样。

　　最后再还原到原分辨率。这与最近的视频编辑方法使用的延长注意力机制有相似之处。

　　2)联合多视角补全

　　直接将大量图像制作成网格会降低分辨率。为了保持分辨率，NeRFiller使用了一种将网格先验推广到任意数量图像的策略。

　　该策略类似于MultiDiffusion的方法，每次迭代时随机将图像分组到2x2网格中，重复多次后对每个图像的噪声预测进行平均。这样可以在不降低分辨率的情况下增加有效的网格大小。

　　3D场景重建

　　上述的联合多视角图像补全，还无法更好的保证3D场景一致性。所以，NeRFiller使用了一种将2D补全结果整合到3D场景表示的迭代方法。整体流程如下:

　　渲染训练视角子集;

　　对渲染图像添加噪声，进行联合多视角补全;

　　用补全结果更新训练数据集中对应图像。

　　不断重复该流程，直到重建结果达到目标。此外，为了优化3D场景的几何形态，NeRFiller在室内场景中可加入了相对深度的监督，补全后预测深度，只对补全区域施加排序损失。

　　本文素材来源NeRFiller论文

用2D图像补全3D场景，谷歌发布NeRFiller