文本直接在3D场景中生成对象，谷歌推出InseRF模型

　　本文来自于微信公众号 AIGC开放社区(ID：AIGCOPEN)，作者：AIGC开放社区。

　　随着大模型技术的飞速发展，基于语言和视觉的3D场景编辑方法取得了十足进步，如Instruct-NeRF2NeRF在修改和场景控制方面展示了强大功能。但在内容生成方面依然面临困难，例如，在3D场景中直接生成一只3D蝴蝶。

　　为了解决这一难题，谷歌瑞士公司和苏黎世联邦理工学院联合开发了InseRF模型。用户通过InseRF只需输入文本描述和选择特定区域，就能在3D场景中直接生成物品。

　　例如，在一个3D桌子场景中，在桌面框选一个区域，然后在文本框中输入“生成一个茶杯”，就能快速生成一个3D茶杯模型。

　　InseRF执行流程

　　InseRF的核心技术创新在于，通过在单个参考视角进行基于遮挡和文本指导的2D对象插入，再将其映射到3D场景，这样可以保证多视角下的一致性并且无需提供具体坐标数据。具体执行流程如下。

　　1) 在选择的场景参考视角中，基于文本提示和2D边界框生成目标对象;

　　2) 从参考视角中的2D图像重建目标对象的3D表征;3) 利用单眼深度估计方法，估计对象在3D场景中的位置;

　　4) 将对象和场景的3D表征融合为包含对象的新场景;5) 对融合的场景进行优化以进一步改进效果。

　　2D参考视角编辑

　　首先选择场景的一个渲染视角作为参考，然后在参考视角中插入目标对象的2D视图。文本提示和2D边界框用于3D空间约束，从而确保插入保持在指定的区域内。

　　为实现局部化的2D插入，InseRF选择了Imagen作为文本到图像生成模型，并通过再次重建的方法使其适应遮挡区域条件。

　　再从参考视角中提取生成对象对应的图像区域，并使用单视图重建方法SyncDreamer将其映射到3D对象。该重建方法包含有效的3D物体几何和外观先验，有助于生成高质量的3D对象。

　　3D放置评估

　　研究人员通过单目深度估计方法，评估对象在参考视角中的深度，从而确定其在3D场景中对应的位置。

　　然后进行比例和距离优化，确保插入的3D对象视图与2D参考编辑匹配。最后计算出对象的旋转和平移，完成3D放置。

　　此外，在得到对象在场景中的位置后，将两者的NeRF表示进行融合，使其可以从不同视点渲染包含对象的新场景，以优化两个坐标系统位置不一致带来的影响。

　　最后，通过Instruct-NeRF2NeRF的迭代优化方法，来进一步改善3D物品插入的效果，可利用从插入对象中获得的多视角遮挡来限制优化区域。

　　为了测试InseRF的性能，研究人员与当前领先的三维场景编辑产品Instruct-NeRF2NeRF和Multi-View Inpainting进行了评估。InseRF可成功生成各种对象并插入到3D场景中的指定位置，并明显优于这两款产品。

　　值得一提的是，InseRF只需要一个粗略的视角框，就可实现精确的对象定位，这对于用户来说非常便捷。