2月1日 消息:Meta联合伦敦大学学院研究院在一项研究中提出了一种全新的文本引导的3D场景编辑方法,被称为ReplaceAnything3D(RAM3D)。这一方法通过引入Erase-and-Replace策略,能够有效地替换场景中的特定对象,实现了文本提示下的高质量3D场景编辑。
替换3D场景中的特定对象一直是一个具有挑战性的任务,而RAM3D通过引入多个视点图像、描述待替换对象的文本提示和描述新对象的文本提示,实现了一种高效的Eraser-and-Replace方法。这种方法首先使用LangSAM和文本提示检测和分割要擦除的对象,然后提出了一种基于文本引导的3D修复技术,填充被移除对象遮挡的背景区域。接着,使用相似的文本引导的3D修复技术生成与输入文本描述相匹配的新对象,并确保新对象的质量最小。最后,将新生成的对象与修复的背景在训练视图中无缝合成,得到一致的多视图图像,用于新视图合成。
相比于2D图像,替换3D场景中的对象更具挑战性,因为需要保持多视图的一致性。为了解决这一挑战,RAM3D结合了大规模图像扩散模型的先验知识和学习到的3D场景表示。具体来说,通过结合预训练的文本引导图像修复模型和复合场景结构,RAM3D能够生成与原始场景协调一致的编辑后的3D场景,新对象与原始场景融合无缝。
简单的说,ReplaceAnything3D 模型 (RAM3D)是一种新颖的文本引导3D 场景编辑方法,可以替换场景中的特定对象。给定场景的多视图图像、描述要替换的对象的文本提示以及描述新对象的文本提示,擦除和替换方法可以有效地将场景中的对象与新生成的内容交换,同时保持多个视点的3D 一致性。
总的来说,RAM3D的贡献有三点:
1. 引入一种Erase-and-Replace方法,实现高分辨率的3D场景编辑,可以替换场景中的特定对象。
2. 提出了一个多阶段的方法,不仅能够替换对象,还能够移除和添加多个对象。
3. 展示RAM3D在多种场景类型上能够生成具有3D一致性的结果,包括前向和360°场景。
随着社交媒体平台和显示设备的不断发展,对高质量3D内容的需求不断增加。RAM3D为这一需求提供了一种高效的工具,使用户能够通过自然语言提示实现对3D场景的灵活编辑。这项研究对于游戏、电影、虚拟现实和混合现实等领域的3D内容创作和编辑具有重要的推动作用。