在当今数字化时代,视觉技术一直是科技创新的关键驱动力。为了解决现有方法在3D场景理解和操作中面临的挑战,来自上海交通大学人工智能研究所和华为公司的团队推出了一项引领性的科技突破。研究人员将2D的「分割一切」模型的细粒度分割能力提炼到3D高斯中,该方法命名为SAGA(Segment Any3D GAussians)。
SAGA可以在几毫秒内实现了精细的三维分割,并支持多种提示类型,包括点、涂鸦和掩码。SAGA的方法概览包括使用预训练的3DGS模型和SAM编码器提取2D特征图,然后通过高效的特征匹配检索预期的3D高斯。为了进一步增强特征紧凑性,研究者还从提取的掩码中导出点对应关系,并将其提炼为特征。在推理阶段,通过输入提示生成一组查询,再通过与学得的特征进行高效匹配,最终实现对应目标的3D高斯检索。
SAGA的论文已经在arXiv上发布,引起了科研界的广泛关注。在现有基准测试中,SAGA展现出与最先进方法相媲美的性能,甚至在3D分割速度上实现了近1000倍的加速。
SAGA(Segment Any3D Gaussians)具有以下特点:
1. **3D高效分割:** SAGA能够在几毫秒内对3D高斯中进行精细交互式分割,这对于3D场景的理解和操作具有重要意义。
2. **融合2D分割和3D高斯光斑技术:** 该方法将2D分割基础模型与最近引入的3D高斯光斑技术(3D Gaussian Splatting,3DGS)巧妙地结合起来。通过对比度训练,SAGA将由分割基础模型生成的多粒度2D分割结果高效地嵌入到3D高斯点特征中。
3. **克服挑战:** 针对现有方法在实现细粒度、多粒度分割或者面临大量计算开销,难以实时交互的挑战,SAGA提出了一种创新的解决方案。
4. **多粒度分割:** SAGA能够实现多粒度分割,并支持各种提示,包括点、涂鸦和2D掩模。
5. **快速实现:** SAGA在现有基准测试中表现出与最先进方法相媲美的性能。更重要的是,SAGA能够在几毫秒内完成3D分割,相比先前的最先进方法,加速近1000倍。
SAGA通过巧妙融合2D分割和3D高斯技术,以高效、快速的方式实现了3D场景的交互式分割,克服了以往方法的一些挑战。