在计算机视觉和机器人领域,同时定位和地图制作(SLAM)是使自主系统能够导航和理解环境的关键主题。传统SLAM系统主要侧重于几何映射,产生精确但审美上简单的环境表示。然而,神经渲染的最新进展表明,可以将逼真的图像重建纳入SLAM过程,从而提高机器人系统的感知能力。
然而,现有方法在很大程度上依赖于隐式表示,使它们在计算上要求很高,并且不适合部署在资源受限的设备上。尽管神经渲染与SLAM的结合产生了令人期待的结果,但目前的方法仍存在一些限制,如对深度信息的依赖以及系统规模受限的问题。
在这项研究中,香港科技大学和中山大学的研究团队提出了Photo-SLAM,这是一种新颖的框架,可以在解决当前方法可扩展性和计算资源限制的同时进行在线逼真地图制作和准确定位。该团队使用Hyper Primitive地图技术,包括旋转、缩放、密度、球谐(SH)系数和ORB特征。通过在原始图像和渲染图像之间进行损失反向传播,Hyper Primitive地图使系统能够学习相应的映射并使用因子图求解器优化跟踪。
Photo-SLAM 是一种革命性的实时框架,支持 RGB-D、立体和单目相机,以实现同步定位和真实感映射。渲染速度高达每秒1000帧,可以重建高保真场景视图。
与传统的射线采样不同,Photo-SLAM使用3D Gaussian Splatting技术生成图像。虽然引入3D Gaussian Splatting渲染器可以降低视图重建的成本,但在单目情况下,特别是在线增量制图时,无法产生高保真度的渲染。研究团队还提出了一种基于几何的致密化技术和基于Gaussian Pyramid(GP)学习方法,以实现高质量的制图,而无需依赖密集深度信息。
重要的是,GP学习使系统能够逐渐获取多级特征,显著提高了系统的制图性能。研究团队在他们的实验中使用了由RGB-D、立体和单目相机拍摄的各种数据集,评估了他们提出的方法的有效性。实验证明,Photo-SLAM在渲染速度、逼真地图质量和定位效率方面均达到了业界领先水平。此外,Photo-SLAM系统在嵌入式设备上的实时运行展示了它在实用机器人应用中的潜力。
显示了 Photo-SLAM 的四个关键组件,它维护具有超原始元素的地图,并由定位、显式几何映射、隐式真实感映射和闭环组件组成。
这项研究的主要成就包括创建了基于Hyper Primitive地图和同时定位的首个逼真地图系统,支持室内外单目、立体和RGB-D相机。研究团队还提出了使用Gaussian Pyramid学习的方法,有效而迅速地学习多级特征,实现了高保真度的制图。由于采用了完整的C++和CUDA实现,该系统在嵌入式系统上实现了实时运行,将提供代码的公开访问。
这一研究成果的重要性在于推动了实时逼真地图制作技术的发展,为机器人系统在各种环境中的导航和认知提供了新的可能性。