Meta研究从视觉、触觉探讨数据驱动的主动触摸三维对象重建

　　三维形状理解是一个活跃的研究领域，其目标是从有限的感官数据中建立对象和环境的三维模型。行业一般是通过利用局部观测来解决，如单视图RGB图像、多视图RGB图像、深度映射或触觉读数。大多数研究主要集中在从一组固定的部分观测值建立形状重建模型。

　　但在主动传感场景中，这一约束被放松，因为在主动传感场景中可以获取额外的观测以提高三维重建的质量。例如在主动视觉中，目标可以是迭代地从一个对象中选择摄像头视角，从而最大程度地提高重建质量。直到最近，业界才开始利用大规模数据集学习泛化不可见对象的探索策略。

　　业界已从心理学角度就人类对视觉对象和无视觉对象的触觉探索进行了经典分析，并发现用于对象理解的触觉探索策略不仅无处不在，而且非常适合特定任务。尽管如此，基于深度学习的数据驱动方法并用于形状理解的主动触摸实际并不存在。

　　不过，通过使用高分辨率触觉传感器、静态3D形状数据的大型数据集和深度学习，业界能够成功地以数量级更少的触摸信号对对象形状进行准确估计。请注意，之前没有利用大型数据集学习触摸探索的研究。另外，之前也没有任何研究在视觉输入(如RGB摄像头)存在的情况下探索主动触摸。

　　结合最近出现的视觉和触摸系统数据驱动重建模型，以及数据驱动的主动视觉方法，麦吉尔大学、加州大学和Meta的团队提出了一份名为《Active 3D Shape Reconstruction from Vision and Touch》的论文。

　　其中，研究人员为三维形状重建定义了一个新的主动触摸问题设置，通过具有强对象先验的学习重建模型的形状预测来学习触摸探索策略;其次，团队开发了一个允许快速、真实地抓取物体，并使用配有高分辨率触觉传感器的机械手提取视觉和触觉信号的模拟器;第三，团队提出了一个基于视觉和触觉的三维重建模型。所述模型可以生成基于网格的预测，并在单视图图像设置中获得令人印象深刻的性能(无论是否存在触摸信号);第四，团队将模拟器和重建模型结合起来，生成了一个触觉主动感知环境，并将其用于训练和评估触觉探索策略。所述环境的概要如图1所示。

　　在提供的环境中，团队提出了一系列数据驱动的触摸探索模型，其将基于网格的形状重建作为输入，并确定下一次触摸的位置。通过利用ABC数据集中超过25k个CAD模型的大规模数据集以及所述环境，实验结果表明数据驱动的触摸探索模型优于基线策略，因为基线策略无法利用对象形状或对象形状分布和最佳动作之间的学习模式。具体来说，数据驱动解决方案比随机基线的性能最高提升18%，并实现了令人印象深刻的对象重建，如图2所示。

　　在提出的主动触摸探索问题中，给定预先训练过的触摸形状重建模型和可选的视觉信号，目标则是选择触摸输入序列，从而最大程度地提高重建精度。为了解决这个问题，研究人员定义了一个包含模拟器、重建模型(预训练神经网络)和损失函数的主动触摸环境。模拟器将3D对象形状O与描述抓取的参数g一起作为输入，并输出抓取位置处3D形状的触摸读数t以及对象的RGB图像。重建模型是一个由φ参数化的神经网络，它接受一个输入X并产生当前的三维形状估计Oˆ，如下所示：Oˆ=f(X;ν)。

　　在设置中，研究人员研究了两种不同输入的重建模型变体：1)模型只接收一组触摸读数t，这样X=t;2)模型同时接收一组触摸读数t和形状I的RGB图像渲染，这样X={t，I}。

　　损失函数将对象形状的当前信念Oˆ和ground truth形状O作为输入，并计算它们之间的距离：d(O，Oˆ)。因此，主动触控探测可表述为依次选择K个抓取参数{g1，g2…，gK}的最佳集合，其最大化ground truth形状O和其中gK确定馈送到产生OˆK的重建网络的触控读数之间的相似性。

　　研究人员使用预测曲面和目标曲面之间的倒角距离(CD)作为主动触摸公式中的距离度量。

　　以前的触觉探测研究独立地考虑对象，并且通过点接触式传感器来密集地接触对象表面而产生点云的不确定性估计。所述方法不使用已学习的对象先验知识，而在对象表面采样的大量触摸(超过100次)不仅需要对表面进行预测，并且需要驱动探索。

　　从概念上讲，模拟器可以在图3所示的五个步骤中描述。首先，将对象加载到环境中。其次，通过在以加载对象中心为中心的球体均匀放置50个点，在3D对象周围定义动作空间。第三，选择抓取，选择一个点并放置一只4指机械手，使其第3指位于该点上，手的手掌与球体相切。第四，手向对象中心移动，直到与对象接触。最后，手的手指闭合，直到达到最大关节角度，或因与对象接触而停止。

　　结果，模拟器产生4个触摸读数(手的每个手指一个)和一个对象的RGB图像。请注意，每个动作由其在50个动作球体的位置索引定义。所述参数化属于专门选择，因为它不需要对象的任何先验知识(除其中心外)，并且在模拟中，它始终导致手部触摸传感器和对象表面之间的成功交互。

　　在模拟器中，所有步骤都是用python在机器人模拟器PyBullet、渲染工具Pyrender和PyTorch中执行。对于给定的抓取和对象，对象加载到PyBullet中，同时手的每个手指都装有基于视觉的触摸传感器，然后选择与要执行的动作相对应的空间点，并使用PyBullet的物理模拟器执行抓取过程。

　　接下里，从生成的抓取中提取姿势信息，并由Pyrender使用，以从每个传感器的角度渲染对象的深度映射和从固定角度渲染对象的RGB图像。然后，将深度映射转换为模拟触摸信号。所述过程中的所有步骤均并行执行或使用GPU加速计算。

　　模拟器支持两种触觉探索模式：抓和戳。在抓取场景中，手使用所有四个手指完全抓取对象。在戳的场景中，只有手的食指用于触摸感应。

　　研究人员融合视觉和触摸信号进行形状预测，并将其扩展到有效利用触摸位置信息，同时处理越来越多的触摸。特别是，为了从触摸读数有效预测对象形状，通过使用图形卷积网络(GCN)重复变形一组独立的网格表面元素，并在网格表示中预测形状。图4显示了所述重建方法的完整管道

　　团队的触控探索框架利用上述介绍的重建模型预测网格空间中的三维形状，并定义策略来选择要获取的下一次触控的位置，以最大化预测形状和目标形状之间的相似性。尽管网格对于图形应用非常有用，并且对于表示曲面非常有效，但网格很难处理，而且计算量也很高，难以进行比较。

　　为了解决所述问题，研究人员提出使用降维网格嵌入来促进策略学习。网格嵌入是从网格自动编码器的瓶颈中提取出来，其根据形状预测进行离线训练，并生成学习的嵌入空间。团队同时使用网格嵌入，以便对预测形状进行有效的距离度量计算，即嵌入空间中的欧几里德距离。编码器将曲面网格作为输入，并生成网格嵌入。

　　根据形状重建模型，研究人员使用位置嵌入来表示网格中的顶点。然后，网格通过一系列GCN层来更新顶点特征，然后在顶点之间进行通道最大池操作以产生潜在编码。解码器采用产生的潜在编码，并遵循FoldingNet架构，然后生成一个具有2024个点的点云，从而恢复对象形状。通过最小化输入网格和预测点云之间的CD来训练自动编码器。

　　在视觉和触摸设置(V&TP和V&TG)中，团队发现NN策略在两种抓取设置中表现最好。由此可以看出，在更好地理解形状的情况下(由于额外的视觉输入)，可以对每个对象进行更成功的动作选择。在图6中可以看到，其执行了更多的可变操作，这意味着系统现在正在适当地考虑对象形状。

　　当然，团队指出所述方法存在一定的局限性。首先，重建方法旨在完全最小化CD，这导致网格表示中的视觉对象质量较差。第二，选择形状不可知的抓取参数化，即手始终朝着对象中心移动，这会导致触摸点偏向具有显著不同维度尺度的对象中心。图7中的第一个对象就是一个例子，因为对象又长又细，所以所有的触摸都位于对象的中心，箭头的方向突出显示了这一点。最后，环境需要对训练进行全三维形状监控。尽管这在模拟中很容易获得，但限制了它在真实场景中的应用。

　　总的来说，本文从视觉和触觉两个方面探讨了数据驱动的主动触摸三维对象重建问题。团队介绍了一种允许根据选定的抓取参数高效地产生视觉和触觉信号的触觉抓取模拟器，并建立了一种新的视觉和触觉三维重建方法，其可以在有或无触觉输入的情况下获得令人印象深刻的性能。研究人员同时构建了一个主动触摸探索环境，以支持训练和测试用于三维形状重建的主动触摸策略。最后，团队制作了一系列数据驱动的主动触摸策略，并将其与一组基线进行了比较。

Meta研究从视觉、触觉探讨数据驱动的主动触摸三维对象重建

推荐文章