Meta提研究用单个RGB-D传感器生成穿衣人体的高保真渲染图像

　　刚性对象或动态场景的新视图合成一直是非常活跃的研究课题，并已经在各种任务中取得了令人印象深刻的结果。然而，合成人体运动的新视图需要处理具有各种变形的动态场景的方法，而这是一项具有挑战性的任务，特别是在具有精细细节的区域，如面部或衣服。另外，之前的研究通常依赖于大量摄像头、昂贵的捕获设置或每帧数分钟的推断时间。

　　为了应对上述挑战，Meta和芬兰奥卢大学的研究人员提出了全新的Human View Synthesis Network (HVS-Net) ，通过利用紧凑而有效的公式，以及商品RGB-D传感器来生成穿衣人体的高保真渲染图像。

　　团队提出的挑战性要求是：

　　与每个受试者训练的模型相比，测试时对新受试者的泛化

　　处理人类在不可见姿态下的动态行为的能力，而不是使用训练时看到的相同姿态对人类进行动画化

　　处理遮挡(来自对象或自遮挡)的能力

　　捕捉面部表情

　　在给定单流稀疏RGB-D输入的实时设置中生成高保真图像(类似于低成本的现成深度摄像头)。

　　HVS-Net将人的上身和目标camera姿态的单个稀疏RGB-D图像作为输入，并从目标视点生成高分辨率渲染(见图1)。与以前的方法相比，这一方法的第一个关键区别因素是将深度作为额外的输入流。尽管输入深度稀疏且有噪点，但它依然能够利用在输入视图中看到的信息，从而简化新视图的合成。

　　为了解释输入的稀疏性，团队选择了基于球体的神经渲染器。与简单地从一个视图到另一个视图执行几何体扭曲相比，所述渲染器使用可学习的半径创建更密集的扭曲图像。当与编码器-解码器架构和端到端训练相结合时，这一方法能够合成不可见个体的新视图，并绘制从主输入视图不可见的区域。

　　当然，尽管这种方法在最小遮挡情况下效果良好，但当存在严重遮挡时，无论是在人体前面移动手，还是在手持各种物体时，其都很难生成高质量的渲染。因此，研究人员建议使用单个附加的无遮挡图像，并通过在两个输入之间建立精确的密集对应，将其扭曲到目标新视图。

　　紧凑网络可用于此目的，其足以细化最终结果并生成输出预测。他们使用生成的图像和ground truth值对图像之间的光度损失来对整个管道进行端到端的训练。另外，团队使用立体渲染来鼓励近距离视点之间的视图一致性结果。

　　为了训练HVS-Net，他们依赖于高质量的人工合成扫描，从不同的视角对其进行动画和渲染。论文的一个关键发现是，它非常好地概括了3dMD扫描仪系统捕捉到的真实数据，其面部或衣服的细节水平前所未见。

　　HVS-Net方法

　　团队的目标是创建由单个RGB-D传感器(具有稀疏深度，类似于低成本RGB-B摄像头)捕获的人类的真实新颖视图，尽可能忠实和快速。他们假设要生成的视图的camera参数化已知。然而，这带来了几个挑战：

　　正在处理的信息不完整，因为RGB-D传感器无法观察到从新视图可见的所有区域;

　　遮挡添加具有未知信息的附加区域;

　　即使由原始传感器正确观察到的像素都是稀疏的，并且当从不同角度观察时显示出孔。

　　研究人员使用具有两个组件的端到端可训练神经网络来解决上述问题。首先，给定参数化为输入视图v中的两个分量RGB Iv和稀疏深度Dv的RGB-D图像，基于球体的视图合成模型S生成目标视图的密集特征，并使用全局情景修复网络G渲染目标camera视图中的结果RGB图像。然而，第一个网络不能完全解决所有遮挡：完全遮挡区域的信息丢失(例如，在T恤衫上渲染被手遮挡的图案)。

　　针对这种情况，可以选择使用增强器模块E扩展模型。它使用来自同一个人的未包含快照的信息，估计预测的新视图和无遮挡输入视图之间的密集对应关系，然后细化预测结果。

　　基于球体的视图合成

　　管道第一部分的目标是从不同的角度尽可能忠实地呈现人类的稀疏RGB-D视图。在上述伪影中，它主要可以处理由于深度缩短而导致的球体固有稀疏性：从两个相邻像素中的单个视点来看，无论它们有多大差异，你只能在它们各自的深度处获得信号。这意味着，对于每两个深度差异较大且从侧面看的像素，会出现较大的间隙。对于渲染人体对象，“间隙”大小有限，可以通过使用基于球体的渲染器进行视图合成，从而在一定程度上解决这个问题。

　　基于球体的渲染器：给定原始视点的每个像素的深度以及camera参数，点可以自然地投影到新的视图中。这使得基于深度的扭曲或可微分点或球化器的使用成为视图合成模型开发的第一步的自然选择。所述渲染器越能将初始信息转换为新视图，效果越好。另外，投影步骤是自动校正的(传感器噪点除外)，并且不受训练误差的影响。

　　图2使用三种不同的方法比较了单个稀疏RGBD输入的扭曲图像的密度：基于深度的扭曲、基于点的渲染和基于球体的渲染。基于深度的扭曲将RGD-D输入表示为一组像素大小的3D点，因此，新视图中正确投影的像素对输入视图的密度非常敏感。

　　广泛使用的基于可微分点的渲染器引入了全局每点半径参数，所述参数允许生成更密集的图像。但是，由于它对所有点使用相同的半径，因此会有一个折衷：如果半径选择得太大，输入图像密集区域的细节将丢失;如果半径选择得太小，则生成的图像在稀疏区域中变得更稀疏。

　　最近引入的基于球体的Pulsar渲染器不仅提供了使用每个球体半径参数的选项，并且提供了半径的梯度，使得能够动态设置它们。如图2所示，与其他方法相比，这允许产生更密集的图像。

　　图3示出了方法的总体架构的概述。在第一步中，使用一组较浅的卷积层F将输入图像Iv编码为d维特征映射M=F(Iv)。从这个特征映射，创建一个可以使用Pulsar渲染器渲染的球体表示。这意味着必须找到每个球体i的位置pi、特征向量fi和半径ri∈。球体位置pi可以简单地从每个像素的camera参数、像素索引和深度推断。

　　他们选择特征fi作为相应像素位置处的M值;通过将M传递到另一个具有S形激活函数的卷积层以限制其范围来推断ri。这将导致特征尽可能密集地投影到目标视图。

　　接下来，将投影特征转换为最终图像。这依然是一个具有挑战性的问题，因为无法避免重新投影的特征图像Mt中的若干“间隙”。为了解决这个问题，研究人员设计了一个基于编码器的修复模型G来生成最终渲染。编码瓶颈严重增加了模型的receptive field size，这反过来又允许它正确地填充更多缺失的信息。另外，他们采用了一系列快速傅立叶卷积(FFC)来考虑图像receptive field size。

　　处理遮挡

　　基于球体的视图合成网络S以高质量预测可信的新视图。然而，如果人持有诸如钱包之类的物体，或者如果他们的手阻碍了他们躯干的大部分，则扭曲变换将导致该区域中的缺失点。这导致当使用不接近输入视图的目标camera执行新视图合成时，被遮挡区域出现低保真度纹理估计。

　　因此，为了进一步提高新视图的质量，研究人员引入了两个附加模块：

　　HD-IUV预测器D，用于预测RGB图像(人体渲染)和人体模板的3D表面之间的密集对应关系，

　　细化模块R，用于将附加的无遮挡输入扭曲到目标camera，并增强初始估计的新视图以解决自遮挡问题。

　　首先估计将人的RGB图像映射到身体模板的3D表面的表示。团队可以使用DensePose来完成这项任务，但估计的IUV(其中I反映身体部分)预测仅涵盖裸体，而不是穿衣人体，并且不准确，因为它们是基于稀疏和噪点的人类注释进行训练。相反，他们构建了自己的IUV预测器，并在合成数据对其进行训练，从而获得准确的ground truth相对应。

　　利用合成RGB图像对和ground truth密集表面对应，他们训练了一个类似UNet的网络，为穿衣人体的每个像素提供密集表面(即IUV)估计。对于前景图像中的每个像素p，预测表示对应关系的通道(RGB)颜色p′。这种表示中的颜色是唯一的，这使得随后的扭曲变得容易。因此，他们将整个问题视为多任务分类问题，其中每个任务(对I、U和V通道的预测)用以下一组损失进行训练。

　　图5表明，与DensePose不同，所提出的HD-IUV模块准确地建立面部和手部区域的精细级别对应，同时捕获整个穿衣人体。一旦对模型进行了预训练，他们就将其与管道的其余部分合并，并通过使用初始估计的新视图Ip作为编码器-解码器架构的输入继续训练过程。

　　单独预测的HD-IUV对于人类视图合成的任务没有用处。然而，当与无遮挡RGB输入一起使用时，它允许将目标camera T中的所有可见像素扭曲到人，并获得部分扭曲图像Iw。对于实际应用，这种无遮挡输入可以是自拍图像，对图像的身体姿态没有特定要求。

　　图5将DensePose结果与所提出的HD-IUV模块进行了比较。DensePose显然产生了不太准确和更扭曲的纹理。在下一步中，将Ip和Iw进行堆栈，并将结果张量传递给细化模块。所述模块解决了两个关键细节：

　　它学习对源自最初合成的新视图的遮挡区域的伪影，以及由于依赖HDIUV密集对应进行扭曲而可能出现的纹理伪影具有鲁棒性

　　它能够在遮挡区域合成更清晰的结果，因为它依赖于基于HD-IUV将初始合成图像以及扭曲图像转换为目标视图。使用精化的新图像和ground truth之间的光度损失Lphoto来训练精化模块。

　　结果

　　表1

　　表1和图6中总结了RenderPeople数据集样本的定量和定性结果。首先将全模型HVS网络与变体HVS网络†进行比较，后者利用密集映射作为输入。当使用稀疏或密集深度输入进行训练时，可以观察到HVS Net生成的预测新视图之间没有显著差异。这证实了球面半径预测器的有效性：它使HVS网络对于w.r.t.输入点云密度更具鲁棒性。

　　在下一步中，根据当前性能最佳的单视图人体合成方法评估HVS Net。即使使用密集深度映射作为LookingGood的输入†，如果目标姿态明显偏离输入视点，所述方法依然难以产生真实结果。在图6的第一行中，LookingGood†同时努力恢复人手后被遮挡区域的准确纹理。尽管SynSin和HVS Net使用相同的稀疏深度输入，但渲染的目标图像明显不同。SynSin不仅在被遮挡区域表现不佳，而且在人的颈部周围产生伪影，如图6第2行所示。

　　相比之下，团队的方法不仅能够呈现可信和真实的新视图，而且创建了忠实的输入视图。请注意，HVS Net能够在信息非常少的情况下对两个受试者的头发进行相当准确的预测。在最后一个实验中，研究人员测试了所述方法的泛化能力，如图7所示。

　　在4D扫描中，受试者能够在捕获体积内自由移动。他们使用固定的虚拟3D传感器位置为HVS Net创建稀疏RGB-D输入流。输入camera放置在受试者的脚附近，并面朝上。如图1和图7所示，HVS Net依然能够以高质量执行新颖的视图合成。尽管使用稀疏输入深度，所述方法仍然能够在两个对象的衣服上渲染真实纹理。另外，诸如张嘴或微笑等面部表情都能很好地重建。图7中获得的结果的质量表明，这一方法可以呈现运动中的真实人类的高保真新颖视图。同时，生成的新视图在不同的目标视图轨迹上在时间上同样一致。

　　总而言之，HVS Net是一种在给定单个稀疏RGB-D源的情况下对运动中的人类执行新视图合成的方法。HVS网络使用基于球体的视图合成模型，产生目标视图的密集特征;然后，所述数据与自动编码器一起用于完成目标视点的缺失细节。为了应对严重遮挡区域，他们提出了一种增强器模块，使用人类的额外非遮挡视图来提供额外信息，并基于新的IUV映射产生高质量结果。所述方法在各种新姿态下，以不可见人类的新视图生成高保真渲染，并可以忠实地捕捉和渲染训练中不存在的面部表情。这一点尤其显著，因为他们仅基于合成数据训练HVS Net，但它在合成和真实示例中都实现了高质量的结果。

Meta提研究用单个RGB-D传感器生成穿衣人体的高保真渲染图像

推荐文章