可动画的照片级真实感数字人类是实现社交临场感的关键能力,并可以为远程联系开辟一条全新途径。长期以来,计算机图形学界一直在研究数字人类化身的构建问题。人体建模的早期研究是用最低限度的衣物来构建人体表面的低维几何表示。
不过,过往的研究大多只关注于几何体的建模,不能直接产生真实感的渲染输出。即使采用了基于神经网络的数据驱动方法,为照片级真实感衣物人体制作动画依然是一个远未解决的问题。
在名为《Modeling Clothing as a Separate Layer for an Animatable Human Avatar》的论文中,卡内基梅隆大学和Facebook Reality Labs Reaserch的研究人员尝试通过可轻松访问的驱动信号来动画化照片级真实感的穿衣化身,例如三维身体姿势和面部关键点。
利用诸如Variational Autoencoders(VAE)这样的深度生成模型来同时建模几何体和纹理已证明是创建照片级真实感人脸化身的有效方法。最近业界已经扩展了这种方法,以身体姿势和面部关键点为条件,通过VAE对全身化身进行建模。
由于所述条件信号不能唯一地描述所有的身体状态,如头发和注视点,VAE隐代码用于区分多个可能的身体阶段。另外,为了减少驱动信号和隐码之间的伪相关,必须对驱动信号和隐码进行分离。
尽管先前的研究已经取得了进展,但在构建高保真的可动画全身化身方面依然存在挑战,团队将衣物建模确定为一个主要困难。可以观察到的伪影包括身体姿势和衣物状态之间的不完全相关性、衣物和皮肤边界的重影效果、以及严重的皱纹细节和动态损失等等。
当捕获到的衣物松散且表现出高动态性时,这种伪影会变得更加明显。一方面,由于配准的挑战,网络可能会对数据拟合不足,无法再现高频衣物细节;另一方面,尽管有解耦,但网络依然可能会过度拟合,捕获驱动信号和衣物状态之间不必要的机会相关性。
为构建一个可用于穿衣人体的动画化身,团队提出了一种两层网格表示方法。结果表明,显式衣物建模不仅提高了衣物的渲染质量,而且实现了衣物纹理的可编辑性,从而为编解码化身开辟了全新的可能性。穿衣人体的两层配准不成功,就无法获得两层化身模型。
所以,团队提出了一种新的穿衣人体配准函数和纹理对齐函数,利用逆渲染来提高光度学对应性。
在这项研究中,研究人员显式地表示身体和衣物作为一个编解码器化身中的单独网格层。这带来了数个好处。
首先,能够准确地配准身体和衣物,特别是对于团队新开发的光度追踪方法(使用反向渲染将衣服纹理与参考对齐)。
第二,在单独层中建模身体和衣物减轻了上述单层化身的机会相关性问题,因为单独层自然地彼此分离。在团队提出的两层VAE中,关节角度的单个帧可以很好地描述身体状态,而衣物动态可以通过Temporal Convolutional Network(TCN)从姿势序列中推断。
第三,由于衣物的显式建模,动画输出可以进一步编辑,例如,通过改变衣物纹理。这带来了改变全身化身外观的可能性。
方法的中心思想是将身体和衣物明确地表示为两个独立的层。这种方法的动机有几个方面。首先,研究人员注意到身体和衣物的变形遵循非常不同的动态模式。驱动信号中关节角度的单帧可以通过Linear Blending Skinning(LBS)和位置相关变形来确定人体状态。相比之下,衣物的动态变化太大,不能在不考虑时间信息的情况下仅使用当前的身体姿势来描述。所以,需要通过不同的输入条件来控制身体和衣物层。
第二,在人体与衣物的单层配准中,沿衣物边界的特定顶点可能会不准确。在不同的帧中,由于衣物的相对滑动运动,它可以属于人体区域,或可以属于衣服区域,这违反了单层假设。对于用这样的数据训练的编解码器化身,其通常在所述区域具有衣物和皮肤的混合颜色,导致重影效果。尽管解耦可以缓解这类伪影,但由于捕获衣物和身体之间交互的训练数据有限,这无法保证。在研究中,通过在单独层中配准身体和衣物,团队避免了这种伪影。
第三,身体和衣物在单独层中的表示为进一步改变化身的外观打开了机会,例如在不干扰身体外观的情况下对衣服纹理进行时间一致编辑。这种能力同时指明了通过物理模拟改变衣物风格的潜在方向。
需要注意的是,团队指出这个可动画模型可能无法泛化到与训练姿势分布有较大偏差的某些姿势。另外,这项研究中只专注于T恤。为了将工作扩展到下半身的衣物,团队需要将当前的两层研究扩展到处理多个层,由于层之间可能存在遮挡,这对配准和建模都带来了额外的挑战。
另一种常见的下半身衣物是裙子,这可能更困难,因为它存在较大的运动和变形。同时,模型不能处理变拓衣物,如打开拉链夹克。
即使在现有的两层框架下,如果手和衣服之间发生剧烈的交互,例如手拖拽衣服或手放在衣服里面,团队的衣物配准方法都会失败。目前衣物与人体之间的非物理交互建模可能不容易扩展以应对所述挑战。对于接下来的研究,团队将尝试解决这一系列的问题。
总之,团队的主要贡献包括:
1.为照片级真实感全身临场感提出了一个可动画的两层编解码器化身模型的;与单层化身相比,团队提出的虚拟化身可以产生更具时间连贯性,具有更清晰边界和更少重影的动画;
2.基于提出的两层编解码器化身的反向渲染,团队提出了一种光度追踪算法,它可以对齐显著衣服纹理,大大提高配准衣物网格中的对应性;
3.通过对衣物纹理的编辑来演示两层编解码器化身的应用,而这是单层模型难以实现的情况。在实验评估中,团队证明了其相对于其他方法的有效性和优势。只需要一系列的姿势和面部关键点作为输入,所述模型就可以实现高质量的人体动画,包括可以从任意角度观看的照片级真实感衣物。