英伟达曾在年初展示了名为Instant NeRF的人工智能技术:只需数秒即可将数十张2D照片快速转换成3D渲染场景。这种于2020年兴起的技术原本需要多个小时,甚是多天时间进行训练,但所述技术能够将其缩短至最快只需5秒。
Instant NeRF;视频源:B站用户knnstack
这种插值不仅可以生成静态场景,而且NeRF能够描绘运动,并进行基本的“复制粘贴”编辑。其中,单个NeRF可以整理成合成场景,或者插入现有场景。
但如果希望干预一个计算NeRF,并如同改变传统CGI场景元素一样实际改变内里发生的一切,行业迄今为止都尚未提出太多的解决方案,甚至没有一个能与CGI工作流程相匹配。
尽管几何体估计对于创建NeRF场景至关重要,但最终结果由相当“锁定”的值组成。当然,在NeRF中改变纹理值已经取得了一定的进展。不过,NeRF场景中的实际对象不是可以进行编辑和播放的参数网格。
在这种场景中,在NeRF中渲染的对象就本质而言是一尊雕像,或者说一系列的雕像。它们投射在自身和其他对象的阴影是纹理,而不是基于光源的灵活计算。NeRF内容的可编辑性仅限于拍摄稀疏源照片的摄影师所做的选择。所以,阴影和姿势等参数都是不可编辑。
针对所述问题,由中国科学院、中国科学院大学、卡迪夫大学和阿里巴巴组成的团队提出了NeRF-Editing。
NeRF-Editing概述
简单来说,当前基于NeRF的方法无法在场景中执行用户控制的形状变形。尽管现有的研究已经提出过根据用户约束修改辐射场的方法,但修改仅限于颜色编辑或对象平移和旋转。NeRF-Editing则允许用户在场景的隐式表示执行可控的形状变形,并在不重新训练网络的情况下合成编辑场景的新视图图像。
研究人员在提取的目标场景的显式网格表示和隐式神经表示之间建立了对应关系。用户可以首先利用发展良好的基于网格的变形方法来变形场景的网格表示。然后,NeRF-Editing利用来自网格表示的用户编辑,并通过引入四面体网格作为代理来弯曲camera光线,从而获得编辑场景的渲染结果。
所述方法采用了提取Signed Distance Function(SDF)的NeuS。SDF对象可以成为用户的雕刻基础,而As-Rigid-As-Possible (ARAP))提供的翘曲和成型功能则允许用户对提取的SDF网格进行变形。
ARAP允许用户变形提取的SDF网格
应用变形后,有必要将信息从矢量转换为NeRF固有的RGB/pixel level。用户变形的网格三角形顶点首先转化为四面体网格,四面体网格在用户网格周围形成蒙皮。从这个附加网格中提取空间离散变形场,最终得到一个对NeRF友好的连续变形场。连续变形场可以传回神经辐射环境,反映用户的更改和编辑,并直接影响目标NeRF中的解释光线。
团队提出的方法可以变形和动画化对象
研究人员指出,大量实验表明,这个框架不仅可以对合成数据进行编辑,而且可以对用户捕获的真实场景进行编辑。
即使手臂向上移动,人物手臂的水平阴影依然保持不变
当然,团队坦诚这个方法存在局限性。例如,变换后的几何体不会“更新”NeRF中未编辑的任何相关方面,同时不会反映变形元素的次要后果,例如阴影。研究人员提供了一个例子:即使手臂向上移动,人物手臂的水平阴影依然保持不变,如上图所示。
为了将来的研究,团队计划在just-in-time(JIT)编译的机器学习框架Jittor中开发他们的系统。