2019年03月14日,Facebook Reality Labs(FRL)匹兹堡团队的研究总监亚瑟·谢赫(Yaser Sheikh)致力于为人们带来更好的新联结方式。他说道:“我们中的大多数人,包括我自己,都不是住在我们长大的地方。我的一生都是从一个城市搬到另一个城市,而每一次我都需要离开对我非常重要的亲朋好友。”
专注于彼此的联结促使谢赫领衔了一个名为Codec Avatars的项目:旨在克服人与人之间,以及人与机会之间的物理距离挑战。借助突破性的3D捕获技术和人工智能系统,Codec Avatars可以帮助人们在未来快速轻松地创建逼真的虚拟化身,令虚拟现实中的社交联系变得如同现实世界般自然和常见。尽管虚拟角色多年来一直是游戏和应用的主要元素,但谢赫相信准确逼真的虚拟表示(能够完美捕捉苦笑或皱眉的虚拟角色)将会改变一切。
Facebook坚信增强现实和虚拟现实将成为未来五十年里我们工作,娱乐和联结的主要方式,就如同个人计算机和智能手机在过去四十五年里(并正继续)改变了世界一样。为了向AR/VR信众展示Facebook的实验室,并说明Facebook正在如何构建未来,Facebook Reality Labs(FRL)计划在未来一年时间里陆续公布一系列的博文,而每篇博文都围绕不同的FRL团队展开,介绍他们正在开拓的,能够把我们引领至未来的新技术。
本文是FRL新博文系列的第一篇,其介绍了FRL匹兹堡团队的Codec Avatar研究。下面是映维网的具体整理:
目前,创建逼真化身需要捕获大量高质量的个人音频和视频。
Codec Avatars是一个正在积极进行中的研究项目,但它可以彻底改变我们未来通过VR头显和AR眼镜与他人联结的方式。它不仅仅关乎尖端图形画面或高级运动追踪,其重点是为了在虚拟现实中实现人与人之间自然而轻松的互动。对于这一点,挑战在人造环境中创建真实的交互。
1. 社交临场感
如果远程呈现可以令你感觉自己仿佛置身于另一个地方,社交临场感则能够帮助你与他人分享这种感受。谢赫谈到衡量成功的两个简单而重要的方法。他解释说:“我们将其通俗地形容为通过‘自我测试’和‘母亲测试’。你必须喜爱自己的虚拟化身,而你的母亲同样需要喜爱你的虚拟化身,只有这样才能令你感觉虚拟现实就如同现实生活一样舒适。这是一个非常高的标准。”
当你第一次接听视频电话时,没有人必须要告诉你为何这项技术非常重要。它能够提升彼此的联结程度,这意味着你可以穿着睡衣工作。对于从视频通话到虚拟化身通话的跳跃,这将带来真正的社交临场感,有点像是在‘星际迷航’的全息甲板中与某人交谈,你可以在模拟环境中闲逛,就如同身临其境一样。帮助Codec Avatars以真实和舒适的方式运行,这是匹兹堡团队多年来一直致力于解决的巨大设计挑战。我们正在积极地努力实现这一目标。”
一名研究被试和一位Facebook员工正通过VR讨论高温瑜伽(通过相应的虚拟化身)。匹兹堡团队已经取得了实质性进展,但他们正在努力为虚拟化身的口舌增加细节以提高表达质量,并确保虚拟化身之间能够实现逼真的眼神交流。
Codec Avatars的研究工作是实现亲民,实用,并可用于未来头显的真实社交临场感的重要里程碑。“现在,接近度决定了我们与谁建立关系。增强现实和虚拟现实的真正前景是,无论身处何方,它都可以允许我们花时间与任何人建立有意义的关系。”谢赫如是说道。这是人与人联结的未来,并使得它成为了Facebook核心使命的重要组成部分,亦即帮助建立社区和允许人们更紧密地联结在一起。
2. 匹兹堡的建立
消除人与人之间的物理距离是一项需要长期承诺的重大任务。在2014年秋天,谢赫遇到了Oculus Research的首席科学家迈克尔·亚伯拉什。当时,谢赫正领导着卡内基梅隆大学机器人研究所的3D捕捉实验室:Panoptic Studio。两人就在匹兹堡建立一个新研究设施进行了讨论,并最终把社交临场感作为首要目标。他们的第一项任务是:组建一支由跨学科工程师,技术人员和科学家组成的多学科团队,从而“构建未来”。谢赫于2015年加入Facebook,并自此一直在领导匹兹堡团队。
Facebook Reality Labs在美国各地都设有办事处,包括华盛顿州雷德蒙德,加利福尼亚州索萨利托,以及宾夕法尼亚州匹兹堡。从机器学习和材料科学到光学和触觉,每个地点都在负责解决将AR和VR打造成为下一个计算平台所面临的挑战。FRL研究科学家史蒂芬·隆巴迪(Stephen Lombardi)说道:“FRL是实用性研究工作机构的圣杯。我们拥有惊人的资源和支持,而且我能够与非常聪明的人才一起工作。与独自一人相比,这允许我实现更多的成就。”
对于FRL的技术项目经理丹妮尔·别尔科(Danielle Belko)来说,她在匹兹堡实验室的工作始于谢赫的一个大胆提议。他询问说,丹妮尔是否喜欢“分析尚未发明的系统的数据,是按照前所未有的规模进行分析,并努力实现人们认为不可能做到的事情。”于是,她报名加入。丹妮尔说道:“我有语言学和娱乐技术的背景,所以我非常着迷于人与人的沟通方式。所以这是一个非常棒的机会,我不能够错过。”
FRL的研究科学家杰森·萨拉吉(Jason Saragih)则是直接通过FRL的大门来追逐自己对计算机视觉的热爱。他说道:“我涉足计算机视觉和图形方面的人体建模已有十多年时间,我认为AR和VR是这种技术的终极工具。隆巴迪表示赞同,“FRL正在对沉浸式平台的未来进行大量投资。为这一愿景做出贡献令人感到兴奋,特别是现在我们正在利用计算机视觉,机器学习和尖端图形技术来制作逼真的虚拟化身。”
FRL匹兹堡的总经理查克·胡佛(Chuck Hoover)一支希望能够实现宏大的未来。他说道:“这是一种令我无比兴奋的深远影响。我们可以住在任何地方,并完全消除通勤吗?分离生活的社交方面与物理依赖有可能改变世界。能够为这一浪潮贡献力量,并且是从这一早期阶段就开始贡献力量,我感到非常振奋。”
Codec Avatars将会对社交和文化产生巨大的影响,而在匹兹堡工作同时存在其他优势,例如探索世界上最先进的硬件系统。FRL研究科学家余守壹表示:“我们逐渐明白,我们拥有世界上最先进的扫描设备。我们开始扫描人们的鞋子,玩具,干冰,燃烧的蜡烛,以及我们能想到的任何东西。”扫描日常物品听起来十分随机,但这一切都是为了构建一种更好的算法,以便未来的硬件可以轻松渲染最复杂的虚拟化身。
3. 传神的虚拟化身
传神的虚拟化身是科幻作品中的流行概念,比如说电影《创:战纪》。当然,电影中软件程序员发现计算机正在一点一点地重构自己的画面并没有发生在FRL匹兹堡。你不会突然之间被机器吸进里面,而且虚拟化身看起来不会像是常见2D游戏中的角色。但概念相似:系统能够以数字方式将你从一个位置传送至另一个位置,并令你感觉一切都仿如真实。
要实现栩栩如生的虚拟化身,关键是身体细节,包括我们每天都认为是理所当然的微妙细节。这是解开难题的关键部分。余守壹解释说:“要一切正常运作。我们必须捕捉所有这些微妙的暗示。这既有挑战性又十分令人振奋,因为我们正努力让你成为你自己。”
自逼真虚拟化身项目于2016年首次在F8开发者大会进行亮相后,Facebook Reality Labs的研究人员已经取得了重大进展。与早期版本的虚拟化身相比,现在的研究成果已经可以实现清晰的细节,如头发和牙齿。
视觉特效行业多年来一直致力于实现栩栩如生的虚拟化身,但需要真人演员的参与。这是一个手动的过程,需要你花费数月的制作时间。人造现实中的虚拟人物实时交互是一个未知的领域,所以FRL的研究团队需要一种新的方法。
Facebook研发虚拟角色已有多年时间。在2016 F8大会,Facebook首席技术官迈克·斯科洛普夫为Facebook Spaces展示了新的虚拟化身系统,取代了原来漂浮的蓝色头部,同时采用了新的面部特征和唇部动作。在第二年,他首次亮相了FRL匹兹堡的努力。在一个简短的演示中,我们看到了两个映射团队成员的逼真数字角色。
继那之后,FRL团队不断取得进展。谢赫说道:“我们已经完成了两个捕获设施,一个用于面部,一个用于身体。每一个都旨在重建身体结构,并以前所未有的细节水平测量身体运动。在达到这些里程碑后,团队就能够捕获数据并构建自动化管道,从而创建逼真的虚拟化身。“随着最近在机器学习方面的突破,这种超逼真的虚拟化身可以以动画方式进行实时制作。
Codec Avatars不是FRL追求逼真虚拟化身的唯一手段。FRL索萨利托的另一支团队正在探索能够与任何虚拟环境进行交互的基物(基于物理)虚拟化身。这项研究结合了生物力学,神经科学,运动分析,以及基物模拟等领域的基础研究。就如同Codec Avatars一样,所述的技术仍然依赖于实时数据捕获,但它并非是由实时传感器数据驱动神经网络,而是驱动一个受人体解剖学启发的基物模型。
4. 构建Codec Avatars
如果你要复刻两人聊天时的微妙细节,你首先需要理解人类的互动方式。然后,你需要以计算机系统能够理解的方式进行打包。这听起来可能很简单,但即使是基本的对话都需要一个复杂的信号网络,需要所有信号协同工作以在彼此之间传达意义。这种信号由语音,肢体语言,语言线索等组成,而Codec Avatars将其打包成可量化的数据,并用于渲染逼真的虚拟人类。如前所述,目标是创建出与真实互动无法区分的虚拟互动。
FRL研究科学家托马斯·西蒙(Tomas Simon)解释说:“基石是衡量标准。逼真感是由精确的数据所驱动,而这需要优秀的测量。因此,构建逼真虚拟化身的关键是找到一种方法来测量人类表达中的物理细节,如人们眯眼睛或皱鼻子的方式。”
Facebook Reality Labs的捕获系统能够每秒采集180Gb的数据。专有的算法随后利用相关数据来创建个人的独特虚拟化身。匹兹堡团队的目标是,其构建的模型能够在未来允许人们只需数张图片即可快速轻松地创建自己的虚拟化身。
在匹兹堡实验室,Codec Avatars通过两个主要的功能来测量人类表达:编码器和解码器。首先,编码器通过头显摄像头和麦克风系统来捕捉用户正在做的事情及位置。完成捕获后,编码器就会获取信息并整合一个唯一的代码,一个人体和环境状态的数字表示。接下来,解码器将所述代码转换为音频和视觉信号,而接收者则将其看作是发送者肖像和表达的完美表示。
Codec Avatars代表着社交临场感的重大飞跃。它利用了今天正发生在匹兹堡实验室的事情(通过一小群被试来构建一个物理特征数据库),并为未来的消费者提供了一种无需捕获工作室和太多数据即可创建虚拟化身的方法。萨拉吉表示:“这是自动生成真实个人数字化身的首批方法之一。它提供了一种可以广泛扩展的虚拟面对面交流方式。感觉对方就在你面前的虚拟交互是实现我们最终目标的重要一步,亦即联结彼此。”
普通的1000万像素智能手机摄像头利用数百万个光传感器来生成逼真图像。借助捕获的数据和修图软件,智能手机可以自动调整环境光线,视场和其他参数,从而为你提供最佳的照片。建立Codec Avatars同样是物理数据和复杂软件的结合,但涉及的要素远比比一般的Instagram帖文更多。
Codec Avatars需要捕捉你的三维轮廓,包括你移动方式的所有细微之处,以及能够令朋友和家人瞬间识别你的特质。另外,要令数十亿人每天都利用Codec Avatars,你需要令它们变得简单而且自然。面对这一挑战,FRL创建两个世界级的捕捕获工作室:一个用于面部,另一个则面向全身。两个工作室都搭载了数百个高分辨率摄像头,并以每秒1Gb的速度捕获数据。
余守壹说道:“作为解释说明,具有512Gb磁盘空间的笔记本电脑只需三秒钟就会耗尽空间。我们的捕获过程持续大约15分钟。大量的摄像头确实挑战了捕捉硬件的极限,但挑战极限允许我们采集最好的数据以创建当今世界最逼真的虚拟化身之一。”例如,其中一个工作室包含1700个麦克风,用于在3D中重建声场并实现真正的沉浸式音频。
FRL的方法是利用捕获的数据来训练AI系统,令其只需数张图片或视频即可快速轻松地构建你的Codec Avatar。但由于人类特质的多样性,他们面临一项相当巨大的挑战,而团队才刚刚起步。余守壹指出:“这教会我需要意识到每个人都有其独特之处。我们捕获过有着夸张发型的人,穿戴脑电图帽的人。我们也扫描过戴耳环,鼻环等等不同的人。”
在FRL匹兹堡工作甚至产生过意义重大的时刻。别尔科回忆说:“亚瑟的父母曾来过,并为其孙子孙女,及未来的曾孙录制了一段信息。这俩基本上是创建了一个交互式时间胶囊。我从未真正想过远程呈现可以帮助后代与过去建立联系,但你能想象未来能够看到已不在人世的亲朋发来的信息吗?”
5. 动画化虚拟化身
这两个捕获工作室对FRL匹兹堡的努力非常重要,但它们庞大且不切实际。研究团队的目标是,未来某个时刻能够通过轻量级头显实现相同的结果。然而,今天匹兹堡团队不得不自行构建市场所不存在的捕获解决方案,于是他们发明了一系列配备摄像头,加速度计,陀螺仪,磁力计和麦克风的头戴式捕获系统(Head Mounted Capture systems;HMCs),从而捕获完整的人类表达范围。当用户在虚拟环境中相互交谈时,所述的HMCs将动画化Codec Avatars。
真实人类与虚拟化身的并排比较。左侧是真人,右侧则是虚拟化身。与其他虚拟化身不同,Codec Avatars完全是自动生成。
构建HMCs并非易事。传感器需要嵌入至人们感觉舒适的头显之中。照亮脸部会导致令人不快的用户体验,因此匹兹堡实验室的HMCs选择了人眼看不到的红外线。FRL研究科学家赫南·柏蒂诺(Hernan Badino)指出:“如果虚拟体验要变得与物理面对面体验别无二致,我们需要具备全面的感知能力,同时确保头显不会限制用户的姿态和表达。”
软件同等重要,而FRL团队已经制定了一套程序来处理来自HMCs的数据。柏蒂诺解释说:“研究人员可能希望从设备中获取非常具体的图像,或者对捕获系统进行完全控制以测试特定的假设。我们团队开发的软件使得我们能够灵活控制捕获系统,从而允许我们专注于研究特定方面。软件同时含有一系列用于在实验室内部署头显的工具,如校准,数据诊断和分析工具。”
6. 安全第一
在现实生活中与他人交谈时,信任是一个关键组成要素,所以虚拟现实不应该有任何不同。FRL的系统需要提供人们可以立即信任的逼真虚拟化身,而其中重要的一点就是准确地捕获微妙的表情。谢赫说道:“要令社交引人入胜,唯一有效的证据是真实。一种隐含的信任是,你能够从另一个人身上获得‘真正的’信息。”
为用户提供一种快速轻松的虚拟化身构建方法只是其中一个挑战。确保人(及其虚拟化身)保持安全则是另外一个拼图。为了应对这一潜在的问题,匹兹堡团队结合了用户身份验证,设备身份验证和硬件加密。但一切都始于正确处理数据。别尔科指出:“这对我们所有人来说都非常重要。在开始任何采集工作之前,我们需要确保我们拥有一个强大的系统来处理和存储数据。”
团队敏锐意识到的一项技术是“DeepFakes”(一种AI换脸技术),亦即通过AI和现有的图像与素材来制作以假乱真的画面(如令未曾出演的某人成为某部影片的女主角)。这项技术在未来只会不断提升,因此你很难区分真实事件与基于DeepFakes技术的人工事件。谢赫认为:“Deepfakes对我们的远程呈现项目构成了生存威胁,因为信任与沟通有着内在的联系。如果你在通话时听到母亲的声音,你不会怀疑其话语的真实性。尽管她的声音是由一个嘈杂麦克风进行感知,被压缩,经过无数英里的传输,在远处进行重建,并由一个不完美的扬声器播放,但你依然有这种信任。”
FRL匹兹堡正在考虑采取措施来保护虚拟化身的数据安全。例如,他们正在探索通过真实账户来保护未来的虚拟化身。胡佛回答说:“如何结合真实身份将是其中的关键要素,我们已经讨论了未来设备的数种安全和身份验证选项。这种技术要登陆消费者头显尚需多年的时间,但FRL已经在研究可能的解决方案。”
研究人员同时定期与隐私,安全和IT专家进行交流审核,以确保其遵循协议并实施最新,最严格的安全措施。胡佛解释道:“我们已经考虑过这项技术的所有可能用例。我们已经意识到风险,并且经常讨论这项技术可能产生的积极影响和消极影响。作为一个实验室,我们对开发这项技术感到兴奋,但前提是它是以正确的方式开发出来。每个人都知道这项研究的重要性,以及人们信任它的重要性。”
7. 与任何地方的任何人联结
想象一下,你戴上头显后并能传送至千里之外的教室,办公室,或生日聚会。所有人都能马上认出这就是你本人。你的相貌,行为和声音都如同现实世界一般。这不仅仅是为了方便。无论是因为各种情非得已的原因,还是说单纯出于距离考虑,栩栩如生的虚拟化身都可以出现在你肉身所无不能到达的地方。这有助于解决当今人们在维持长距离关系和寻找社区时所面临的诸多挑战。
重点不是取代物理联结,而是在人们无法亲临现场时为其提供新的交互工具,例如电话机和视频通话的发明。当然,在逼真虚拟化身准备好迎来黄金时期之前,FRL尚有大量的工作要做,他们面前依然摆着一系列的问题。当你为人们构建一种允许其进行远距离逼真互动的全新方式时(仿佛彼此都存在于相同的空间中),在它能够拿出台面之前你需要解决大量的问题并实现无数的突破。
但这种真实的亲密感正是FRL匹兹堡团队所致力于通过Codec Avatars实现的目标。谢赫表示:“我们拥有推进新概念的资源。再加上如果你能够汇集各种专业人才以全面解决这些巨大的设计挑战,你将可以大大加速前所未见的创新到来。”