苹果研发AR/VR头显几乎已经是公开的秘密,尤其是从近年来该公司申请的一系列专利中,可以看到各类与AR/VR相关的技术,涵盖了UI、UX、硬件、光学、数据传输、传感器等多个方面。比如前不久,USPTO就公布了一项来自苹果的3D Avatar相关专利,其中描述了一种低成本3D形象扫描方案,可使用XR头显、手机、平板电脑、电脑摄像头来扫描头部、手部、躯干等不同的身体部位,生成的虚拟化身动作由用户控制,可在AR/VR等3D场景中移动。
这项专利相当有趣,它设想了将移动设备和AR/VR头显搭配,来生成3D虚拟形象的界面和流程。如果未来苹果真的发布AR/VR头显,该专利描述的方案也足够实用,似乎利用现有的技术就能实现。当然我们知道,通常大公司申请专利并不一定会应用专利中的技术,也可能是为了预防竞争、丰富技术积累等等。不过,也不排除部分专利内容实际应用的可能,通过分析专利我们多少可以了解苹果在相关技术上的探索,以及未来的潜在发展方向等等。
关于Avatar生成
据了解,这项专利的标题为“在3D环境中表现Avatar的界面”,主要描述了如何生成3D Avatar,以及使用Avatar与XR场景互动的实现方式。专利中涉及了大量和全身Avatar相关细节,比如可以用移动设备的摄像头扫描用户面部(类似于Face ID功能),用XR头显的多摄像头系统追踪用户的手、脚、躯干、手臂、肩膀等身体部位。
具体的使用流程如下:
1)面部扫面界面:使用者需摘除眼镜,并保持头部静止,然后将移动设备的摄像头围着头部旋转。该功能似乎不需要360°头部建模,因此使用者自己用手扫描面部两侧和正脸即可,无需其他人协助。
有趣的是,专利中描述的头部扫描机制有点类似于手机上的指纹录入,需要经过多次头部捕捉才能完成头部建模。另外,你还需要扫描各种表情,比如微笑、张嘴等等。
2)面部扫描完成后,便可以设置Avatar参数,比如身高、镜框等饰品。
3)之后,你需要戴上AR/VR头显来扫描双手。
目前,Meta Reality Labs也在探索基于移动设备的轻量化3D面部捕捉方案,从此前曝光的Codec Avatar研究进度来看,Meta已经可以用iPhone 12的前置镜头来进行高保真的3D面部捕捉和重建,还可以合成全新的3D视角和表情,效果足够优秀。该方案基于iPhone 12的Face ID相机模组,Face ID是目前市面上最先进的移动3D面部扫描方案之一,足以辅助AR/VR头显进行面部追踪和捕捉。如果利用部分iPhone配备的LiDAR传感器扫描人脸,效果还会更精准。
从此前的预测来看,苹果AR/VR头显将配备多组3D传感器,用于追踪眼球和面部表情变化,并用来控制Animoji等动画虚拟头像。如果结合iPhone端面部扫描,苹果AR/VR用户将可以自然生成自己的3D形象,并在AR/VR中使用,苹果产品生态可以很容易做到这样的功能。
而手势识别部分,目前Quest通过外部摄像头和计算机视觉算法已经能追踪手部节点,未来苹果AR/VR头显应该也会内置某种手势识别模块。
关于交互方式
完成3D面部扫描后,用户将扮演Avatar,在XR场景中通过视觉、触觉、听觉、味觉和嗅觉来感知物理环境,并与之互动。在AR模式中,系统可生成虚拟物体(如树木、建筑物)并与物理环境融合,系统可为虚拟物体渲染与环境光匹配的光影。甚至,还可以通过传感器对物理环境中的物体进行复制,复制的虚拟物体可具有类似的形状或颜色。
苹果在去年WWDC上曾公布一款基于摄影测量法的3D扫描工具,可将任何物体扫描成3D模型,相当于利用数字技术对实际物体进行高保真“复制”。扫描生成的3D模型为USDZ文件格式,可直接嵌入到网页中预览、以AR的形式查看并通过iMessage与其他人分享。虽然该工具目前未在C端落地,但此前展示的demo视频看起来效果十分惊艳,3D模型和实物看起来相当接近。
除了用动作和XR环境交互外,用户还可以通过视觉、听觉、触觉、味觉和嗅觉来交互,或是发出语音指令来调整虚拟对象的特征。
在一些XR场景中,用户只能听到声音,并和音频互动。比如,XR可识别用户的头部转动,实时调整空间音频和视觉效果,以还原声音和光线在真实空间中的特性。专利还指出,XR中的音频可支持“通透模式”,即有选择性的将环境音和计算机生成的音频融合。我们知道,苹果AirPods Pro/Max耳机就支持“通透模式”,在听歌时可主动降低环境噪音,未来如果应用于XR设备,将允许用户与周围的人、环境之间保持互动。
有趣的是,你可以在XR中用音频代表自己,或是选择可视化的Avatar,大概就像是在微信中你可以选择语音或视频通话那样。
另外,从苹果往年专利可以看出,其习惯在专利中将混合现实、虚拟现实和扩展现实(XR)分开定义,其中XR指的是一种部分或完全模拟的环境,人们可以通过电子系统感知这个环境并与之交互。在XR环境中,用户的物理运动是实时追踪的,并在XR中得到表示,同时XR环境也会对用户的动作做出反馈,以模拟物理交互。
而XR体验可能来自于多种图像生成组件,如头显、显示屏、投影仪、触摸屏等等。还可能配备多个传感器,包括图像传感器、光传感器、深度传感器、触觉传感器、方向传感器、温度传感器、位置传感器、运动传感器、速度传感器、XR地图生成单元等等。
关于头显硬件
苹果在专利背景中指出:近年来,AR/VR计算系统的开发显著增加,与AR/VR内容交互的方式也多种多样,比如摄像头手势识别、手柄、摇杆、触控表面、触屏等等。用户通过这些交互方式,可控制AR图像、AR视频、AR文本、AR图标等对象。
苹果认为,目前AR/VR的一些交互方式比较麻烦、低效、可获得的反馈有限。比如相比于手势交互,手柄对初学者不够友好,而且具有一定重量,容易打破沉浸感。另外,如果想要追踪全身动作,则可能需要全身体感服,或是多个追踪模块,操作起来比较复杂,而且笨重。这些输入方式的计算量比较大,比较耗电,对于需要电池供电的AR/VR一体机来讲并不友好。
因此,需要一种更加有效、直观、容易理解的人机交互方式。
硬件方面,苹果Avatar专利方案需要某种图像生成计算机系统,以及一个或多个具有计算生成能力的输入设备,如虚拟现实、混合现实显示设备,或是台式计算机、移动设备(手机、笔记本、平板电脑、手持设备)、可穿戴电子设备(智能手表)。
其硬件设备可能配备触控板、摄像头组、触屏、眼球追踪模块、手势追踪模块。此外,还可以搭配体感和音频配件。此外,或采用图形用户界面(GUI),支持触控笔、指尖输入、触控和手势输入、眼球输入、语音输入。用户也可以通过全身姿态来和GUI交互,姿态通过摄像头等传感器来捕捉。
用户可通过这些交互方式在GUI中进行绘画、修图、演示、文字处理、制作图标、玩游戏、打电话、开视频会议、发邮件、发信息、健身、拍照、拍视频、看网页、听音乐、记笔记、看视频等等。参考:PatentlyApple,USPTO