这项Avatar专利，让我看到了未来苹果生态与AR/VR头显的融合

　　苹果研发AR/VR头显几乎已经是公开的秘密，尤其是从近年来该公司申请的一系列专利中，可以看到各类与AR/VR相关的技术，涵盖了UI、UX、硬件、光学、数据传输、传感器等多个方面。比如前不久，USPTO就公布了一项来自苹果的3D Avatar相关专利，其中描述了一种低成本3D形象扫描方案，可使用XR头显、手机、平板电脑、电脑摄像头来扫描头部、手部、躯干等不同的身体部位，生成的虚拟化身动作由用户控制，可在AR/VR等3D场景中移动。

微信图片_20220905154349

　　这项专利相当有趣，它设想了将移动设备和AR/VR头显搭配，来生成3D虚拟形象的界面和流程。如果未来苹果真的发布AR/VR头显，该专利描述的方案也足够实用，似乎利用现有的技术就能实现。当然我们知道，通常大公司申请专利并不一定会应用专利中的技术，也可能是为了预防竞争、丰富技术积累等等。不过，也不排除部分专利内容实际应用的可能，通过分析专利我们多少可以了解苹果在相关技术上的探索，以及未来的潜在发展方向等等。

　　关于Avatar生成

　　据了解，这项专利的标题为“在3D环境中表现Avatar的界面”，主要描述了如何生成3D Avatar，以及使用Avatar与XR场景互动的实现方式。专利中涉及了大量和全身Avatar相关细节，比如可以用移动设备的摄像头扫描用户面部(类似于Face ID功能)，用XR头显的多摄像头系统追踪用户的手、脚、躯干、手臂、肩膀等身体部位。

微信图片_20220905154403

　　具体的使用流程如下：

　　1)面部扫面界面：使用者需摘除眼镜，并保持头部静止，然后将移动设备的摄像头围着头部旋转。该功能似乎不需要360°头部建模，因此使用者自己用手扫描面部两侧和正脸即可，无需其他人协助。

微信图片_20220905154401

　　有趣的是，专利中描述的头部扫描机制有点类似于手机上的指纹录入，需要经过多次头部捕捉才能完成头部建模。另外，你还需要扫描各种表情，比如微笑、张嘴等等。

微信图片_20220905154354

　　2)面部扫描完成后，便可以设置Avatar参数，比如身高、镜框等饰品。

微信图片_20220905154332

　　3)之后，你需要戴上AR/VR头显来扫描双手。

微信图片_20220905154410

　　目前，Meta Reality Labs也在探索基于移动设备的轻量化3D面部捕捉方案，从此前曝光的Codec Avatar研究进度来看，Meta已经可以用iPhone 12的前置镜头来进行高保真的3D面部捕捉和重建，还可以合成全新的3D视角和表情，效果足够优秀。该方案基于iPhone 12的Face ID相机模组，Face ID是目前市面上最先进的移动3D面部扫描方案之一，足以辅助AR/VR头显进行面部追踪和捕捉。如果利用部分iPhone配备的LiDAR传感器扫描人脸，效果还会更精准。

　　从此前的预测来看，苹果AR/VR头显将配备多组3D传感器，用于追踪眼球和面部表情变化，并用来控制Animoji等动画虚拟头像。如果结合iPhone端面部扫描，苹果AR/VR用户将可以自然生成自己的3D形象，并在AR/VR中使用，苹果产品生态可以很容易做到这样的功能。

　　而手势识别部分，目前Quest通过外部摄像头和计算机视觉算法已经能追踪手部节点，未来苹果AR/VR头显应该也会内置某种手势识别模块。

　　关于交互方式

　　完成3D面部扫描后，用户将扮演Avatar，在XR场景中通过视觉、触觉、听觉、味觉和嗅觉来感知物理环境，并与之互动。在AR模式中，系统可生成虚拟物体(如树木、建筑物)并与物理环境融合，系统可为虚拟物体渲染与环境光匹配的光影。甚至，还可以通过传感器对物理环境中的物体进行复制，复制的虚拟物体可具有类似的形状或颜色。

　　苹果在去年WWDC上曾公布一款基于摄影测量法的3D扫描工具，可将任何物体扫描成3D模型，相当于利用数字技术对实际物体进行高保真“复制”。扫描生成的3D模型为USDZ文件格式，可直接嵌入到网页中预览、以AR的形式查看并通过iMessage与其他人分享。虽然该工具目前未在C端落地，但此前展示的demo视频看起来效果十分惊艳，3D模型和实物看起来相当接近。

　　除了用动作和XR环境交互外，用户还可以通过视觉、听觉、触觉、味觉和嗅觉来交互，或是发出语音指令来调整虚拟对象的特征。

　　在一些XR场景中，用户只能听到声音，并和音频互动。比如，XR可识别用户的头部转动，实时调整空间音频和视觉效果，以还原声音和光线在真实空间中的特性。专利还指出，XR中的音频可支持“通透模式”，即有选择性的将环境音和计算机生成的音频融合。我们知道，苹果AirPods Pro/Max耳机就支持“通透模式”，在听歌时可主动降低环境噪音，未来如果应用于XR设备，将允许用户与周围的人、环境之间保持互动。

微信图片_20220905154327

　　有趣的是，你可以在XR中用音频代表自己，或是选择可视化的Avatar，大概就像是在微信中你可以选择语音或视频通话那样。

微信图片_20220905154417

　　另外，从苹果往年专利可以看出，其习惯在专利中将混合现实、虚拟现实和扩展现实(XR)分开定义，其中XR指的是一种部分或完全模拟的环境，人们可以通过电子系统感知这个环境并与之交互。在XR环境中，用户的物理运动是实时追踪的，并在XR中得到表示，同时XR环境也会对用户的动作做出反馈，以模拟物理交互。

　　而XR体验可能来自于多种图像生成组件，如头显、显示屏、投影仪、触摸屏等等。还可能配备多个传感器，包括图像传感器、光传感器、深度传感器、触觉传感器、方向传感器、温度传感器、位置传感器、运动传感器、速度传感器、XR地图生成单元等等。

　　关于头显硬件

　　苹果在专利背景中指出：近年来，AR/VR计算系统的开发显著增加，与AR/VR内容交互的方式也多种多样，比如摄像头手势识别、手柄、摇杆、触控表面、触屏等等。用户通过这些交互方式，可控制AR图像、AR视频、AR文本、AR图标等对象。

　　苹果认为，目前AR/VR的一些交互方式比较麻烦、低效、可获得的反馈有限。比如相比于手势交互，手柄对初学者不够友好，而且具有一定重量，容易打破沉浸感。另外，如果想要追踪全身动作，则可能需要全身体感服，或是多个追踪模块，操作起来比较复杂，而且笨重。这些输入方式的计算量比较大，比较耗电，对于需要电池供电的AR/VR一体机来讲并不友好。

　　因此，需要一种更加有效、直观、容易理解的人机交互方式。

　　硬件方面，苹果Avatar专利方案需要某种图像生成计算机系统，以及一个或多个具有计算生成能力的输入设备，如虚拟现实、混合现实显示设备，或是台式计算机、移动设备(手机、笔记本、平板电脑、手持设备)、可穿戴电子设备(智能手表)。

　　其硬件设备可能配备触控板、摄像头组、触屏、眼球追踪模块、手势追踪模块。此外，还可以搭配体感和音频配件。此外，或采用图形用户界面(GUI)，支持触控笔、指尖输入、触控和手势输入、眼球输入、语音输入。用户也可以通过全身姿态来和GUI交互，姿态通过摄像头等传感器来捕捉。

　　用户可通过这些交互方式在GUI中进行绘画、修图、演示、文字处理、制作图标、玩游戏、打电话、开视频会议、发邮件、发信息、健身、拍照、拍视频、看网页、听音乐、记笔记、看视频等等。参考：PatentlyApple，USPTO

这项Avatar专利，让我看到了未来苹果生态与AR/VR头显的融合

推荐文章