苹果专利分享：根据语音或文本媒体内容呈现AR/VR映射内容

　　当你聆听音频或文本等媒体内容时，AR/VR沉浸式媒介的一个想象用例是用数字内容来进行叠加补充。例如，当你听到关于北京长城的音频或文本描述时，沉浸式设备可以在你的视场中呈现长城的数字画面。当你听到关于北京故宫的音频或文本描述时，沉浸式设备可以在你的视场中呈现故宫的数字画面。

　　在名为“Content event mapping”的专利申请中，苹果就介绍了一种根据媒体内容来呈现沉浸式映射内容的方法。

　　图1A是根据示例操作环境100A的框图，操作环境100A包括电子设备120A，例如平板电脑。电子设备120A配置为向用户呈现SR内容。

　　图1B示例操作架构100B的框图，操作环境100B包括控制组件110和头戴式设备120B。控制组件110配置为管理和协调用户的SR内容的呈现。控制组件110可以是位于场景105内的本地服务器。在另一示例中，控制组件110可以是位于场景105之外的远程服务器，例如云服务器和中央服务器等)。控制组件110经由一个或多个有线或无线通信信道144与头显120B通信耦合。在一个实施例中，控制组件110可以包括在头显120B的壳体之内。

　　图2是控制组件110的示例框图。控制组件包括SR体验模块240，后者配置为管理和协调一个或多个用户的一个或多个SR体验。在各种实现中，SR体验模块240包括数据获取单元242、追踪单元244、协调单元246和数据发送单元248。

　　在一个实施例中，数据获取单元242配置为从图1B的头显120B获取数据。追踪单元244配置为映射场景105，并追踪头显120B相对于图1B的场景105的位置/位置。协调单元246配置为管理和协调头显120B呈现给用户的SR体验。数据发送单元248配置为至少向头显120B发送数据，例如位置数据。

　　图3是头显120B的示例框图。头显包括一个或多个SR显示器312，后者配置为向用户呈现SR内容。头显同时包括一个或多个图像传感器314。在一个实施例中，头显包括SR呈现模块340，其配置为经由一个或多个SR显示器312向用户呈现SR内容。SR呈现模块340包括数据获取单元342、SR呈现单元344、SR映射生成单元346和数据发送单元348。

　　在一个实施例中，数据获取单元342配置为至少从图1的控制组件110获取数据。SR呈现单元344配置为经由一个或多个SR显示器312呈现SR内容。SR映射生成单元346配置为基于媒体内容数据生成SR映射。数据发送单元348配置为向控制组件110发送数据。

　　图4示出了一个场景405，其中电子设备410对场景405进行了测量。场景405包括桌子408和墙407。电子设备410在显示器显示场景415的表示，包括桌子418的表示和墙壁417的表示。在各种实施例中，电子设备410通过场景摄像头拍摄场景的图像，并相应地生成场景415的表示。场景415的表示同时包括在叠加到桌子418的表示的SR映射409。

　　当电子设备410在场景405周围移动时，场景415的表示根据电子设备410的视角变化而变化。另外，SR映射409根据电子设备410的透视图的改变而相应地改变。因此，当电子设备410移动时，SR映射409相对于表418的表示以固定关系出现。

　　在各种实施例中，SR映射409对应于以时间线为特征的媒体内容数据，以便在不同时间呈现媒体内容数据的相应部分。在一个实施例中，媒体内容数据包括以时间轴为特征的视频内容数据，以便在不同时间显示相应的图像。另外，可选地同时播放与相应图像对应的声音。

　　在一个实施例中，媒体内容数据包括在相应时间播放相应声音的音频内容数据。在文字或语音内容和数据中包括各种音乐/叙述。媒体内容数据包括表示故事弧的多个事件的事件标记。在各种实施例中，事件标记是满足事件标记标准的媒体内容数据的一部分。在各种实施例中，通过视频内容数据的图像分析来检测事件标记。例如，在事件标记标准包括当视频内容数据图像中存在对象时满足的标准。在一个实施例中，事件标记标准包括当图像的调色板显著不同于先前图像时满足的标准，例如指示场景改变。

　　在各种实施例中，通过音频内容数据的音频分析来检测事件标记。例如，在一个实施例中，事件标记标准包括当存在音乐提示时满足的标准。在一个实施例中，事件标记标准包括当音频的音量超过阈值或音量的变化率超过阈值时满足的标准。

　　在各种实施例中，通过文本内容数据的文本分析来检测事件标记。例如，在一个实施例中，事件标记标准包括当存在特定词时满足的标准。

　　在图5A，第一图像500A与媒体内容数据(或其音频组件)同时显示，并且第一图像显示在媒体内容数据的时间线中。其中，时间线对应于表示故事弧的第一事件的第一事件标记。

　　在图5A中，SR映射409包括SR映射表示510(山的表示)和路径表示511(蜿蜒上山的人行道表示)。在各种实施例中，SR映射表示510是默认SR映射表示或用户选择的SR映射表示。在各种实施例中，基于媒体内容数据获取SR映射表示510。例如在一个实施例中，基于媒体内容数据从多个存储的SR映射表示中选择SR映射表示510。在一个实施例中，基于媒体内容数据生成SR映射表示510。

　　SR映射409包括沿路径表示511显示的第一SR环境表示501A，例如房子的表示)。在各种实施例中，基于媒体内容数据，尤其是与第一事件相关联的媒体内容数据的部分，获取第一SR环境表示501A。例如在一个实施例中，基于与第一事件相关联的媒体内容数据部分，从多个存储的SR环境表示中选择第一SR环境表示501A。

　　在图5B中，第二图像500B与媒体内容数据(或其音频组件)同时显示，并且第二图像显示在媒体内容数据的时间线中。其中，时间线对应于表示故事弧的第二事件的第二事件标记。

　　与图5A相比，SR映射409进一步包括第二SR环境表示501B，例如学校的表示。在各种实施例中，以与第一SR环境表示501A类似的方式获得第二SR环境表示501B。

　　在图5C中，SR映射进一步包括第三SR环境表示510C，例如帕特农神庙的表示。在各种实施例中，以与第一SR环境表示501A类似的方式获得第三SR环境表示501C。

　　第三SR环境表示501C与第三可供性相关联，当选择所述第三可供性时，显示第三SR环境。类似地，第一SR环境表示501A与第一可供性相关联，当选择第一可供性时，显示第一SR环境，而第二SR环境表示501B与第二可供性相关联。当选择第二可供性，显示第二SR环境。

　　在各种实现中，响应于检测到第三可供性的选择，SR映射409停止显示。在各种实现中，响应于检测到第三可供性的选择，暂停媒体内容数据的并发播放。

　　响应于用户通过手势或在第三SR环境520中选择返回SR映射409的选择，第三SR环境520停止显示。

　　图5A-5F对应于与媒体内容数据相关联的SR映射，包括记者在徒步旅行路线上采访参议员的视频内容数据。基于对视频数据的分析，设备将场景检测为徒步路径，并选择山的SR映射表示510。在采访中，这位参议员第一次与两个弟弟妹妹讨论了他在一间只有一间卧室的小房子里成长的卑微经历。设备检测所说的单词“小房子”，并选择第一次沿路径表示511显示的小房子的第一SR环境表示501A。

　　在第二次采访中，这位参议员讨论了他在当地学校的高中足球生涯，视频中包括了学校的图片。设备检测所说的单词“高中”，并生成本地学校的第二SR环境表示501B，以在第二时间沿路径表示511显示。

　　在第三次采访中，这位参议员讨论了在希腊留学以及帕台农神庙的宏伟给他留下的印象。设备检测所说的单词“帕特农神庙”，并选择帕特农神庙的第三SR环境表示501C，以在第三时间沿路径表示511显示。

　　在第四次采访中，这位参议员讨论了在纽约一家著名律师事务所工作的问题。设备检测说出的单词“工作”、“律师事务所”和“纽约”，并选择摩天大楼的第四SR环境表示501D，以在第四次沿路径表示511显示。

　　在第五次采访中，这位参议员讨论了他当选美国参议院的问题。该设备检测说出的单词“选举”和“参议院”，并选择国会大厦的第五个SR环境代表501E，以在第五次沿路径代表511显示。

　　名为“Content event mapping”的苹果专利申请最初在2019年9月提交，并在日前由美国专利商标局公布。

苹果专利分享：根据语音或文本媒体内容呈现AR/VR映射内容

推荐文章