苹果AR/VR专利提出根据眼动追踪为用户录制MR效果视频

　　对于MR眼镜/头显，一个可以想象的功能是视频录制，亦即捕获从用户视角看到的混合现实画面。在名为”Gaze-driven recording of video“的专利申请中，苹果就介绍了与之相关的功能。

　　苹果指出，在MR视频录制中，系统可以记录用户所能看见的一切。其中，用于说明录制区域的方框可以称为录制框。在一个实施例中，用户可以一直静态地注视感兴趣的内容。在另一个实施例中，用户视线会不断游动。为了录制从用户视角看到的画面，录制框必须跟随用户视线移动。所以，可以根据眼动追踪来实现录制框的移动。

　　图1A是在静态感兴趣区域中记录视频的过程100。过程100将视频帧序列(110、112、114和116)作为输入，并记录视频帧的相应部分(120、122、124和126)。视频帧(110、112、114和116)可以包括使用一个或多个图像传感器捕获的视频数据，和/或显示给用户的虚拟环境的虚拟对象的图像。在这个示例中，视频帧的部分(120、122、124和126)对应于静态感兴趣区域，其中录制框每个都是位于相应视频帧(110、112、114和116)中心的像素矩形。

　　从视频(110、112、114和116)的帧中提取部分(120、122、124和126)，并将所述部分(120122、124、126)记录为静态视图视频130。例如，静态视图视频可以是mp4文件，并且记录静态视图视频130可以包括将视频帧的部分(120、122、124和126)作为输入传递给编码器进行压缩。

　　然而，静态视图视频130在捕获和/或呈现视频的原始帧(110、112、114和116)期间可能无法考虑用户的视线或焦点的变化，所以可能无法准确地表示用户的混合现实或虚拟现实体验。

　　固定录制区域并不理想，因为用户感兴趣的内容可能发生在录制框之外。所以，可以使用眼动追踪传感器的视线数据动态地识别感兴趣区域，并且可以随着用户的视线移动而移动录制框。

　　在一个实施例中，可以确定感兴趣区域和录制框，使得视线始终处于录制框的中心，直到录制框包含在原始帧中。例如，如果视线偏离视频帧的边缘或更远，则可以将录制框设置在帧边缘上的最近位置，其中录制框依然是全尺寸。录制框可以具有一系列不同的形状，如椭圆形、六边形或矩形。

　　图1B是在注视驱动感兴趣区域中记录视频的过程140。过程140将视频帧序列(110、112、114和116)作为输入，并记录视频帧的相应部分(150、152、154和156)。在所述示例中，视频帧的部分(150、152、154和156)对应于不同时间的感兴趣区域，其中记录框每个都是像素的矩形，其中心位于视频帧(110、112、114和116)的捕获和/或呈现期间用户的注视方向的当前估计附近。

　　例如，在时间上对应于帧110的用户的注视数据可以指示用户在对应于视频110帧的左上部分的方向上注视。基于所述注视数据，可以选择视频110帧中的部分150进行记录。例如，对于在时间上与帧112相对应的用户的注视数据，其可以指示用户在与帧112的右上部分相对应的方向上注视。基于所述注视数据，可以选择视频112的帧的部分152进行记录。

　　又如，对于在时间上对应于帧114的用户的注视数据，其可以指示用户在与帧114的左下部分对应的方向上注视。基于所述注视数据，可以选择视频114的帧的部分154进行记录。

　　又如，对于在时间上与帧116相对应的用户的注视数据，其可以指示用户在与帧116的右下部分相对应的方向上注视。基于所述注视数据，可以选择视频116的帧的部分156进行记录。

　　在一个实施例中，基于注视数据确定的感兴趣区域以及相应的部分或记录框可以在视频帧序列(110、112、114和116)中的相邻帧之间显著地跳跃，并可能导致抖动地记录用户的混合现实或虚拟现实体验。

　　从视频(110、112、114和116)的帧中提取部分(150、152、154和156)，并将所述部分(150、、152、、154和和156)记录为抖动视图视频160，并且记录抖动视图视频160可以包括将视频帧的部分(150、152、154和156)作为输入传递给编码器以进行压缩。抖动视图视频160可以说明在视频捕获的用户注视或焦点变化，但由于用户关于场景的精细快速眼睛运动和/或用户注视数据中的噪点所引起的抖动，后续的浏览体验可能并不愉快。

　　所以在一个实施例中，可以运行平滑或稳定算法来处理来自注视数据的注视中心点序列，以避免记录视频中的抖动，从而获得更令人愉快的记录。

　　图1C是用于在具有平滑注视驱动感兴趣区域的中记录视频的过程170。过程170将视频帧序列(110、112、114和116)作为输入，并记录视频帧的相应部分(180、182、184和186)。

　　在所述示例中，视频帧的部分(180、182、184和186)对应于不同时间的感兴趣区域，其中记录框每个都是像素的矩形，其中心位于视频帧(110、112、114和116)的捕获和/或呈现期间用户的注视方向的平滑估计附近。

　　例如，对于在时间上对应于帧110的用户的平滑注视估计，其可以指示用户在与帧110的左上部分对应的方向上注视。基于所述平滑注视估计，可以选择视频110的帧的部分180进行记录。

　　又如，对于在时间上对应于帧112的用户的平滑的注视估计，其可以指示用户在对应于部分182的方向上注视。其中，所述部分182稍微位于帧112的中心上方和左侧，这可以是在接近帧112的时间的时间窗口内从注视数据的注视位置的插值。基于所述平滑注视估计，可以选择视频112的帧的部分182进行记录。

　　又如，对于在时间上对应于帧114的用户的平滑注视估计，其可以指示用户在对应于部分184的方向上注视。其中，所述部分184稍微低于帧114的中心并位于帧114的中央的右侧，这可以是在接近帧114的时间的时间窗口的注视位置的插值。基于所述平滑注视估计，可以选择视频114的帧的部分184进行记录。

　　因此，基于平滑的注视估计确定的感兴趣区域，以及相应的部分或录制框序列，可以在视频帧(110、112、114和116)的不同区域之间视线平滑过渡，而感兴趣区域的这种平滑过渡可带来混合现实或虚拟现实体验的平滑记录，从而产生平滑的浏览体验。

　　苹果指出，从视频(110、112、114和116)的帧中提取部分(180、182、184和186)，并将部分(180182、184和186)记录为平滑视图视频190，并且记录平滑视图视频190可以包括将视频帧的部分(180、182、184和186)作为输入传递到编码器以进行压缩。平滑视图视频190考虑了在捕获和/或呈现视频的原始帧(110、112、114和116)期间用户的注视或焦点变化，同时抑制注视数据中的噪点并提供用户混合现实或虚拟现实体验的有用表示。

　　图2是记录注视数据200的示例图。用注视中心与帧数绘制注视数据，以显示在混合现实或虚拟现实体验期间测量的注视点演变。为了简单起见，将注视中心表示为一维。实心黑点表示来自具有视线追踪算法的视线跟踪传感器的视线中心数据点。空心圆点表示已使用时间滤波来内插附近数据点，从而确定平滑注视估计的内插注视位置。图2示出了注视数据的线性插值。当帧的对应注视数据离附近时间或帧的数据太远时，插值的注视位置可用作帧的平滑注视估计。绘制在图上的曲线示出了一系列注视中心估计的示例，其可用于识别感兴趣的演变区域。

　　名为“Gaze-driven recording of video”的苹果专利申请最初在2022年5月提交，并在日前由美国专利商标局公布。

苹果AR/VR专利提出根据眼动追踪为用户录制MR效果视频

推荐文章