有视频编码系统是使用比特率控制算法来确定向视频帧的特定区域分配多少比特,从而确保给定视频编码标准的统一图像质量。然而,大多数比特率控制算法不能保证分配给感兴趣区域的比特多于分配给背景的比特。尽管存在能够确定感兴趣区域,并将更多比特分配给感兴趣区域而不是背景的比特率控制算法,但它们通常在计算成本昂贵且操作耗时。
显然,这是一个有待改进的问题,尤其是对于要求实时处理的混合现实视频而言。在名为“Adaptive quantization matrix for extended reality video encoding”的专利申请中,苹果就提出了自己的解决方案。
概括来说,这是一种基于注视点追踪的编码方法。视频编码系统可以使用虚拟对象和背景图像的已知区域来确定用户的感兴趣区域,而不是对XR视频中的每一帧执行计算成本昂贵且耗时的图像分析,并基于每一帧的图像内容来确定感兴趣区域。然后,视频编码系统可以根据对应的量化参数对不同区域进行编码,将更多的比特分配给用户感兴趣的区域,而不是分配给背景图像的其余部分。以这种自适应量化矩阵方式进行编码,可以优化计算成本和操作时间。
在一个实施例中,可以获得包括背景图像和至少一个虚拟对象的XR视频帧。可以从图像渲染器获得背景图像的第一区域,而至少一个虚拟对象叠加在所述第一区域。XR视频帧可以划分为至少一个虚拟区域和至少一个真实区域。
所述至少一个虚拟区域包括背景图像的第一区域和所述至少个虚拟对象。所述至少一个真实区域包括背景图像的第二区域。对于至少一个虚拟区域中的每一个,可以基于与虚拟区域相关联的初始量化参数来确定对应的第一量化参数。
对于至少一个真实区域中的每一个,可以基于与真实区域相关联的初始量化参数来确定对应的第二量化参数。
可以基于对应的第一量化参数对至少一个虚拟区域中的每一个进行编码,并且可以基于对应第二量化参数对所述至少一个真实区域中的每个进行编码。
图1示出了XR视频帧100。XR视频帧100包括背景图像140和虚拟对象150,背景图像140示出真实对象,例如梳妆台110、地毯120和桌子130,虚拟对象150与背景图像140重叠,使得虚拟对象150出现在桌子130的上方。
对于XR视频,用户一般关注虚拟对象和虚拟对象周围的区域,而不是背景环境。例如,用户一般会关注虚拟对象150及其周遭,而不是梳妆台110。
视频编码系统可以使用虚拟对象150和背景图像140的已知区域来确定用户的感兴趣区域,而不是对XR视频中的每一帧执行计算成本昂贵且耗时的图像分析,并基于每一帧的图像内容来确定感兴趣区域。
基于虚拟对象150及其在背景图像140上的位置,视频编码系统可以将更多的比特分配给用户感兴趣的区域,而不是分配给背景图像140的其余部分。
图2示出了用于基于自适应量化矩阵对XR视频帧100进行编码的示例过程200。
在步骤210,电子设备获得包括背景图像140和至少一个虚拟对象150的XR视频帧100。在步骤220,电子设备从图像渲染器获得背景图像140的第一区域,虚拟对象150叠加在所述第一区域。例如,背景图像140的第一区域可以指示地毯120和桌子130的虚拟对象150所在的部分。
在步骤230,电子设备基于背景图像140的第一区域将XR视频帧100划分为至少一个虚拟区域和至少一个真实区域。虚拟区域包括虚拟对象的至少一部分。虚拟区域可以进一步包括整个虚拟对象,并且不包括背景图像或背景图像的一部分。例如,虚拟区域可以包括虚拟对象150以及地毯120和桌子130的一部分,而真实区域可以包括背景图像140的其余部分。
在步骤240,电子设备基于与虚拟区域相关联的初始量化参数,为至少一个虚拟区域中的每一个确定对应的第一量化参数。例如,电子设备可以确定特定虚拟区域的图像复杂度大于与虚拟区域初始量化参数相关联的参考虚拟区域的视频复杂度,并且将初始量化参数减小成比例的量。
在步骤250,电子设备基于与真实区域相关联的初始量化参数,为至少一个真实区域中的每一个确定对应的第二量化参数。例如,电子设备可以确定特定真实区域的图像复杂度小于与真实区域初始量化参数相关联的参考真实区域的复杂度,并将初始量化参数增加成比例的量。
与虚拟区域关联的初始量化参数可以小于与真实区域关联的原始量化参数,以指示虚拟区域中比真实区域中更大量的细节和复杂性。换句话说,可以选择与虚拟区域和真实区域相关联的初始量化参数,使得在XR视频帧100的视频编码期间,与用户感兴趣区域相对应的虚拟区域可以分配更多的比特。
在步骤260,电子设备基于第一量化参数对至少一个虚拟区域进行编码,并且基于第二量化参数对至少一个真实区域进行编码,并向所述至少一个虚拟区域分配多于真实区域的比特。
图3对应图1XR视频帧100,但其划分为虚拟区域310和真实区域320。
在过程200的步骤230中,电子设备将XR视频帧100划分为虚拟区域310和真实区域320。在所述示例中,虚拟区域310包括整个虚拟对象150和背景图像140的一部分,但在其他实施例中,虚拟区310可以包括整个虚拟对象150但省略背景图像140部分,或者包括虚拟对象150的一部分和背景图像的一部分,或者包括虚拟对象的一部分但省略背景图像140的一部分。真实区域320中的负空间指示虚拟区域310位于何处。虚拟区域310和真实区域320可以划分为一个或多个附加的较小区域,以允许基于区域310和320的不同部分的复杂性、对比度等来进一步细化量化参数。
图4示出了基于自适应量化矩阵和来自注视点追踪用户界面的输入来编码XR视频帧。
流程图400以步骤210和220开始。在步骤230中将XR视频帧划分为至少一个虚拟区域和至少一个真实区域可以可选地包括步骤410和420。
在步骤410,电子设备例如经由注视点追踪用户界面、基于光标的用户界面等获得指示用户焦点区域的输入。例如,在XR视频帧包括多个虚拟对象的情况下,用户焦点区域的输入可以指示用户正在注视多个虚拟对象中的哪个特定虚拟对象。
在步骤420,电子设备基于焦点区域将XR视频帧划分为至少一个虚拟区域和至少一个真实区域。电子设备可以将特定虚拟对象叠加在其上的相应部分划分为唯一虚拟区域,并且将多个虚拟对象中的剩余虚拟对象划分为一个或多个附加虚拟区域。
类似地,电子设备可以将未包括在真实区域中的背景图像的剩余部分划分为一个或多个附加的较小区域,以基于背景图像的其余部分的不同区域的复杂性、对比度等来进一步细化量化参数。
在步骤240,对于每个虚拟区域,根据与虚拟区域相关联的初始量化参数来确定对应的第一量化参数可以可选地包括步骤430。
在步骤430,电子设备基于由来自注视点追踪用户界面输入指示的焦点区域来确定对应的第一量化参数。例如,包括焦点区域的虚拟区域的第一量化参数可以小于其他虚拟区域的第量化参数。
换句话说,与其他虚拟区域相比,包括焦点区域的虚拟区域可以分配更多的比特,并以更高的分辨率进行编码。
然后,电子设备进行到步骤250和260,如上参考图2所述,并且基于在步骤420中划分的XR视频帧的区域和在步骤430中确定的相应的第一量化参数。
名为“Adaptive quantization matrix for extended reality video encoding”的苹果专利申请最初在2022年8月提交,并在日前由美国专利商标局公布。