科技魔方

Meta提出CGH图像视频压缩技术,及压缩复杂全息图像视频的深度学习方法

大模型

2023年10月25日

  全息近眼显示器可以提供高质量的3D图像,但在近眼显示中同时支持宽视场和大视窗的内容分辨率要求非常高。所以,产生的数据存储和流开销可能对实际应用构成重大挑战。

  计算机生成全息(CGH)将光波前的二维切片表示为复值图像,即将全息平面的光场定义为实复值和虚复值的集合。这与传统的图像和视频域不同,并使得全息图具有其他显示技术不支持的独特属性。全息图允许用户聚焦在不同深度而不需要对所显示图像进行任何改变。根据眼睛的焦距,用户眼睛会以不同的方式组合虚实。

  计算机生成全息同时需要高频干涉条纹来产生逼真的景深效果,而为了实现更高的压缩率,传统的图像和视频编解码器通常会丢弃对视觉无关紧要的高频细节。当现有编解码器应用于CGH时,不匹配的设计选择可能导致压缩性能不理想,尤其是需要宽视场和大视窗的的AR/VR应用,因为这可能会进一步放大编解码器的低效率并降低图像质量。

  在名为“Systems and methods for computer-generated hologram image and video compression”的专利申请中,Meta提出了一种用于CGH的图像和视频压缩技术,并提供了用于有效压缩复杂值全息图像和视频的深度学习方法。

  发明描述了一种用于平滑相位复杂全息图图像,并且基于学习的端到端压缩技术。所述方法可以包括学习将全息图压缩成低维latent码的编码器网络和重建全息图的解码器网络。latent代码可以表示压缩数据,其中相似的数据点在空间中更接近。

  在一个实施例中,编码器网络可以作为条件生成对抗网络GAN进行训练。GAN结构中的生成器模型可以从latent空间中获取一个点作为输入并生成新图像。对于全息视频,高质量设置下的编码器可以压缩低频和中频内容,而编码器-解码器网络可以在HEVC视频中的运动矢量的帮助下压缩高频残差(这对3D图像的形成至关重要)。

  在一个实施例中,可以利用由连接复杂全息图的实与虚所创建的六通道张量输入。编码器可产生量化的latent码,并由生成器进一步解码以获得有损重建。使用概率模型和熵编码算法,这种无损数据压缩方案可以使用对数比特率无损地存储潜信号。

  无损重建可以以更大的带宽、存储等为代价重建原始图像,而有损重建会损失图像中的特征,导致带宽减少等。概率模型可以用于训练人工智能编码器-解码器网络,其中编码器生成器和鉴别器可以提供关于有损重建是真是假的竞争性建议,以便系统可以通过更好的选项来改进压缩。

  对于全息图视频压缩,复杂全息图的振幅和相位可以使用H.265压缩成两个常规视频。每个视频中的p帧和b帧可以编码运动矢量,这可以在残差学习期间利用它来补偿任何干扰条纹的损失。

  网络可以训练来预测残差与12通道张量输入。示例全息图图像或视频压缩技术可以在为不同场景压缩平滑相位复杂全息图时实现优于传统图像和视频编解码器的图像质量。通过大幅减少CGH所需存储和/或流式传输的数据,这类图像可用于较小的设备,例如头戴式显示器。

  图2举例说明了内容服务器、计算设备和头戴式显示器设备之间基于端到端压缩的人工智能视频交换。

  图200显示了通过视频交换210向(和从)计算设备/主机204提供包括视频、静止图像和全息图的内容的内容服务器206。计算设备/主机204可以通信耦合到头戴式显示器设备202,并向头戴式显示器设备202提供接收到的内容。

  由于全息图像和视频可能需要存储或交换大量数据以增强用户体验,用于平滑相位复杂全息图像的基于学习的端到端压缩技术可用于视频交换210。

  在一个实施例中,这种技术可以包括学习将全息图压缩成低维latent码的编码器网络和重建全息图的解码器网络。对于全息视频,高质量设置下的编码器可以压缩低、中频内容,而编码器-解码器网络可以借助HEVC视频中的运动矢量压缩高频残差。

  在一个实施例中,可以利用由连接复杂全息图的实与虚所创建的六通道张量输入。对于全息图视频压缩,复杂全息图的振幅和相位可以压缩为两个常规视频,例如使用具有适当质量设置的H.265。

  图3示出了用于视频压缩的编码器框图。功能框图300包括通过减法块303提供给可选估计块304的未压缩输入视频302。可选估计块304的输出可提供给变换块306,然后提供给量化块308。

  可以将量化块308的输出提供给熵编码块310,熵编码块310的输出是压缩输出视频320。量化块308的输出可以提供给逆变换和量化块314。逆变换和量化块314的输出可以通过添加块315提供给环路滤波器316,环路滤波器316的输出同样可以提供给参考帧存储块318。

  预测块312可以从参考帧存储块318接收未压缩的输入视频302作为输入数据。在将输入视频302提供给估计块304之前,可以在减法块303处从输入视频302中减去预测块312的输出。预测块312的输出同时可以在环路滤波器316之前的加法块315处添加到逆变换和量化块314的输出。

  可选估计块304可用于识别和消除可能存在于单个图像之间的时间冗余。当搜索相对于前一个图像的运动时,要编码的图像称为p图像(或p帧)。当在以前的图像和将来的图像中进行搜索时,要编码的图像称为b图像(或b帧)。

  在无法利用运动估计的情况下,可以使用内部估计来消除空间冗余。内部估计可以尝试通过在一组定义的不同方向上从相邻块中推断相邻像素来预测当前块。然后可以对预测块和实际块之间的差异进行编码。

  在一个实施例中,来自估计块304的结果可以从空间域转换为频率域。来自变换块306的系数可以在量化块308处量化。量化是一种有损压缩技术,通过将一系列值压缩到单个量子值来实现。量化可以降低整数系数的整体精度,消除高频系数,同时保持感知质量。量化块308同时可用于恒定比特率应用,以控制输出比特率。

  在一个实施例中,熵编码块310可以将表示运动矢量、量化系数和宏块标头的符号映射到实际位。熵编码可以通过给频繁使用的符号分配较少的比特数和给较少使用的符号分配较多的比特数来提高编码效率。

  在进行熵编码之前,可以对量化系数进行序列化。根据系数最初是运动估计还是内部估计,可以选择不同的扫描模式来创建序列化流。扫描模式可以将系数从低频排列到高频。然后,可以使用游程编码对尾随零进行分组,因为频率较高的量化系数往往为零,从而产生更有效的熵编码。

  图4示出用于视频解压的解码器框图。功能框图400包括提供给熵解码块404的压缩输入视频402,其输出可提供给逆变换和逆量化块406。解码后的输入视频还可提供给预测块416和运动补偿块418,其输出可提供给选择块414。

  选择块414的输出和逆变换、逆量化块406可在加法块408处组合,其输出可提供给环路滤波器410(以及预测块416)。环路滤波器410的输出可提供给解码/缓冲块412,其可提供未压缩的输出视频420作为输出。同时,可以将解码/缓冲块412的输出提供给运动补偿块418。

  在一个实施例中,熵解码块404可以从比特流中提取量化系数和运动矢量,并将量化系数提供给逆变换和逆量化块406进行逆变换和逆量化。熵解码块404还可以向运动补偿块提供运动矢量信息。

  所述选择块414可选择性地提供所述预测块416的输出或所述运动补偿块418的输出,以便与所述加法块408处的逆量化图像数据相结合。所述组合数据可以连同来自所述熵解码块404的系数一起作为输入提供给所述预测块414。

  图5说明了基于人工智能的端到端全息图压缩系统。图500显示了通过连接以图像模式502提供给编码器510的复杂全息图实虚而创建的张量输入506。编码器510与量化器和变换块512、516一起可产生量化latent,而latent可由生成器518进一步解码以获得有损重建。

  鉴别器524可以使用概率模型514产生一个标量值,以指示输入为真或假(合成)的概率。通过提供双张量输入508,可以在视频模式504中执行类似的过程。其中,双张量输入508包括压缩的幅度和相位到两个常规视频中。

  在一个示例中,编码器510 (E)可以为全息图的实分量和虚分量编码一个latent码。可以利用通过连接复杂全息图实虚而创建的六通道张量输入。latent码可以通过量化器512处的Q进行量化,熵可以通过概率模型514(P)生成的变换块516处的侧信息进行编码。

  然后,latent码可以由生成器518 (G)解码,并由鉴别器524 (D)进行分类。对于视频压缩,编码器510 (E)可以取H.265压缩帧508及其相关残差,并且编码仅用于重建残差的latent码。然后,可将重构残差加回H.265帧(522)以提高全息视频质量。

  另外,为了实现系统紧凑性,全息显示器可以从全息图平面偏移3D图像,以减少目镜和空间光调制器之间的气隙。

  因此,可以训练示例系统对5毫米、10毫米和15毫米等的偏移量进行训练,从而评估其鲁棒性。

  在一个实施例中,可以对概率模式使用超先验模型,并且可以使用编码器510和鉴别器516的损失函数L(E, G)对编码器510和鉴别器516进行100万次迭代的预训练。

  对于全息图图像,示例系统可以忠实地保留中频和高频条纹细节。在特定场景中,由于前景和背景主体交错而具有严重混合的特征,随机定向对象之间的相互作用可能会使聚合的条纹远离轮廓形状。示例系统可以通过焦点堆栈损失来处理这种相互作用,并在重新聚焦后保留产生清晰前景的主要特征。

  在具有快速运动和非刚性变形(相对静止的背景)的对象的全息视频示例场景中,系统可以通过运动补偿保持对象的特征清晰度,将p/b帧的每像素比特率降低27%/39%。在另一个示例场景中,camera可以进行旋转运动,并且所有像素都以与camera距离成反比的比例平移,而系统通过使用运动补偿依然可以提供6%/14%的bpp减少(对于p/b帧)。

  因此,基于人工智能的端到端全息图压缩系统示例可以在为不同场景压缩平滑相位复杂全息图时实现优于传统图像和视频编解码器的图像质量。

  图6A说明了采用基于端到端全息图图像压缩的人工智能方法的流程图。

  在可选块602中,基于人工智能的端到端全息图压缩系统可以从复杂全息图的实与虚创建六通道张量输入。

  在604,编码器510可以从输入编码latent码。在606,量化器512可以量化所编码的latent码。在608处,变换块516可以用概率模型514的信息对量化的latent码进行熵码。

  在传输所述压缩图像650之后,生成器518可在610解码所述编码的latent码。在612,鉴别器622可以对解码的latent码进行分类以获得未压缩的图像。

  图6B举例说明了采用基于人工智能的端到端全息视频压缩方法流程图。

  在可选块622,基于人工智能的端到端全息图压缩系统可以从复杂全息图的实和虚创建12通道张量输入。在624,编码器510可以接收来自全息视频的帧和相关残差。在626,编码器510可以仅为残差编码潜在代码。

  在所述压缩视频传输650之后,生成器518可解码所述编码的latent码以重构所述626的残差。在630,鉴别器622可将重构残差与相关帧组合以获得未压缩的全息视频。

  名为“Systems and methods for computer-generated hologram image and video compression”的Meta专利申请最初在2022年3月提交,并在日前由美国专利商标局公布。

+1

来源:映维网

延展资讯