Adobe 发布 VideoGigaGAN 超分辨率视频模型_科技魔方-中文AI大模型门户网站

　　全球多媒体巨头 Adobe 与马里兰大学的研究人员合作推出了新的超分辨率视频模型 VideoGigaGAN。该模型兼顾帧率连贯性和丰富细节，解决了当前超分辨率视频模型的难题。

　　在过去的超分辨率视频转换中，存在两大难题:一是保持输出视频帧在时间上的连贯性，确保帧到帧之间平滑过渡，不出现闪烁或抖动的情况;二是在放大的视频帧中重建高频细节，提供清晰和逼真的纹理效果。然而，目前的超分辨率视频模型虽然在保持时间连贯性方面取得了进展，但以牺牲图像清晰度为代价，整体模糊缺乏更加生动的细节和纹理。

　　VideoGigaGAN 是基于 Adobe、卡内基梅隆大学和浦项科技大学之前推出的大规模图像超分辨率模型 GigaGAN 的基础之上开发而成。该模型通过添加时序卷积和自注意力层，将 GigaGAN 模型从2D 图像扩展为3D 视频模型，同时引入了光流引导模块，更好地对齐不同帧的特征，提高视频的时间一致性和细节丰富性。

　　时序卷积模块使模型能够捕捉视频帧之间的时间依赖性，从而提高超分辨率视频的时间一致性。自注意力层在解码器块中提取空间上的细节和纹理信息，同时在时间上增强一致性。光流引导模块利用光流来预测视频帧中的像素级运动，保持特征的空间一致性，生成清晰的超分辨率视频。

　　VideoGigaGAN 的技术原理：

　　基于 GigaGAN：VideoGigaGAN 基于大规模图像超分辨率模型 GigaGAN，通过将其扩展为视频模型来实现视频超分辨率处理。

　　时域注意力：在解码器块中添加时域注意力层，以确保在视频超分辨率处理过程中保持时域一致性。

　　特征传播模块：利用特征传播模块来增强一致性，将特征从视频的不同帧之间进行传播，以保持视频的连贯性。

　　抗锯齿处理：通过在编码器的下采样层中引入抗锯齿模块，有效抑制视频中的锯齿状伪影，改善视觉效果。

　　细节补偿：通过直接将高频特征通过跳跃连接传输到解码器层，以补偿在模糊处理过程中丢失的细节。

　　通过以上技术原理，VideoGigaGAN 能够在视频超分辨率处理中实现高质量的细节丰富的输出，并保持时域一致性。

　　VideoGigaGAN 具有以下功能特点：

　　视频超分辨率：能够将低分辨率的视频提升至高分辨率，增加视频细节和清晰度。

　　时域一致性：在进行视频超分辨率处理时，能够保持视频的时域一致性，避免出现时间上的不连续或跳跃。

　　丰富的细节处理：能够处理视频中的丰富细节，包括纹理、边缘和高频信息，提升视频质量。