据 HuggingFace 报道,Meta AI 近日发表论文,推出了一个名为 FoleyGen 的音频生成系统。
FoleyGen 利用现成的神经音频编解码器在波形和离散标记之间进行双向转换。音频标记的生成由单个变换器模型完成,该模型以从视觉编码器中提取的视觉特征为条件。
VGGSound 数据集上的实验结果表明, FoleyGen 在所有客观指标和人类评估方面都优于以前的系统。
据 HuggingFace 报道,Meta AI 近日发表论文,推出了一个名为 FoleyGen 的音频生成系统。
FoleyGen 利用现成的神经音频编解码器在波形和离散标记之间进行双向转换。音频标记的生成由单个变换器模型完成,该模型以从视觉编码器中提取的视觉特征为条件。
VGGSound 数据集上的实验结果表明, FoleyGen 在所有客观指标和人类评估方面都优于以前的系统。