科技魔方

超快音效生成模型TangoFlux:仅需3秒钟就能生成30秒长音频

软件应用

2025年01月02日

  TANGOFLUX是一款革命性的文本音频生成模型,能够在短短3.7秒内生成高达30秒的高质量音频,展现出卓越的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-Ranked Preference Optimization(CRPO),以提升生成音频的质量和对齐性能。

  TANGOFLUX是一款高效的文本音频生成模型,能够在3.7秒内生成30秒的高质量音频。

  提出了CLAP-Ranked Preference Optimization(CRPO)框架,以优化模型性能和音频偏好数据。

  所有代码和模型已开源,旨在推动文本音频生成的研究与应用。

+1

来源:科技魔方

延展资讯