TANGOFLUX是一款革命性的文本音频生成模型,能够在短短3.7秒内生成高达30秒的高质量音频,展现出卓越的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-Ranked Preference Optimization(CRPO),以提升生成音频的质量和对齐性能。
TANGOFLUX是一款高效的文本音频生成模型,能够在3.7秒内生成30秒的高质量音频。
提出了CLAP-Ranked Preference Optimization(CRPO)框架,以优化模型性能和音频偏好数据。
所有代码和模型已开源,旨在推动文本音频生成的研究与应用。