NaturalSpeech 3：可克隆音色和感情的语音合成系统_科技魔方-中文AI大模型门户网站

　　随着大规模文本到语音(TTS)模型的发展，取得了显著进展，但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性(例如内容、韵律、音色和声学细节)，这为生成带来了巨大挑战。

　　为了解决这一问题，NaturalSpeech3提出了一种创新的TTS系统，采用了新颖的分解扩散模型，以零样本的方式生成自然语音。也就是提供文本和参考音频，可以克隆音色和感情，值得注意的是，NaturalSpeech3目前只有论文。

　　语音建模的关键创新点之一是使用神经编解码器，包含分解的向量量化(FVQ)，将语音波形分解成内容、韵律、音色和声学细节等子空间。** 这种分解设计使得NaturalSpeech3能够以分治的方式高效地建模复杂的语音。此外，他们还提出了分解的扩散模型，用于根据相应提示生成每个子空间中的属性。实验证明，NaturalSpeech3在质量、相似度、韵律和可懂度等方面优于现有TTS系统。

　　在LibriSpeech基准测试中，NaturalSpeech3的性能明显超越了其他系统。对比结果显示，NaturalSpeech3在相似度(Sim-O)、错误率(WER)、音质(CMOS)、语音质量(SMOS)等方面均取得了显著的优势。此外，通过扩大模型规模和训练数据，NaturalSpeech3在200K小时的训练数据和10亿参数的规模下取得了更好的性能。

　　除了LibriSpeech基准测试，NaturalSpeech3还在Ravdess基准测试上表现出色。在MCD(Mel频率倒谱系数)方面，相较于其他系统，NaturalSpeech3的平均MCD显著降低，表现出更好的语音合成效果。

　　值得注意的是，由于该模型能够以高度相似的说话者模仿真实语音，存在潜在的滥用风险，例如欺骗语音识别或冒充特定说话者。因此，在实验中，假定用户同意成为语音合成的目标说话者。为了防止滥用，研究者呼吁开发强大的合成语音检测模型，并建立一个系统，让个体报告任何疑似滥用行为。这一研究符合微软的负责任AI原则。

NaturalSpeech 3：可克隆音色和感情的语音合成系统

延展资讯