Oute AI 最近发布了一种名为 OuteTTS-0.1-350M 的文本转语音合成方法,采用纯语言建模,简化了 TTS 方法,具有零样本语音克隆功能,适用于广泛的应用领域。该方法基于 LLaMa 架构,使用 WavTokenizer 生成音频标记,性能可与更大、更复杂的 TTS 系统相媲美,具有高效率和可访问性。
OuteTTS-0.1-350M 利用纯语言建模,无需外部适配器,提供简化的 TTS 方法。
OuteTTS-0.1-350M 使用 WavTokenizer 直接生成音频标记,流程更高效。
OuteTTS-0.1-350M 具有零样本语音克隆功能,与 llama.cpp 兼容,适用于实时应用。