ElevenLabs推Flash语音对话模型:仅75毫秒延迟支持32种语言

首页 更多场景 正文: ElevenLabs推Flash语音对话模型:仅75毫秒延迟支持32种语言; 更多场景

2024年12月20日

点赞; 　　ElevenLabs近期推出了其最新的人声合成模型Flash，声称这是迄今为止最快的文本转语音解决方案，生成语音的延迟仅为75毫秒，特别适合低延迟的对话式语音助手。

　　Flash模型分为两个版本，其中Flash v2仅支持英语，而Flash v2.5则支持32种语言。尽管在音质和情感深度上稍逊于Turbo模型，但Flash在盲测中表现优异，成为速度最快的选择。

　　Flash模型生成语音的延迟仅为75毫秒，适合低延迟的对话式语音助手。

　　Flash v2.5支持32种语言，用户生成每两个字符消耗1个积分。

　　在盲测中，Flash模型表现优于其他同类产品，成为速度最快的文本转语音解决方案。

+1; ElevenLabs 大模型语音; 来源：科技魔方