随意转换声音，ElevenLabs发布“语音转语音”_科技魔方-中文AI大模型门户网站

　　本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN)，作者:AIGC开放社区。

　　语音生成式AI平台Elevenlabs在官网发布了“语音转语音”(STS)功能，可帮助用户将语音自动转换成别的语音，例如，上传了一段男声语音，可以自动转换成女声、老年或者儿童的声音。

　　传统的语音转换方法是，需要采集音频样本，然后提取基频、共振峰、时域和频域特征等，再进行去噪、归一化，整个流程非常繁琐复杂，而STS直接实现一键语音转换。

　　此外，STS还能对转换声音的强度、语气、表现力、风格进行可视化控制。不过STS目前只能转换24秒的语音，对于短广告、抖音、快手等短视频平台来说是足够用了。

　　STS技术简单介绍

　　Elevenlabs表示，STS的技术灵感来自人脸转换。我们经常会看到人脸合成应用，将自己的图像与某位明星的图像相结合，生成全新的人脸。

　　简单来说，实现这一技术是获取一张面部图片并映射其属性，然后通过神经网络和深度学习对性别、年龄、发型等属性进行修改、匹配，以完全特定的合成目标。

　　STS采取了同样的转换策略，提取用户上传语音的情感、语气和表达方式等，然后与转换目标语音进行比对、微调完成音频的过渡与匹配。

　　同时支持用户对语音进行可视化控制，例如，修改强度、音峰、情感等参数。

　　STS使用方法

　　STS的使用方法非常简单全程可视化控制，「AIGC开放社区」根据其免费账号体验了一下。

　　1)登录https://elevenlabs.io/voice-changer然后选择“Speech to Speech”语音到语音转换。

　　2)上传你要转换的语音，这里我们选择一个男性声音的三国演义介绍。

　　三国--原音，AIGC开放社区，23秒

　　上传的男声原音

　　3)对转换目标的参数进行设定，包括稳定器、清晰度、相似度、风格等，也可以直接选择“Add Voice”添加系统内置语音。这里我们选择一个Domi女声。

　　4)全部设定完毕后，点击下方的“Generate”开始自动合成。完毕后，可以直接下载语音。

　　目前，只能转换24秒的语音，但Elevenlabs表示，未来会突破这个限制。

随意转换声音，ElevenLabs发布“语音转语音”