本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区。
语音生成式AI平台Elevenlabs在官网发布了“语音转语音”(STS)功能,可帮助用户将语音自动转换成别的语音,例如,上传了一段男声语音,可以自动转换成女声、老年或者儿童的声音。
传统的语音转换方法是,需要采集音频样本,然后提取基频、共振峰、时域和频域特征等,再进行去噪、归一化,整个流程非常繁琐复杂,而STS直接实现一键语音转换。
此外,STS还能对转换声音的强度、语气、表现力、风格进行可视化控制。不过STS目前只能转换24秒的语音,对于短广告、抖音、快手等短视频平台来说是足够用了。
STS技术简单介绍
Elevenlabs表示,STS的技术灵感来自人脸转换。我们经常会看到人脸合成应用,将自己的图像与某位明星的图像相结合,生成全新的人脸。
简单来说,实现这一技术是获取一张面部图片并映射其属性,然后通过神经网络和深度学习对性别、年龄、发型等属性进行修改、匹配,以完全特定的合成目标。
STS采取了同样的转换策略,提取用户上传语音的情感、语气和表达方式等,然后与转换目标语音进行比对、微调完成音频的过渡与匹配。
同时支持用户对语音进行可视化控制,例如,修改强度、音峰、情感等参数。
STS使用方法
STS的使用方法非常简单全程可视化控制,「AIGC开放社区」根据其免费账号体验了一下。
1)登录https://elevenlabs.io/voice-changer然后选择“Speech to Speech”语音到语音转换。
2)上传你要转换的语音,这里我们选择一个男性声音的三国演义介绍。
三国--原音,AIGC开放社区,23秒
上传的男声原音
3)对转换目标的参数进行设定,包括稳定器、清晰度、相似度、风格等,也可以直接选择“Add Voice”添加系统内置语音。这里我们选择一个Domi女声。
4)全部设定完毕后,点击下方的“Generate”开始自动合成。完毕后,可以直接下载语音。
目前,只能转换24秒的语音,但Elevenlabs表示,未来会突破这个限制。