OpenAI 近日分享了一个名为 Voice Engine语音合成模型的初步结果。Voice Engine支持语音克隆,但是未开放使用,提供给了HeyGen等公司使用。
Voice Engine 模型利用文本输入和15秒的音频样本生成接近原始说话者的自然语音,令人印象深刻的是,即使只使用了一个短短的音频样本,Voice Engine 生成的语音仍然能够传达情感,听起来非常逼真。这个小规模测试展示了 Voice Engine 的潜力,尽管 OpenAI 仍在谨慎地评估是否以及如何在更广泛的范围内发布这项技术。
早期应用表明 Voice Engine 在多个领域具有广阔的应用前景,如为非阅读者和儿童提供朗读帮助、翻译内容、改善偏远地区的服务交付、支持无法言语的人群以及帮助患有言语障碍的患者康复。
尽管合成语音技术的潜在风险引起人们的担忧,OpenAI 已经采取了一系列安全措施和预防措施,以确保技术的安全使用,如禁止未经允许模仿他人的声音、要求原始发言者明确同意使用其音频样本等。
在未来,OpenAI 希望通过与各方合作,加强社会对合成语音技术带来的挑战的防范,促进对合成语音技术的了解和应用。