在OpenAI引领的多模态时代，专注语音的ElevenLabs如何生存？

　　本文来自于微信公众号阿尔法公社(ID:alphastartups)，作者:阿尔法公社。

　　2024年2月，OpenAI的视觉大模型Sora横空出世，这是一个历史性的里程碑，视觉生成领域将有一次大的技术和商业革命。

　　在Sora发布几天后，AI语音创业公司ElevenLabs为Sora的演示视频完成了精准匹配的配音，AI视频“以假乱真”的制作链条实现了闭环。这些视频利用他们即将上线的AI Sound Effects功能制作，该功能可以让用户输入Prompt自动生成声音。

　　中国舞龙表演，敲锣打鼓人声鼎沸(视频:Sora，音频:ElevenLabs)

　　2022年创立的ElevenLabs在6个月时间内连续获得两轮融资，在2024年1月的8000万美元B轮融资中，它的估值增长了10倍，达到了11亿美元。

　　在A轮和B轮的两轮投资中，领投方都是a16z、前GitHub首席执行官Nat Friedman和前苹果人工智能领导者Daniel Gross。A轮的参投方包括Instagram联合创始人Mike Krieger、Oculus联合创始人Brendan Iribe、DeepMind及Inflection AI联合创始人Mustafa Suleyman;B轮投资的参投方包括SV Angel、红杉资本、BroadLight Capital和Credo Ventures。

　　ElevenLabs的联合创始人兼CEO Mati Staniszewski表示:“新融资将用于继续构建ElevenLabs尖端的声音人工智能研究中心，并推出一系列产品，以支持特定市场垂直领域，如出版、游戏、娱乐和对话应用。”

　　如果您对人工智能的新浪潮有兴趣，有见解，有创业意愿，欢迎扫码添加“阿尔法小助理”，备注您的“姓名+职位”，与我们深度连接。

　　来自波兰的创始人用文本-语音模型实现声音克隆

　　ElevenLabs由前谷歌机器学习工程师Piotr Dabkowski和前Palantir部署策略师Mati Staniszewski(CEO)在2022年创立，他们是童年的好友，出生和成长于波兰，都在英国完成了大学教育。其中Mati Staniszewski毕业于帝国理工大学，曾经两次创业，而Piotr Dabkowski的本科和硕士分别毕业于牛津和剑桥大学。

　　当新一轮AI浪潮萌芽时，他们决定一起创业，基于对儿时外国电影配音低劣质量的“痛苦回忆”，这对搭档决定搭建一个由人工智能驱动的高质量音频平台，于是ElevenLabs诞生了。

　　在初期阶段，ElevenLabs凭借文本到语音模型Eleven Multilingual引起大众注意，这个模型能合成听起来自然的英语AI声音。随后，该模型扩展到Eleven Multilingual v1和v2，引入了对更多语言的支持，包括波兰语、德语、西班牙语、法语、意大利语、葡萄牙语和印地语等。

　　同时，ElevenLabs还开发了一个产品—声音实验室，用户可以在其中克隆自己的声音或生成全新的合成声音(通过随机采样声音参数)。这使他们能够将自己选择的文本，如播客剧本，转换成他们偏好的声音和语言的音频内容。

　　ElevenLabs创始人Mati Staniszewski在接受采访时表示:“ElevenLabs的技术结合了上下文意识和高压缩技术，以提供超逼真的语音。该公司的专有模型不是一句句地生成语句，而是建立在理解单词关系的基础上，并根据更广泛的上下文调整语音输出。它也没有硬编码的特征，这意味着它可以在生成语音时动态预测数千种声音特征。”

　　根据Market US的数据，音频类工具的全球市场规模在2022年为12亿美元，预计到2032年将接近50亿美元，复合年增长率高于15.40%。

　　ElevenLabs具有AI时代创业公司的组织特征，在B轮融资时，它的团队仅包括40名远程工作人员，获得新融资后，他们计划将团队逐渐扩展到100人。

　　连续两轮领投ElevenLabs的投资机构a16z表示:“我们坚信生成式人工智能工具将彻底改变创意套件—通过让专业人士创作出更多高质量的内容，释放更多创造力，并且由于工具更易于使用、更直观，使得大量全新的创作者得以赋能。我们很高兴能加入ElevenLabs董事会，并与Nat Friedman和Daniel Gross共同领投他们。”

　　ElevenLabs创始人Mati Staniszewski总结道:“我们的雄心依然不变—通过打破语言和沟通障碍，改变我们与内容的互动方式。我们正在构建尖端技术，使内容跨越语言和声音，让每个人都能与重要的信息和故事建立联系。我们到目前为止的进展证明了我们敬业的团队和投资者的价值，虽然这仅仅是我们旅程的开始，但我们共同在塑造无障碍和沟通未来的道路。”

　　模型之外，可靠性和可控性是赢取客户的关键

　　对于影视，游戏，媒体等行业的开发者和创意工作者，将高质量的声音融入他们的作品一直是耗时且成本高昂的。

　　虽然文本转语音(TTS)技术已经存在了几十年，但是此前的技术合成的语音呆板且合成感重。想要获得个性化和清晰的语音，仍然需要专业设备，专业配音演员，例如大部分游戏设计师只能负担得起主要角色的配音演员，所以让非玩家角色保持沉默。

　　ElevenLabs致力于改变这一现状，通过其专有的语音合成、声音设计和克隆技术，让每个程序都拥有声音。通过几次点击，他们的先进语音AI基础模型能够生成听起来极其接近人声的语音，具有适当的停顿、语调和呼吸节奏。用户甚至可以从30秒的音频片段中克隆自己的声音。

　　Eleven Multilingual基础模型

　　ElevenLabs的技术基础是先进语音AI基础模型，它被命名为Eleven Multilingual，在2023年8月，它被升级到V2版本。ElevenLabs分析了人类语音的标记，构建了新的机制来理解上下文和在语音生成中传达情感，以及合成新的、独特的声音。

　　通过Eleven Multilingual v2，当文本输入到ElevenLabs的文本到语音平台时，新模型可以自动识别近30种书面语言，并以前所未有的真实性生成这些语言的语音。这些语言包括了世界上被使用最多的语言，当然也包括中文。

　　不但可以用文字生成语音，还可以语音生成语音

　　它的语音合成(SPEECH SYNTHESIS)产品包括一系列强大功能。

　　Text to Speech和Speech to Speech都是针对普通个人用户的，其中Speech to Speech是新推出的功能，它可以让用户在声音稳定性，声音清晰度和声音风格上进行调节。

　　在Voice Lab中声音克隆，仅需很短的样本，就能克隆用户的声音，并且很快就能听到结果。不过这是一个收费功能，它同样分个人版和专业版。

　　Projects则是一个针对专业用户和商业/机构用户的功能，它能够支持更长的文本和精确编辑，用户可以用它制作有声书等面向商业化的作品。目前这个功能的客户包括了Storytel、《华盛顿邮报》、莱茵邮报、Curio等。

　　Dubbing是与影视行业更贴近的，它能够自动为视频/音频配音，并能够快速翻译，因为Eleven Multilingual V2模型的能力，它能够支持29种语言。

　　针对更专业的用户，它还有Dubbing Studio，让用户可以对配音进行更精细的控制和制作。

　　针对企业客户，ElevenLabs也有自己的API，方便这些客户将AI音频能力嵌入自己的产品和应用中。例如此前我们详细介绍过的Inworld(请参考:融资5000万估值5亿美元，智能助手的先驱用AI让游戏NPC拥有情感和记忆|AlphaFounders)，就利用ElevenLabs的产品为自己的AI NPC增添了声音功能，让玩家的沉浸感更强。此外，ElevenLabs也与电影制作人Nik Shaw合力打造动漫作品，与Y7联手制作科幻电影。

　　客户与商业模式

　　ElevenLabs在商业化上是个人用户和企业客户两手抓的策略。

　　针对个人用户，它有免费的服务引流(目前已经有超过百万的注册用户)，然后针对不同专业程度的个人用户收费，推出了Starter(每月1-5美元)，Creator(每月11-22美元)，Independent Publisher(每月99美元)三档收费。

　　针对企业用户，有Growing Business(每月330美元)和Enterprise(按需定制收费)。它会按照功能和用量来区分不同等级的会员。

　　在2023年，扩大了B2B方面的商业投入和合作。目前在出版、游戏、媒体和垂直对话式AI公司等领域积累了不少标杆客户。

　　出版领域:Storytel、《华盛顿邮报》、《莱茵邮报》、Curio

　　对话式AI:FlowGPT、SimpleTalk AI、Ollang、VoiceDrop、Vana

　　媒体与娱乐:Wondershare Filmora、Futuri Media、TheSoul Publishing

　　游戏行业:Paradox Interactive、网易、Inworld

　　用安全措施和语音库市场应对争议

　　ElevenLabs目前是AI音频领域的领头羊，它也面临着最大的争议，这争议主要来自两个方面。

　　第一是担心不法分子利用ElevenLabs的技术作恶，例如克隆名人的声音然后伪造视频或音频发布一些类似暴力威胁、种族主义等有争议的内容。而且目前ElevenLabs生成的声音也能通过银行的声音验证。

　　ElevenLabs对此的应对是引入一系列安全措施，例如将声音克隆限制在付费账户中，禁止反复违反其服务条款的用户。他们还一种新的AI检测工具，能够检测上传的音频样本中是否包含来自ElevenLabs的AI生成内容。

　　第二是有人担心ElevenLabs抢了配音演员的饭碗，就像好莱坞的演员担心被AI视频生成抢饭碗一样。ElevenLabs的应对是推出语音库市场(Voice Library marketplace)。

　　语音库市场为用户提供一个安全的平台，让他们能够从自己的 AI 版本声音中获得收入。用户可以创建他们的专业 AI 语音副本，进行验证，并通过语音库分享。当其他用户使用这些经过验证的声音时，原始创作者将获得报酬。

　　多模态模型和大公司会把ElevenLabs们拍在沙滩上么?

　　当OpenAI的GPT-4V出现后，各种多模态AI模型涌现，Sora的出现，也让越来越多的人认为多模态模型是走向AGI(通用人工智能)的正确道路。那么随着多模态模型支持的模态越来越多，单一模态的AI语音模型会不会失去存在的价值?

　　从技术上看，多模态可能比单一模态好，但是从商业上却不一定，因为单一模态在可控性和成本上会比多模态更好些(至少在近几年)，这给了创业者们创业空间。

　　此外，AI语音虽然不像AI视觉那样“光鲜”，但它仍有众多的应用场景。例如影视配音(文首已经展示)，游戏配音，有声书，新闻，播客，会议转录等。

　　所以ElevenLabs其实有不少竞争对手，例如Papercup、Deepdub、Acapela、Respeecher和Voice.ai等创业公司，以及Amazon和OpenAI这些领先公司。那么面对资金更充足，人才更集中的Amazon和OpenAI，ElevenLabs会被"拍在沙滩上"么?

　　领先的公司要在关键领域确保自己的领导地位，突破技术，建立平台，也会做垂类应用，但更重视吸引广大开发者参与，而不是有点突破就摊大饼，把应用都做完。这一点，在之前的文章中就分析过(请参考:ChatGPT创业:狮子和土狼一起奔向光明|投资人说)。

　　ElevenLabs有自己的模型，有针对个人和大公司的产品，还有语料库市场经营生态。目前AI的商业格局还未定局，这种既掌握底层技术又拥有商业场景的公司，会在未来的发展中拥有自己的一席之地。

在OpenAI引领的多模态时代，专注语音的ElevenLabs如何生存？

延展资讯