出门问问与多所顶尖高校合作,推出了新一代语音生成模型TicVoice7.0,标志着语音生成技术的重大突破。
2月23日消息,据报道,马斯克旗下xAI团队近期动作频频,继2月18日直播发布Grok最新版本Grok3后,马斯克又在社交平台X上宣布,Grok语音模式早期测试版现已在Grok应用程序上线,并对其表现给予了高度评价。
VITA-MLLM团队最近推出了VITA-1.5,这是对VITA-1.0的重大升级,旨在提升多模态交互的实时性和准确性。
ElevenLabs近期推出了其最新的人声合成模型Flash,声称这是迄今为止最快的文本转语音解决方案,生成语音的延迟仅为75毫秒,特别适合低延迟的对话式语音助手。
Hume AI最近推出了一项名为“语音控制”的实验性功能,使用户能够轻松创建个性化的AI声音,无需任何编码技能。
近日,Rivian 公司的首席软件官 Wassym Bensaid 在加州威尼斯的展厅内确认,Rivian R1T 和 R1S 车型将于2025年推出全新的 AI 语音助手。这一助手将支持文本到语音的信息功能,旨在提升用户在车内的智能体验。
从一个简单的Chrome扩展,到如今估值超2000万美元的AI语音帝国,PlayAI正用声音技术重新定义人机交互的想象边界。
谷歌在今天召开的 Pixel 9 系列手机发布会上,发布了 Gemini Live 服务,将于今天开始率先面向使用英语的 Gemini Advanced 订阅用户开放。
据来自Cartesia的最新消息,他们今天发布了Sonic,这是他们在构建实时多模态智能时代的第一步。Sonic 是一个极速的生成语音模型和 API,拥有令人惊叹的低延迟(仅为135毫秒模型延迟),栩栩如生的声音效果,目前只支持英文。
ChatTTS是一个为对话场景设计的语音生成模型,专门用于大型语言模型(LLM)助手的对话任务、对话语音和视频介绍等应用。这个模型支持中文和英文,并且在视频中展示的是中等参数的版本,使用了约10万小时的中英文数据进行训练
亚马逊计划在今年晚些时候对其 Alexa 语音助手进行重大升级,引入生成式人工智能,以保持与 OpenAI 和谷歌等聊天机器人的竞争。
5月14日,OpenAI召开春季发布会发布基于GPT-4o打造的语音版ChatGPT,次日Google I/O大会正式召开,推出从基座模型 Gemini 升级到新的AI语音助手 Astra,标志着人机语音对话技术进入新的历史时刻。
5月10日凌晨,著名语音生成式AI平台ElevenLabs在社交平台宣布,推出文本生成歌曲产品ElevenLabs Music。
百度日前官方宣布文心一言语音定制功能上线,只需2秒钟,AI 就能完美重建任何一个人的声音,每个人都能拥有自己的AI声优。
近日,一款名为VoiceCraft的语音模型引起了业界的广泛关注。据官方宣称,该模型的性能已经超过了XTTS,这无疑为AI音频处理领域带来了新的突破。
Voicepanel是一个利用AI进行语音或视频采访的产品,帮助企业以较低成本获取客户反馈,远比传统的人工访谈更便宜。其使用户能够在短时间内进行大量对话,获取比传统调查更深入的洞察。
伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。
-------------没有了-------------