Suno最近推出了其音乐生成模型的4.0版本,带来了多项改进,包括音频质量和歌词准确性。
PodCastLM是一款新推出的工具,旨在帮助用户将PDF文档内容转换为音频播客,提升信息传播的效率和趣味性。
这几天的视频生成AI一经推出就好评不断。无论是Runaway新模型Gen-3 Alpha,还是Luma AI推出的Dream Machine,都有着逼真的画面、多样的电影叙事手法,艺术气息拉满。 目前
6月6日,著名开源大模型平台Stability.ai在官网宣布,开源最新文生音频模型Stable Audio Open。
国际科技市场分析机构Canalys最新报告显示,2024年第一季度,全球个人智能音频设备市场呈回暖的迹象,同比增长6%,出货量超9,000万台。
ElevenLabs最近推出了一款创新的AI音频模型,这一技术允许用户仅通过文本提示就能生成各种音效、短乐器曲目、音景和各种角色声音。
日前,udio 宣布推出新的udio-130音乐生成模型,可以生成2分钟的音频这一功能使得创作具有长期连贯性和结构的音轨变得更加容易。
ElevenLabs近日发布了配音API,允许开发者在其产品中添加音频或视频翻译功能。利用该API,开发者可以将任意音频或视频翻译成29种语言,并且保留原始发言者声音的独特特征。
AniTalker是一个创新的开源项目,它能够通过静态肖像画和输入的音频信号生成生动的面部说话视频。
AI 音乐初创公司 Udio 推出了几项新功能,包括音频修复和更长的上下文口,以改善音乐创作体验。Udio 还宣布了新的订阅计划细节。
Harmonai,由Stability AI Lab支持的开源项目,致力于让音乐制作变得更加容易和有趣。
MyShell TTS 开发的OpenVoice是一项创新的声音克隆技术,它能够通过仅使用一小段参考发言者的音频片段来复制其声音,并生成多种语言的语音。
AssemblyAI最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。
最近,多所知名大学和研究机构的研究人员共同提出了 EMAGE 框架,旨在从音频和掩码手势生成全身人类手势。
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时透露,Sora文生视频工具计划在今年内正式推向公众。此外,OpenAI还计划为Sora加入音频生成功能,进一步丰富视频的场景和情感表达。
成立仅两年的AI音频公司ElevenLabs近日宣布B轮成功融资8000万美元,估值超过10亿美元,成功晋升为独角兽公司。
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。
-------------没有了-------------