音频最新相关新闻-科技魔方_中文AI大模型门户网站

Suno最近推出了其音乐生成模型的4.0版本，带来了多项改进，包括音频质量和歌词准确性。

科技魔方 Suno大模型音频音乐

615

超快速文本转语音模型Lightning：超低延迟， 100毫秒生成10秒音频

最新推出的AI文本转语音模型Lightning在100毫秒内生成10秒音频，大幅降低语音机器人开发成本，提高可及性。

科技魔方文本大模型模型音频应用

621

全新开源音频模型Hertz-Dev:超低延迟，实现AI实时对话

在当今科技的浪潮中，对话式人工智能(AI)已经成为我们生活中的重要组成部分。

科技魔方开源音频大模型人工智能

625

PodCastLM来了!轻松将PDF文档转换为音频播客

PodCastLM是一款新推出的工具，旨在帮助用户将PDF文档内容转换为音频播客，提升信息传播的效率和趣味性。

科技魔方 PodCastLM文档音频PDF

535

AI音频成诈骗神器！律师父亲险被骗走21万，3秒原声即可克隆声音

Deepfake到底有多可怕?国外一名律师的父亲，险些陷入一场巨大AI骗局。

新智元公众号 AI音频律师

641

谷歌新语音克隆技术:仅需几秒钟音频样本，即可实现声音克隆

在科技迅猛发展的今天，谷歌研究人员提出了零样本语音转换技术，帮助失声人士找回声音记忆。

科技魔方谷歌AI大模型音频声音

647

谷歌推出 AI 生成播客功能:将你的笔记变成有趣的音频讨论

谷歌最近推出了令人兴奋的实验功能，AI 生成播客，让用户的研究资料转化为有趣的播客。

科技魔方谷歌AI笔记音频

701

蚂蚁集团推EchoMimic：可通过音频和面部标志生成逼真肖像动画

EchoMimic的稳定性和自然度是它的两大杀手锏。

站长之家 蚂蚁集团EchoMimic音频动画

673

AI音频“扛把子”刚上谷歌V2A！第一个视频+音频全自动AI工具，完全开源免费

　　这几天的视频生成AI一经推出就好评不断。无论是Runaway新模型Gen-3 Alpha，还是Luma AI推出的Dream Machine，都有着逼真的画面、多样的电影叙事手法，艺术气息拉满。　　目前

乌鸦智能说 AI音频音频视频开源

652

开源音频模型Stable Audio Open，文本生成47秒高清音效

6月6日，著名开源大模型平台Stability.ai在官网宣布，开源最新文生音频模型Stable Audio Open。

AIGC开放社区公众号开源音频大模型

586

Canalys：24Q1个人智能音频设备出货量增长6%

国际科技市场分析机构Canalys最新报告显示，2024年第一季度，全球个人智能音频设备市场呈回暖的迹象，同比增长6%，出货量超9,000万台。

Donews Canalys智能音频音频

642

ElevenLabs推出创新AI音频模型可生成各种音效

ElevenLabs最近推出了一款创新的AI音频模型，这一技术允许用户仅通过文本提示就能生成各种音效、短乐器曲目、音景和各种角色声音。

站长之家 ElevenLabs音频大模型

715

Udio推出新的udio-130音乐生成模型：可生成两分钟音频

日前，udio 宣布推出新的udio-130音乐生成模型，可以生成2分钟的音频这一功能使得创作具有长期连贯性和结构的音轨变得更加容易。

站长之家 Udio大模型模型音频

613

iPhone 7系列用户可获苹果赔偿：音频问题终得解决

近日，一场关于iPhone7和iPhone7Plus音频问题的集体诉讼案终于落下帷幕。

站长之家 iPhone7苹果音频

561

ElevenLabs发布配音API 允许开发者在产品中添加音频或视频翻译功能

ElevenLabs近日发布了配音API，允许开发者在其产品中添加音频或视频翻译功能。利用该API，开发者可以将任意音频或视频翻译成29种语言，并且保留原始发言者声音的独特特征。

站长之家 ElevenLabs音频视频

551

开源版EMO？AniTalker可通过照片加音频生成说话视频

AniTalker是一个创新的开源项目，它能够通过静态肖像画和输入的音频信号生成生动的面部说话视频。

站长之家开源AniTalker音频视频

717

AI音乐应用 Udio 推出音频修复扩展新功能和付费订阅计划

AI 音乐初创公司 Udio 推出了几项新功能，包括音频修复和更长的上下文口，以改善音乐创作体验。Udio 还宣布了新的订阅计划细节。

站长之家 AI音乐应用音乐应用音频

691

Harmonai：一个开源的生成音频工具让每个人都可以轻松制作音乐

Harmonai，由Stability AI Lab支持的开源项目，致力于让音乐制作变得更加容易和有趣。

站长之家 Harmonai开源音频音乐

681

OpenVoice V2版本发布能对声音风格进行精细控制

MyShell TTS 开发的OpenVoice是一项创新的声音克隆技术，它能够通过仅使用一小段参考发言者的音频片段来复制其声音，并生成多种语言的语音。

站长之家声音音频语言大模型

727

AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

AssemblyAI最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现，该模型在准确性和鲁棒性方面均取得了行业领先地位。

站长之家 AI语音识别音频

620

EMAGE：上传音频就能生成全身动作包括头部、嘴型、身体运动

最近，多所知名大学和研究机构的研究人员共同提出了 EMAGE 框架，旨在从音频和掩码手势生成全身人类手势。

站长之家 EMAGE音频框架

676

谷歌推出多模态VLOGGER AI：让静态肖像图动起来“说话”

谷歌近日在 GitHub 页面发布博文，介绍了 VLOGGER AI 模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。

IT之家谷歌大模型图片音频

709

OpenAI首席技术官：Sora或将在今年向大众推出，增加生成音频

OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时透露，Sora文生视频工具计划在今年内正式推向公众。此外，OpenAI还计划为Sora加入音频生成功能，进一步丰富视频的场景和情感表达。

热点科技 OpenAISora大模型音频

692

文生音频ElevenLabs融资5亿美元，估值超10亿美元

成立仅两年的AI音频公司ElevenLabs近日宣布B轮成功融资8000万美元，估值超过10亿美元，成功晋升为独角兽公司。

站长之家文生音频ElevenLabs融资

616

上海AI实验室等开源，音频、音乐统一开发工具包Amphion

上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。

微信公众号 AIGC开放社区 AI实验室音频音乐

705

45 1 2 下一页尾页

-------------没有了-------------

图赏更多>

: 微软发布AI Shell工具，为命令行插上AI翅膀

: 进度45%，爆料称小米SUV或将参加2025年车展

: REDMI K80系列将搭载龙晶玻璃2.0 配备大R角哑光金属中框

: 余承东晒出华为Mate X6典藏版

: 即热式电热水器：细分领域不可小觑的市场热点

: vivo S20系列今日官宣： 11月28日发布主打绝美人像

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

张影

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

康佳（KONKA）55D6S

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>