Oute AI 最近发布了一种名为 OuteTTS-0.1-350M 的文本转语音合成方法,采用纯语言建模,简化了 TTS 方法,具有零样本语音克隆功能,适用于广泛的应用领域。
Anthropic AI这周终于有了大动作——首发Claude3.5Haiku,全新升级版Claude3.5Sonnet也来了。
近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本、多图理解,多项能力大提升。
GOT-OCR2.0是一款引起业界广泛关注的端到端OCR模型,不仅能处理常规文本识别任务,还能处理公式、表格、乐谱等复杂内容,具有多样化功能和卓越
上海科技大学、宾夕法尼亚大学、Deemos科技和NeuDim科技的研究人员联合推出了一个创新模型DressCode。
OpenAI正深入探索文本水印技术的前沿领域,然而,该公司坦言,这一创新领域仍面临重重技术挑战与待解难题。
在7月31日于法国巴黎举办的发布会上,阿里巴巴国际站总裁张阔宣布了B2B AI采购搜索引擎的全新发布,并展示了AI生意助手的最新升级。
Wix,这个以网页设计工具闻名的平台,推出了一个新的 AI 功能,允许用户通过用简单的中文描述想要看到的内容来创建和编辑 iOS 或 Android 应用。
Dolphin2.9.1Mixtral1x22b是由Cognitive Computations团队创建的一个多功能文本生成模型。
Lumina-T2X 是一个创新的内容生成系列模型,它采用了统一的 DiT(Diffusion Model)架构,能够通过文本生成图像、视频、多视角3D 对象以及音频剪辑。
科大讯飞的星火大模型V3.5春季上新,一句话声音复刻功能让科技更有温度;推出星火智能体平台,助企业解决大模型应用落地“最后一公里”难题;确定6月27日正式发布讯飞星火V4.0……
4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。
一种名为Dynamic Typography的创新“动态排版”技术,正在为文本表达开辟新天地。这项技术通过视频扩散先验,将文本字母转化为动画,从而增强语义表达和动态效果。
在最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。
在人工智能领域,多模态模型的发展一直是行业关注的焦点。近日,马斯克X AI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息,还能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公
日前,360智脑宣布正式内测500万字长文本处理功能。这一功能即将加入360AI 浏览器,同时该浏览器的 APP 也即将上线。
AtomoVideo的使用非常简便,用户只需提供高清图片和简单的文本提示即可在短时间内生成逼真的高清视频,并保留细致的细节。
近日,MyShell公司宣布其多语言、多口音的文本转语音库MeloTTS正式开源。这一消息在开源社区引起了广泛关注。MeloTTS支持的语言包括英语、西班牙语、法语、中文、日语和韩语,为开发人员提供了丰富的选择。
-------------没有了-------------