趣丸科技发布了名为MaskGCT的全新语音合成(TTS)模型,彻底颠覆了传统TTS模型的玩法,实现了自学成才,不再依赖人工标注。
字节跳动最新开发的PersonaTalk AI模型实现了视频精准配音,声音与嘴型完美同步,保留人物原有特点,让视频更真实自然。
OpenAI将在ChatGPT发布两周年之际12月左右,推出传说中的大模型——Orion(猎户座)。
OmniGen是一款全新的图像生成模型,与以往工具不同的是,它具备多种能力,包括文本到图像生成、图像编辑等,用户只需提供简单提示词即可控制图像生成与精细编辑,无需使用ControlNe等插件。
今天凌晨,OpenAI发布了全新扩散模型方法sCM,仅需2步就能生成高质量图片、3D模型等实现50倍时钟加速,尤其是在高分辨率任务上相当出色。
Les Ministraux推出的Ministral3B和Ministral8B模型在边缘设备上表现出色,性能媲美开源模型,为用户提供高计算效率、低延迟的解决方案。
Cohere最新发布的多模态AI搜索模型Embed3支持通过文本和图像进行企业级检索,大幅提升图像搜索性能,助力企业挖掘数据价值。
Genmo 公司开源的最新视频生成模型Mochi1在视频生成领域引起了轰动,其高画质、超流畅的特点让家用电脑也能创作好莱坞级大片。
Stability AI发布了最强大的模型Stable Diffusion3.5,包含三个版本的全家桶,满足多样化需求。
升级版的Claude3.5Sonnet,新模型Claude3.5Haiku,还有全新的新功能:computer use,翻译过来后,我把他称为,“计算机操控”。
Mistral AI最新推出的Ministral3B和Ministral8B语言模型专为边缘设备设计,支持高达128,000个token的上下文长度,适用于本地翻译、离线智能助手、数据分析和自主机器人等应用场景。
阿里妈妈创意团队发布了基于FLUX.1-dev模型训练的FLUX.1-Turbo-Alpha,采用8步蒸馏Lora模型,多头判别器显著提高蒸馏质量,支持多种FLUX相关应用。
1%合成数据,就能让模型瞬间崩溃!来自Meta、NYU等机构团队证实,「微量」合成数据便让LLM弱不可堪。甚至,参数规模越大,模型崩溃越严重。
社交平台上的真人转卡通玩法愈发盛行,Flux LoRA是最新衍生玩法,可在生成真人照片基础上叠加卡通人物,类似抖音的棉花娃娃效果。
近日,卡内基梅隆大学的研究团队发布了名为“DressRecon”的新技术,通过单目视频实现高质量的人体重建,尤其适用于宽松衣物和手持物体的场景。
Meta近日发布了Movie Gen,一款元宇宙版Sora的AI视频生成模型,可一键创作高质量视频、配音、编辑剪辑,甚至将个人照片变成个性化视频。
最近,富士通正式发布了名为 “Takane” 的大型语言模型(LLM),这款模型特别为企业用户打造,旨在满足安全私密环境下的需求。
-------------没有了-------------