Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。
在 2024 年世界互联网大会上,阿里巴巴首席执行官吴泳铭强调人工智能对互联网行业的深远影响,介绍了阿里发布的 100 多个开源模型及 30 万家企业接入通义大模型的情况。
以全面提升的创意写作、技术支持和文件处理能力,再次夺回 Chatbot Arena 的榜首宝座。
一个以隐私为中心的被动录制项目。它可以自动记录屏幕内容,构建智能索引,并提供方便的网页界面以检索历史记录。
今天凌晨,法国著名开源大模型平台Mistral.ai,开源了超大多模态模型——Pixtral Large。
在人工智能的应用中,如何实现与 AI 的实时互动一直是开发者和研究人员面临的重大挑战。这其中,整合多模态信息(如文本、图像和音频)以形成一个连贯的对话系统显得尤为复杂。
通义千问团队最新开源Qwen2.5-Coder全系列,旨在推动Open Code LLMs的发展。
Moonshine 是一款开源语音识别模型,设计更高效处理音频数据,特别适合短音频片段,支持离线运行,消耗更少计算资源。
腾讯今日发布开源MOE大语言模型Hunyuan-large,总参数量达398B,激活参数量52B,在中英文NLP任务、代码和数学等 9 大维度全面领先,超过Llama3.1、Mixtral等一流的开源大模型。
今天凌晨,OpenAI开源了最新基准测试集SimpleQA,可以帮助开发者轻松检测、校准大模型的真实性能力。
近日,一个名为Ultralight-Digital-Human的开源项目成功解决了数字人技术在移动端的部署难题,让普通智能手机也能实时运行数字人应用,为相关技术的普及带来新的可能。
北京智源人工智能研究院(BAAI)推出全新全能视觉生成模型OmniGen,标志着图像生成领域重大突破。OmniGen以统一性、简单性和跨任务知识迁移能力著称,可处理多种图像生成任务,包括文生图、图像编辑、主题驱动生成和视觉条件
微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的AI 工具。
Meta AI团队推出了LongVU,一种新型的时空自适应压缩机制,旨在提升长视频的语言理解能力。
阿里巴巴达摩院本月开源了一款名为CoI-Agent的 AI 工具,旨在帮助科研人员自动生成科研想法。
Mistral7B诞生一周年之际,法国AI初创公司Mistral再次连发两个轻量级模型Ministral3B和Ministral8B,性能赶超Llama38B。
-------------没有了-------------