月之暗面最近推出了一项付费方案,名为Kimi的AI助手将提供不同价格和时长的服务选项。这些选项包括5.2元/4天,9.99元/8天,28.8元/23天,49.9元/40天,99元/93天,以及399元/365天的套餐。
谷歌最新推出的开源工具Model Explorer承诺为这些系统的不透明性带来曙光,有望开启AI透明度和问责制的新时代。
谷歌推出的CAT3D模型在3D重建领域取得了显著的进展,它通过使用多视角扩散模型来创建3D场景,提供了一种快速且高效的方法来生成3D内容。
Google DeepMind 发布了一份长达150页的技术报告,详细介绍了Gemini1.5Pro 和 Gemini1.5Flash 两个模型的性能特点和架构以及这个多模态大型模型的最新进展。
海外产品viva近期推出了一个基于 Sora 架构的视频生成模型,这是首个向所有用户开放的同类工具,目前阶段免费使用。这一工具的发布对于希望快速制作视频内容的普通人来说是一个重大利好。
OpenAI 本周宣布,其标志性大型语言模型(LL)ChatGPT 已更新,用户现可直接从外部云盘 Google Drive 和 Microsoft OneDrive 导入文件。该功能适用于 ChatG Plus、Team 和 Enterprise 用户,并可在使用新的 GPT-4o 模型以及
谷歌推出了一款名为PaliGemma的开源视觉语言模型,该模型结合了图像处理和语言理解的能力,旨在支持多种视觉语言任务,如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。
OpenAI首席执行官 Sam Altman 在接受采访时透露了 GPT-4o 和 GPT5的一些信息。GPT-4o 是一款多模态大模型,可以跨文本、视频和音频进行推理。Sam Altman表示,他早就有用语音控制计算机的想法,而 GPT-4o 的综合推理能力将
5月14日,OpenAI召开春季发布会发布基于GPT-4o打造的语音版ChatGPT,次日Google I/O大会正式召开,推出从基座模型 Gemini 升级到新的AI语音助手 Astra,标志着人机语音对话技术进入新的历史时刻。
Midjourney团队在最近的工作时间透露了他们在视频模型、3D模型、实时生成效果以及网站和模型开发方面的最新进展。以下是他们透露的关键信息:
Hume公司推出的EVI API新增了原生网页搜索功能的TTS(文本到语音)技术,允许用户通过网页搜索功能直接将网页内容转换成语音播报。同时,他们还推出了一款创新的互动式AI播客——Chatter。
UIUC与BigCode组织的研究者们最近发布了StarCoder2-15B-Instruct代码大模型,这一创新成果在代码生成任务方面取得了显著突破。这款模型成功超越了CodeLlama-70B-Instruct,登上了代码生成性能榜单之巅。
5月15日,百度Apollo在武汉举办Apollo Day 2024,其最前沿的智驾技术产品迎来焕新升级,命名为“ASD”(Apollo Self-Driving),并将在极越全系车型量产首发。
昨晚的Google I/O发布会上,Google宣布了一系列AI模型的更新,涵盖了从文本到视觉和音乐的多个领域:
在今天凌晨举行的I/O开发者大会上,谷歌表示即将推出Android15,并且还剧透了一些新功能。
谷歌在I/O大会上宣布,Android15已融入谷歌Gemini大模型,支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能,Android 15 Beta 2将在明天正式推出。
日前,微软宣布OpenAI最新发布的多模态模型 GPT-4o 现已可以在 Azure OpenAI 云服务中使用。
-------------没有了-------------