OpenAI首席执行官 Sam Altman 在接受采访时透露了 GPT-4o 和 GPT5的一些信息。GPT-4o 是一款多模态大模型,可以跨文本、视频和音频进行推理。Sam Altman表示,他早就有用语音控制计算机的想法,而 GPT-4o 的综合推理能力将带来所未有的用户体验。
Midjourney团队在最近的工作时间透露了他们在视频模型、3D模型、实时生成效果以及网站和模型开发方面的最新进展。以下是他们透露的关键信息:
Hume公司推出的EVI API新增了原生网页搜索功能的TTS(文本到语音)技术,允许用户通过网页搜索功能直接将网页内容转换成语音播报。同时,他们还推出了一款创新的互动式AI播客——Chatter。
UIUC与BigCode组织的研究者们最近发布了StarCoder2-15B-Instruct代码大模型,这一创新成果在代码生成任务方面取得了显著突破。这款模型成功超越了CodeLlama-70B-Instruct,登上了代码生成性能榜单之巅。
正因如此,就在前两年,那个曾经搞出“ToF3D美颜”工程机的品牌,在一场技术沟通会上预告了他们基于AIGC、新的自拍美颜体系。
5月15日,百度Apollo在武汉举办Apollo Day 2024,其最前沿的智驾技术产品迎来焕新升级,命名为“ASD”(Apollo Self-Driving),并将在极越全系车型量产首发。
-------------没有了-------------