大模型也疯狂_科技魔方-中文AI大模型门户网站

　　老对手，新戏码。

　　过去一周，美国 GPT 热潮的主角是 OpenAI 和谷歌，国内大模型市场的主角则是字节跳动和腾讯。

　　一方进攻，另外一方往往就是防守反击。赶在谷歌 i/o 发布一系列 AI 新产品之前，OpenAI 发布了能看能听的智能助手「GPT-4o」，o 代表「omnimodel」(全能模型)。

　　与过往的语音助手不同，GPT-4o 可以实现更自然流畅的语音交互，相当于给大模型装上了眼睛、耳朵和嘴巴，这被视为彻底改变了人机交互的历史。

　　大洋彼岸的国内 AI 市场也在发生类似的竞逐。

　　在开源与闭源的站队中，腾讯混元大模型选择了将 AI 文生图功能版本开源，并公布了混元大模型在 AI 产业上一系列落地应用。

　　而抢在 5 月 17 日的腾讯云生成式 AI 应用峰会之前，字节宣布通过火山引擎为豆包大模型对外提供服务，并用远低于行业的使用定价掀起了价格战。

　　金沙江创投基金主管合伙人朱啸虎评论说，一下子都从卷scaling law 180 度转弯变成卷价格卷免费了，说好的AGI梦想呢?

　　从国外到国内，卷价格还是技术应用，正成为当前AI 科技行业竞逐中的*看点。

　　字节掀价格战

　　国内大模型在应用产品层落地上，字节的豆包已经成为用户量*的 APP。

　　根据 QuestMobile 最新公布的数据，截止到 2024 年 3 月，AIGC APP 行业用户已经突破 7380 万，同比增长了 8 倍，其中，抖音旗下的豆包、百度旗下的文心一言以及天工、讯飞星火、Kimi 智能助手月活跃用户分别为 2328.2 万、1466.1 万、966.1 万、620.4 万、589.7 万。

　　而根据火山引擎公布的最新数据，豆包 APP 的月活已经超过了 2600 万。豆包的成绩已经肉眼可见，而且豆包开始取代云雀，成为字节跳动旗下火山引擎对外提供大模型服务的统一名字。

　　在 5 月 15 日火山引擎的原动力大会上，豆包大模型正式开启对外服务，其中最抓人眼球的就是远远低于行业标准的使用价格。

　　以豆包通用模型 pro-32k 版为例，模型推理输入价格仅为 0.0008 元/千 Tokens。市面上，同规格模型的定价一般为 0.12 元/千 Tokens，所以醒目的标题是 32k 版本的豆包模型价格比行业低了 99.3%，128k 版本的豆包大模型比行业价格低了95.8%。

　　豆包大模型的价格无疑震动了行业，但对于真正打算使用豆包大模型的开发者来说，他们更在意的一个是模型质量，一个则是使用范围。「作为 API 为客户生成内容则需接受良心的拷问，所以 800 元/10 亿 token 的价格虽然香，也要看质量」，有开发者表示。

　　「人人用得起的才是好模型」，这是豆包大模型低价战略的一个卖点，但有开发者表示，他看到价格之后计划开始使用豆包大模型，却发现需要企业认证。也就是说，豆包大模型的价格虽然很香，但只是针对企业用户，而不是个人开发者。

　　此外，很重要的一点就是「豆包大模型家族」的亮相，这让字节在 AI 大模型领域的布局已经初步成型。

　　豆包大模型旗下模型数量有 9 个，分别是豆包通用模型 Pro、豆包通用模型 liti、豆包・角色扮演模型、豆包・语音合成模型、豆包・声音复刻模型、豆包・语音识别模型、豆包・文生图模型、豆包・Function Call 模型。可以明显看出，豆包大模型在卡位不同的赛道，在应用场景的丰富度上已经初具规模。

　　但归根结底，能赢得更多优质的客户，才是当下国内大模型竞逐的方向。

　　原动力大会上，展示出豆包大模型的合作伙伴有 18 家，包括招商银行、蒙牛、OPPO等，此外，现场还分别成立了手机、汽车两个生态伙伴联盟，尤其是当下竞逐激烈的汽车领域，合作伙伴包括吉利、长城等 20 余家厂商。

　　但这也侧面反映出目前 AI 应用市场的发展还处于早期，比如作为案例的奇瑞汽车子品牌捷途汽车，其使用豆包大模型的范围是打造智能客服，还通过豆包大模型与数字营销相结合，成为广告投放的导航，加深了企业对用户的理解。

　　价格战是表面，实际目的是把降价作为卖点，吸引更多用户和企业使用，进一步探索面向未来的大模型应用。找到大模型用户使用场景，这成为豆包大模型当下的思路。

　　腾讯终于提速

　　去年年底，「蓝洞商业」在一文已经点明，腾讯和字节在大模型之路上背道而驰，腾讯当时在 C 端用户市场没有做独立 APP，只选择利用微信小程序这一方式，而字节跳动的大模型在国内和国际市场都做了广泛产品布局。

　　进入到 2024 年年中，腾讯混元大模型终于开始提速。

　　其中最引人注意的两个动作，一个是宣布混元文生图大模型对外开源，未来确定还会开源文生文大模型;另一个则是将在 5 月 30 日正式发布元宝 APP，这个大模型产品中集合了搜索、文档总结、翻译官和口语陪练等功能。

　　元宝 APP 是腾讯混元大模型*款面向 C 端的独立产品。在豆包和文心一言等 APP 占领的国内市场中，腾讯还能拿下多少 AI 用户规模?显然是一件值得期待的事情，毕竟豆包 APP 2600 万的月活并不是一个很高的天花板。

　　而混元大模型开源的技术路线，也标志着腾讯在大模型之路上开始站队。

　　值得注意的是，腾讯混元大模型选择开源的文生图大模型，是与 OpenAI 发布的文生视频模型 Sora 相同的 DiT(Diffusion Models with transformer)架构，是业内*中文原生的 DiT 架构，不仅能够支持文生图，也能作为视频等多模态视觉生成的基础。此外，混元文生图大模型支持中英文双语输入及理解，参数量 15 亿。

　　腾讯在最新一季的财报会提到，腾讯在微信和 QQ 等很多服务中都部署了混元大模型。

　　广告可能是大模型*见效的业务，正如 Meta 基于大型语言模型 Advantage+ 改进了他们的广告工具。腾讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。

　　今年年初，基于腾讯混元大模型，腾讯发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具，有效提高了广告生产及投放效率。

　　但目前看来，混元大模型对腾讯核心的游戏业务帮助度并不高。财报会上提到游戏上尚未用上生成式 AI，混元可以利用 NPC 创造某种互动体验，但还不能取代现有的游戏内容创作。目前游戏业务中是使用混元*的场景是客服。

　　OpenAI 选择闭源大模型，谷歌则是开源路线。国内市场，除了百度是闭源路线，阿里的通义千问、百川智能、昆仑万维等公司都属于开源路线，发布过不同参数的开源大模型。如今，腾讯也站队开源，只能说明开源大模型大概率是未来大势所趋。

　　当下，开源和闭源的路线之争还难见分晓，「在开源和闭源的问题上，我们认为两者都有其独特的价值和作用。我们已经有计划在未来开源更多的模型，同时我们也在积极地开发通用人工智能，并探索如何广泛地分配其带来的利益。」OpenAI 创始人奥特曼最近表态说。

　　智源研究院副院长林咏华也曾对《财新》指出，模型需要的是机构持续投入迭代创新，一旦落后很容易被替代，而软件工具链则是技术积累、不断做加法，不会突然间被取代。「模型一直会是后浪推前浪，最开始热闹的未必能笑到最后，反而是工具链通过生态的不断积累能够建起护城河。」

　　OpenAI 进攻，谷歌反击

　　GPT-4o 让人眼前一亮的，就是其生动的交互体验。

　　在其展示的视频中，GPT-4o 作为一个大模型语音助手，可以随时被用户的指令打断，在不同的情绪和语调中切换自然、实时响应，这让 GPT-4o 大大超越了以往的人工智能语音助手。

　　而之所以命名为 o，就是因为其可以处理文本、音频和图像的组合。GPT-4o 可以通过手机摄像头看到现实世界的情况，例如可以给一位视障男子叫一辆出租车，告诉他车辆在靠近以及何时挥手。GPT-4o 还可以是一个数学老师，在识别数学问题之后，通过语音指令一步步循循善诱的告诉孩子如何解答这道题。

　　GPT-4o 在翻译、会议场景、语言培训方面的用途显然*想象力，「GPT4 的实际可用性太强了，现在开发者面前有个以小博大的机会，就是立刻做一个 GPT-4o 的套壳，去吊打市面上所有的 AI 陪伴类产品，这是一个典型的新技术带来 10 倍好体验 x OpenAI 不会做的方向。」有国内的大模型开发者这样认为。

　　更重要的是，大模型装上了眼睛、耳朵和嘴巴，势必会带来 ChatGPT 在用户层面的进一步渗透。

　　行业分析人士认为，从 OpenAI 的产品路线看，「当下发布的 GPT-4o 大概率只是 GPT-4.5 的一部分，估计 GPT-4.5 拆成两个版本发完才会到 GPT-5」，而 GPT-5 将在当前的技术基础上实现巨大的飞跃。

　　要想在未来几周内体验 GPT-4o，仍需要成为付费 ChatGPT-Plus(该公司每月 20 美元的功能)的用户，而对于企业用户来说，GPT-4o 的速度将是其当前*产品 GPT-4 Turbo 的两倍，成本仅为其一半。

　　这也摆明了一个事实，那就是好东西都不会免费，GPT-4o 的推出意味着科技巨头们越来越急迫的扩大付费用户规模，以平衡在研发上投入的巨大资金和费用。

　　华尔街最新公布的数据是，预计今年谷歌和 OpenAI 在人工智能服务的技术基础建设上，二者合计的支出高达 970 亿美元，这个数字比去年增长了 42%。这种高投入的模式无疑让大模型成为大厂之间的竞逐游戏，也让玩家们面临如何平衡投资回报之间的挑战。

　　人工智能竞赛中的大模型进化，更像是一个烧钱机器的比赛。

　　谷歌与 OpenAI 背后的微软已经在 AI 行业形成对垒之势，表面上看是 OpenAI 一直处于攻势，而谷歌处于防守之势，但美国的投资公司更愿意相信，在人工智能的这场竞赛中，获胜者不可能只有一个，谷歌依然是人工智能竞赛中的*者。

　　在 Google I/O 开发者大会上，针对 OpenAI 的发布但迟迟没能开放的视频模型 Sora，谷歌发布了视频生成模型 Veo;针对语音助手模型的 GPT-4o，谷歌发布了同样针对人工智能语音智能的 Project Astra;在文生图模型上发布了最新的 Imagen 3;更重要的是，升级版的最强大AI模型 Gemini 将重塑传统搜索模式，通过「人工智能概述」功能，自动推理回答用户的需求。

　　大模型的进化之路依旧漫长，当下没有标准答案。

　　今年以来，谷歌的股价上涨了 22%，这是微软同期的两倍。所以，OpenAI 与谷歌之间的对垒，将成为大模型*梯队未来很长一段时间的重要看点。

　　国内不论字节的豆包还是腾讯的混元，都在深挖内部需求的同时，极力招揽外部客户，进而构建自己的应用层能力。各家的每一个动作，都可能被看作对手间的攻防之战。

大模型也疯狂

延展资讯