2024年AI行业预测：开源模型击败GPT-4、Agent爆发、AI侵权案涌现……

　　本文来自于微信公众号头号AI玩家(ID:AIGCplayer)，整理| 卷毛编辑| 张洁。

　　生成式AI占据着2023年诸多头条新闻，2024年大概也会如此。

　　随着大模型的持续进步，许多玩家在讨论:AI会朝着什么方向发展?2024年AI行业会遇冷吗?或者迎来新的突破和更广泛的应用?监管者和公众将如何应对?

　　“头号AI玩家”整理汇总了近期海内外各大AI公司、AI研究者、风险投资人、科技媒体的主要观点，他们就生成式AI的未来、AI Agent、多模态、开源和闭源模型之争、AI安全等话题给出了自己的预测。尽管每个人的看法不同，但有一点可以确定:2024年有望成为生成式AI的决定性一年。AI将持续突破，普惠更多人

　　@OpenAI联创Greg Brockman

　　就AI的能力、安全性以及对其潜在影响的积极性而言，2024年将是突破性的一年。从更长远的角度看，这只是指数级发展的又一年，它能让每个人的生活都比今天更美好。

　　@比尔盖茨

　　比尔盖茨认为，AI作为目前地球范围内影响最深远的创新技术，将会在3年内彻底席卷全球。

　　“如果我必须做出预测，那在像美国这样的高收入国家，我猜我们距离普通大众广泛地使用人工智能还有18到24个月的时间。

　　在非洲国家，我预计在三年左右的时间里会看到类似的使用水平。这其中仍然存在差距，但它比我们在其他创新中看到的滞后时间要短得多。” 2024年将是AI视频之年

　　@英伟达高级科学家 Jim Fan

　　2024年将是视频之年。虽然机器人和嵌入式代理才刚刚起步，但我认为AI视频将在未来12个月内迎来突破性发展。包括输入和输出两个方面。

　　“I”:视频输入。GPT-4V对视频的理解还相当原始，因为它将视频视为一系列离散图像。减少信息冗余的最聪明方法是什么?学习目标应该是什么?下一帧预测与下一个单词预测有着明显的类比关系，但它是否是最佳的?如何与语言交错?如何引导机器人和人工智能的视频学习?业界尚未达成共识。

　　“O”:视频输出。2023年，我们看到了文字到视频合成的浪潮:WALT(谷歌)、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等，数不胜数。然而，大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。

　　在2024年，我们将看到具有高分辨率和长期连贯性的视频生成。这将需要更多的“思考” ，即系统2的推理和长远规划。

　　开源模型击败GPT-4，小模型更流行

　　@Meta研究员Martin Signoux

　　以下是2024年的八项AI预测:

　　AI智能眼镜成为现实。

　　ChatGPT之于AI助手，不会像谷歌之于搜索一样。

　　大型多模态模型(LMMs)将不断涌现，并在争论中取代LLMs。

　　GPT-5没有重大突破，但各方面都有改进。

　　小型语言模型(SLM)已经出现，成本效益和可持续发展的考虑将加速这一趋势。

　　开放模型击败GPT-4，开放与封闭之争逐渐淡化。

　　没有一套基准、排行榜或评估工具能够成为模型评估的一站式服务。

　　与现有风险相比，存在的风险不会引起太多讨论。

　　@Lightning AI创始人William Falcon

　　1B模型将超越70B模型。

　　模型将几乎免费地部署在CPU上，而不是API服务。

　　数据质量将使性能提升10倍。

　　开源模型的组合将击败最好的私有模型。

　　编译器将使模型(训练和推理)的速度至少提高80%。

　　立法将支持内容创建者，而非模型开发者。生成更快，AI Agent蓬勃发展

　　@贝恩资本风险投资公司合伙人Slater Stich

　　2024年将是实时扩散应用的一年。

　　2023年，我们看到了扩散模型推理速度方面的一些重大理论改进，例如Song等人的原始一致性模型论文，以及最近的LCM。(另外，对抗扩散蒸馏。)我们已经开始看到使用这些想法的项目，例如Dan Wood的Art Spew(每秒77512×512图像，在单个4090上)、Modal的Turbo.art(基于SDXL Turbo) 和fal.ai的30fps脸部交换。

　　到2024年，我们将看到更多实时图像、音频和视频生成传播应用。

　　@LlamaIndex创始人Jerry Liu

　　RAG仍将是一大焦点(我们还没有解决它)。

　　每个AI工程师仍然需要强大的软件工程基础。将LLM应用程序交付给prod，就等同于软件工程。

　　矢量数据库开始开发类似SQL的接口，并支持多模态。

　　多模态模型将更多地用于文档处理(但首先需要降低成本/延迟)。

　　类似GPT-4的全部功能将开源，而且速度更快、成本更低。这和GPT-5一样让我兴奋。

　　如果真是这样的话，Agent的开发会重新蓬勃发展。可以自动化工作流程、与其他Agent交互并随着时间的推移变得更好的Agent。

　　提示一如既往地重要，但提示工程(乱用令牌)的重要性将下降。 AIGC加速超级入口的形成

　　@钉钉

　　1月3日，钉钉联合国际知名咨询机构IDC发布首份《2024AIGC应用层十大趋势白皮书》。IDC预测，到2024年全球将涌现出超过5亿个新应用，这相当于过去40年间出现的应用数总和。

　　“AIGC将加速超级入口的形成”—— 基于自然语言的极简交互将替代一部分传统的图形界面交互， “no App” 理念将重塑移动互联网时代形成的入口和用户格局。应用功能会被碎片化地融入到一些超级应用中，用户通过对话就能在一个应用里直接调取、使用各种工具。

　　IDC的调研显示，97%的企业认可超级入口将成为未来的主流应用形态(调研对象:100家制造、医疗、互联网、金融、零售行业年收入超过5亿的大型企业)。

　　新的AI硬件推出，苹果入场

　　@The Information高级编辑Nick Wingfield

　　预测:微软和亚马逊将推出人工智能硬件设备。

　　多年来，苹果和三星合计占据美国智能手机市场70%至80%的份额，在硬件方面形成双寡头垄断。我预测，明年，我们将看到新型AI设备，这些设备可能会对智能手机领域的现有企业构成严重威胁，尤其是美国第一大厂商苹果公司。

　　最初的AI设备可能不是智能手机。我们已经看到一些新型移动设备的例子，这些设备使AI成为核心，而不是像今天的智能手机那样将其视为事后的想法。Humane的Ai Pin是一款售价699美元的设备，可以进行对话并进行实时语言翻译。有报道称前苹果设计师Jony Ive、OpenAI的Sam Altman和软银的Masayoshi Son已联手讨论创建某种AI设备。

　　微软将推出一款围绕构建的设备，它已经开始将AI伴侣融入Office等软件产品中。

　　与此同时，苹果在iPhone等产品中改进AI功能的努力令人失望。与大型科技领域的同类产品相比，苹果对ChatGPT等AI产品的流行反应较慢，尽管该公司目前正在积极开发一系列生成式AI产品。不过，苹果将难以跟上步伐，部分原因是其对隐私的激进立场将使其无法充分利用在云中运行的最先进的AI形式。

　　@TechCrunch作者Devin Coldewey

　　2024年将是AI技术从炒作转向现实的关键时刻。以下是一些可能的趋势:

　　OpenAI将成为一家产品公司，专注于市场份额和客户。

　　基于Agent的模型和生成式多媒体的发展，出现更多实验性应用。

　　单一大型语言模型的局限性变得更加明显，导致转向更小、更专业化的模型。

　　AI营销主张面临现实考验，可能导致客户流失和法律诉讼。

　　苹果可能进入AI市场，推出经过优化且实用的产品或服务。

　　与AI滥用相关的法律案件增多，以及AI合规行业的兴起。

　　早期采用者主动实施新的AI法规，例如欧盟的AI法案。

　　2024年美国总统选举受到AI生成内容的影响，可能加剧混乱和不信任。 GPT-4.5/5将发布，但AGI仍未实现

　　@科技博主Matthew Berman

　　1. Meta将于2024年第一季度发布LLaMA3。

　　2. OpenAI将于上半年发布GPT-4.5。它将更好、更快、更便宜，但仍将基于GPT-4。

　　3. 谷歌的Gemini Ultra将与GPT-4竞争，并提供一个强有力的替代方案。但它们在推出后会直接出现问题:幻觉、错误和不可靠。

　　4. 机器人将加速发展。Optimus将取得巨大进步，许多其他机器人公司也将发布更新。

　　5. 开源LLM与GPT-4的差距缩小。我相信在2024年，我们终将看到一个能与GPT-4相媲美的开源模型。

　　6. AI Agent变得更好。Agent不仅会成为主流并在现实世界中找到用例，而且还会开始表现出类似人类的行为。我们将在植物学、市场营销、游戏理论等领域使用Agent来帮助我们预测人类行为。

　　7. 没有AGI。山姆-奥特曼(Sam Altman)对AGI的看法似乎仍是遥不可及的梦想。关于AGI定义和时间表的争论仍在继续，但我们不会在2024年看到AGI。

　　8. 合成数据激增。合成数据在AI领域正变得至关重要，尤其是在医疗保健和金融等敏感领域(作为隐私和偏见的解决方案)。如果我们能解决合成数据问题，它将有利于开源，因为在开源领域，购买海量数据集并不是一种选择。

　　9. 多模态AI将成为新常态。苹果公司的Ferret和特斯拉的FSD正在引领潮流。但挑战也会随之而来。视觉、听觉，甚至是感觉?

　　10. 机器人与人类难以区分。2024年，我们将再也无法辨别机器人和人类的区别。互联网将遭受重创:垃圾邮件、深度伪造、诈骗等等，要当心。更多创作者反对AI侵权、提起诉讼

　　@Jukedeck创始人Ed Newton-Rex

　　至少有一起AI与创意产业的重大法庭案件以创意者获胜或达成重大和解而告终。

　　推出一个非常优秀的视频生成模型，该模型仅在授权数据基础上进行训练。

　　一家大型AI公司在一轮(或类似)投资中表现令人失望，部分原因是投资者担心侵犯版权。

　　更多跨行业的知名创作者站出来反对未经创作者同意而训练的AI生成模型。

　　@Radical Ventures合伙人Rob Toews

　　1. Nvidia将更加努力成为云提供商，与亚马逊、微软和谷歌之间的关系愈发复杂。

　　2. Stability AI会关闭。近几个月的人才流失和持续走高的烧钱率使其陷入困境。

　　3. “大语言模型”和“LLM”等术语将变得不那么常见，描述模型的术语将变得越来越多维。

　　4.最先进的封闭式模型将继续大幅优于最先进的开放式模型。我们怀疑，开源新的前沿模型所需成本巨大但缺少收入回报，像Mistral这样的公司最终可能会保留最先进的模型的专有性，以便可以对其收费。

　　5. 多家财富500强企业将设立一个新的高管职位:首席人工智能官。

　　6. Transformer架构的替代方案将得到真正的采用。

　　7. 云提供商对AI初创公司的战略投资以及相关的会计影响将受到监管机构的挑战。

　　8. 微软和OpenAI的关系将开始紧张。随着OpenAI寻求积极拓展其企业业务，它将发现自己越来越频繁地与微软直接竞争客户。就微软而言，作为尖端AI模型的供应商，微软有充分的理由在OpenAI之外实现多元化。

　　9.2024年风投或将回归加密圈。一些过度的AI炒作将转向其他地方。

　　10. 目前领先的生成式AI模型已经接受了大量受版权保护的内容的训练，这一事实可能会引发巨额责任并改变该行业的经济状况。至少一家美国法院将裁定在互联网上训练的生成式AI模型构成版权侵犯。该问题将开始向美国最高法院提起诉讼。出现AI相关的网络犯罪

　　@英特尔首席情报官Michael DeBolt

　　虽然到目前为止，似乎还没有针对网络犯罪分子的杀手级AI应用程序，但它的强大功能可能有助于网络犯罪分子执行的一些普通后端工作。

　　例如，使用LLM对大量被盗数据进行排序，找出敲诈公司时需要提及的最重要数据。或者使用聊天机器人进行初步的赎金谈判。

　　另一项假设的创新可能是一种AI工具，它可以根据被盗数据计算组织将支付的最高赎金。我们报告了2023年第二季度参与者在其产品中实施AI的一些示例，其中包括使用AI提供免费翻译服务的初始访问经纪人 (IAB)。2023年5月，我们报告了一个威胁行为者提供了一种据称可以绕过ChatGPT限制的工具。

　　AI和机器学习工具能够通过视频和音频进行模拟，这对身份和访问管理构成威胁。使用AI渲染的视频现在相当容易被检测到，但合成语音克隆对于使用语音生物识别技术作为身份验证流程一部分的组织来说是一个很大的威胁。

　　我们仍然认为，不能完全依赖AI来实施更复杂的网络犯罪，以目前的形式这样做可能会产生有缺陷的结果。但这个领域的发展速度如此之快，以至于很难看到即将发生的事情。

　　开源LLM和服务的激增——其中一些是为了不设置安全护栏来防止恶意使用而建立的——意味着这个领域仍然是一个未知数。

　　有三件事不会变

　　@AI学者吴恩达

　　知名AI学者吴恩达在其创办的AI教育科技公司DeepLearning.AI官网发表了一篇预测AI趋势的新文章。他相信AI领域有三件事在未来十年都不会改变:

　　我们需要AI社区。有朋友和盟友的人比没有的人做得更好。尽管AI世界似乎每周都会带来突破，但你最好与朋友一起区分什么是真实的、什么是炒作，去验证想法，相互支持，一起创造。

　　知道如何使用AI工具的人工作效率更高。知道如何操纵数据的人和企业能够更有效地了解真相、做出更好的决策并取得更多成果。随着AI的不断进步，这一点会成为现实。

　　AI需要良好的数据才能正常运行。正如人类需要良好的数据来做出决策，从采取什么营销策略到给孩子吃什么，AI也需要良好的数据，即使我们的算法在不断扩展、演变和改进。

2024年AI行业预测：开源模型击败GPT-4、Agent爆发、AI侵权案涌现……

延展资讯