虽然 OpenAI 最近推出的模型 GPT-4o 在大型语言模型(LLM)领域有了重大突破,但该公司已经开始着手研发下一个旗舰模型 GPT-5。许多人在 GPT-4o 发布前期就期待着 OpenAI 推出备受瞩目的 GPT-5。为了澄清这种猜测,首席执行官 Sam Altman 甚至在 X 上发帖称 “不是 gpt-5,也不是搜索引擎”。
如今,仅仅两周后,在一篇博文中,OpenAI 宣布成立了一个新的安全和保障委员会,该委员会将为 OpenAI 董事会提供安全和保障方面的建议。在博文中,该公司确认正在训练其下一个旗舰模型,很可能是指 GPT-4的继任者 GPT-5。该公司表示:“OpenAI 最近开始训练其下一个前沿模型,我们预计所得到的系统将在通向人工通用智能(AGI)的道路上将我们带到新的能力水平”。
虽然 GPT-5可能需要几个月甚至更长时间才能向客户提供服务,因为训练 LLM 模型需要很长时间,但以下是对 OpenAI 的下一代模型的一些预期,从最不令人兴奋的到最令人兴奋的。
1.更高准确性:根据过去的趋势,我们可以期待 GPT-5在回答中变得更准确,因为它将在更多数据的基础上进行训练。生成式 AI 模型(如 ChatGPT)通过使用其训练数据来提供答案。因此,模型接受的训练数据越多,模型生成连贯内容的能力就越好,性能也会提高。每次发布的模型,其训练数据都有所增加。例如,有报道称 GPT-3.5的训练参数为1750亿,而 GPT-4的训练参数为1万亿。我们很可能会在 GPT-5发布时看到更大的飞跃。
2. 增加多模态:根据每个主要旗舰模型(如 GPT-3.5、GPT-4和 GPT-4o)之间的差异,我们可以预测 GPT-5的能力。随着每一次的升级,模型变得更加智能,拥有许多升级,包括价格、速度、上下文长度和模态等。GPT-3.5只能输入和输出文本。GPT-4Turbo 可以输入文本和图像,以获取文本输出。GPT-4o 可以输入文本、音频、图像和视频的组合,并接收文本、音频和图像的任意组合的输出。按照这个趋势,GPT-5的下一步将是支持视频输出。OpenAI 在二月份推出了文本到视频的模型 Sora,这个模型可能会被整合到 GPT-5中,以实现视频输出。
3. 实现自主行动能力(AGI):聊天机器人无疑是令人印象深刻的人工智能工具,能够帮助人们完成许多任务,包括生成代码、Excel 公式、文章、简历、应用程序、图表和表格等。然而,我们越来越希望 AI 知道我们想要什么,并能在最小的指示下完成任务,即人工通用智能(AGI)。拥有 AGI,用户可以要求代理完成一个目标,它可以通过推理和计划来完成任务。例如,在理想的情况下,如果 GPT-5具备 AGI,用户可以请求 “帮我从麦当劳订一个汉堡”,AI 将能够完成一系列任务,包括打开麦当劳网站,并输入您的订单、地址和付款方式。你只需要担心的是吃汉堡。
作为人工智能的下一个前沿,AGI 可以完全提升我们从 AI 获得的协助类型,并改变我们对助手的看法。我们将不再依赖 AI 助手告诉我们天气如何,它们将能够从开始到结束地帮助我们完成任务,这是我们期待的事情。