在日益激烈的生成型 AI 市场竞争中,谷歌近期推出了其大型语言模型Gemini的预告视频。然而,有关该视频真实性的争议随后引发了广泛关注。
谷歌发布的演示视频展示了Gemini模型的多模态能力,能够巧妙地解读并处理来自实时视频和音频的信息。这对谷歌来说是一项重大成就,尤其是在与 OpenAI 等竞争对手的激烈竞争中。然而,据彭博社报道,演示视频实际上是通过「使用视频的静态图像帧,并通过文本提示」制作的,而不是看似实现的实时语音和视频处理。
在旧金山举行的《财富》杂志 Brainstorm AI 会议上,谷歌助手和 Bard 的副总裁兼总经理 Sissie Hsiao 讨论了这段颇具争议的演示视频。她强调了 Gemini 作为一个模型所达到的标准,以及它将如何推动谷歌的聊天机器人 Bard 的发展。「这个视频完全真实。所有的提示和模型响应都是真实的,」Hsiao 说。「我们确实为了简洁而缩短了部分内容,这些信息也已经在视频中说明。」
演示视频展示了新 AI 模型识别一条波浪线,然后识别新线的曲线,最终绘制出一只鸭子的图画的多模态能力。在整个过程中,模型持续识别每个元素,实时提供与鸭子相关的事实和答案。
Hsiao 突出了 Gemini 在各种基准测试中的成就,这些测试包括高中物理、专业法律难题和道德场景。据 The Verge 报道,Gemini Ultra 在 32 项基准测试中击败了 OpenAI 的 GPT-4,共赢得了 30 项测试,这是一个值得夸耀的成就,尽管 Gemini Ultra 直到明年才会发布。目前,Bard 使用的是不那么先进的 Gemini Pro,大致相当于 GPT 3.5。
Hsiao 表示,这些 Gemini 模型将继续改进谷歌搜索以及谷歌 Bard 聊天机器人,后者据她所说是「目前市场上最受欢迎的免费聊天机器人。」