Google 刚刚宣布了其迄今为止最强大的 AI 模型套件 Gemini,但该公司已被指控在其宣传视频中对其性能进行了误导性表述。
根据彭博社专栏作家帕尔米·奥尔森(Parmy Olson)的观点文章,Google 在一段视频中误导了公众对Gemini的理解。本周早些时候,Google 在宣布过程中播放了一段令人印象深刻的名为「what the quack」的操作视频,奥尔森在文章中指出,视频中展示的 Gemini 似乎极具能力,甚至可能过于强大。
这段六分钟的视频展示了 Gemini 的多模态能力(例如,结合语音会话提示和图像识别)。视频中,Gemini 似乎能快速识别图像——甚至是连线画——在几秒内作出反应,并实时追踪杯子和纸球游戏中的纸团。虽然人类可以做到这一切,但这是一种能够识别和预测接下来会发生什么的 AI。
然而,如果点击 YouTube 上该视频的描述,Google 有一个重要的声明:
「出于本演示的目的,延迟已减少,并且为了简洁起见,Gemini 输出也已缩短。」
奥尔森对此表示不满。她在彭博社的文章中指出,Google 在被要求评论时承认,视频演示并非实时进行,而是使用了原始视频的静态图像帧,然后撰写了文本提示供 Gemini 回应。奥尔森写道:「这与 Google 似乎在暗示的内容大相径庭:一个人可以与 Gemini 顺畅地进行语音对话,同时 Gemini 实时观察并回应周围的世界。」
公平地说,公司经常编辑演示视频,特别是许多公司希望避免实时演示带来的技术故障。稍微调整演示是常见的。但 Google 有可疑视频演示的历史。人们曾怀疑 Google 的 Duplex 演示(记得 Duplex 吗,那个能打电话给美发沙龙和餐厅预订的 AI 语音助手?)是否真实,因为视频中明显缺乏环境噪音和过于乐于助人的员工。对 AI 模型的预录制视频也使人们更加怀疑。
在这种情况下,奥尔森表示,Google 是在「炫耀」,以转移人们对 Gemini 落后于 OpenAI 的 GPT 的事实的注意力。
Google 对此表示不同意。在被问及演示的有效性时,它指向了 Google DeepMind 的研究副总裁兼深度学习负责人(同时也是 Gemini 联合负责人)奥里奥尔·维尼亚尔斯(Oriol Vinyals)的一篇帖子,该帖子解释了团队是如何制作视频的。
维尼亚尔斯说:「视频中的所有用户提示和输出都是真实的,为了简洁而缩短。视频展示了使用 Gemini 构建的多模式用户体验可能的样子。我们制作它是为了激发开发者的灵感。」
他补充说,团队向 Gemini 提供了图像和文本,并要求它通过预测接下来会发生什么来作出回应。
这当然是处理这种情况的一种方式,但对于 Google 来说,这可能不是正确的选择——至少在公众眼中,Google 已经因 OpenAI 今年取得的巨大成功而显得措手不及。如果它想激发开发者的灵感,不是通过精心编辑的炫目短片,这些短片可能会误导 AI 的能力。而是通过让记者和开发者真正体验产品。让人们在小型公开测试版中与 Gemini 一起做蠢事。向我们展示它到底有多强大。