谷歌承认 Gemini AI 模型演示视频不是真实的：使用静态图像帧，并撰写文本提示供 Gemini 回应

　　Google 刚刚宣布了其迄今为止最强大的 AI 模型套件 Gemini，但该公司已被指控在其宣传视频中对其性能进行了误导性表述。

谷歌大模型Gemini

　　根据彭博社专栏作家帕尔米·奥尔森(Parmy Olson)的观点文章，Google 在一段视频中误导了公众对Gemini的理解。本周早些时候，Google 在宣布过程中播放了一段令人印象深刻的名为「what the quack」的操作视频，奥尔森在文章中指出，视频中展示的 Gemini 似乎极具能力，甚至可能过于强大。

　　这段六分钟的视频展示了 Gemini 的多模态能力(例如，结合语音会话提示和图像识别)。视频中，Gemini 似乎能快速识别图像——甚至是连线画——在几秒内作出反应，并实时追踪杯子和纸球游戏中的纸团。虽然人类可以做到这一切，但这是一种能够识别和预测接下来会发生什么的 AI。

　　然而，如果点击 YouTube 上该视频的描述，Google 有一个重要的声明：

　　「出于本演示的目的，延迟已减少，并且为了简洁起见，Gemini 输出也已缩短。」

　　奥尔森对此表示不满。她在彭博社的文章中指出，Google 在被要求评论时承认，视频演示并非实时进行，而是使用了原始视频的静态图像帧，然后撰写了文本提示供 Gemini 回应。奥尔森写道：「这与 Google 似乎在暗示的内容大相径庭：一个人可以与 Gemini 顺畅地进行语音对话，同时 Gemini 实时观察并回应周围的世界。」

　　公平地说，公司经常编辑演示视频，特别是许多公司希望避免实时演示带来的技术故障。稍微调整演示是常见的。但 Google 有可疑视频演示的历史。人们曾怀疑 Google 的 Duplex 演示(记得 Duplex 吗，那个能打电话给美发沙龙和餐厅预订的 AI 语音助手?)是否真实，因为视频中明显缺乏环境噪音和过于乐于助人的员工。对 AI 模型的预录制视频也使人们更加怀疑。

　　在这种情况下，奥尔森表示，Google 是在「炫耀」，以转移人们对 Gemini 落后于 OpenAI 的 GPT 的事实的注意力。

　　Google 对此表示不同意。在被问及演示的有效性时，它指向了 Google DeepMind 的研究副总裁兼深度学习负责人(同时也是 Gemini 联合负责人)奥里奥尔·维尼亚尔斯(Oriol Vinyals)的一篇帖子，该帖子解释了团队是如何制作视频的。

　　维尼亚尔斯说：「视频中的所有用户提示和输出都是真实的，为了简洁而缩短。视频展示了使用 Gemini 构建的多模式用户体验可能的样子。我们制作它是为了激发开发者的灵感。」

　　他补充说，团队向 Gemini 提供了图像和文本，并要求它通过预测接下来会发生什么来作出回应。

　　这当然是处理这种情况的一种方式，但对于 Google 来说，这可能不是正确的选择——至少在公众眼中，Google 已经因 OpenAI 今年取得的巨大成功而显得措手不及。如果它想激发开发者的灵感，不是通过精心编辑的炫目短片，这些短片可能会误导 AI 的能力。而是通过让记者和开发者真正体验产品。让人们在小型公开测试版中与 Gemini 一起做蠢事。向我们展示它到底有多强大。

谷歌承认 Gemini AI 模型演示视频不是真实的：使用静态图像帧，并撰写文本提示供 Gemini 回应

延展资讯