6park.com
尽管视频确实警告说“延迟已经减少,Gemini 输出也已经缩短”,但它的响应速度也非常快。 所以他们跳过了这里的犹豫和那里的冗长答案,明白了。 总而言之,这是多模态理解领域令人惊叹的力量展示。 当我观看实际操作时,我对谷歌能否推出竞争者的怀疑受到了打击。
VIDEO
只有一个问题:视频不是真实的。 “ 我们通过捕捉镜头来创建演示,以测试 Gemini 在各种挑战中的能力。 然后,我们使用镜头中的静态图像帧来提示 Gemini,并通过文本进行提示。 (彭博社的帕米·奥尔森是 第一个报告 这一差异的人。)
因此,尽管它可能会做谷歌在视频中展示的事情,但它没有,也许不能,以他们暗示的方式现场做这些事情。 实际上,它是一系列经过精心调整的带有静态图像的文本提示,经过明确选择和缩短,以歪曲交互的实际情况。 您可以在相关博客文章 中看到一些实际的提示和响应 - 公平地说,视频描述中链接了这些提示和响应,尽管位于“…更多”下方。
一方面,双子座似乎确实产生了视频中所示的反应。 谁想看到一些内务命令,例如告诉模型刷新其缓存? 但观众在与模型交互的速度、准确性和基本模式方面被误导了。 6park.com
例如,在视频的 2 点 45 分处,一只手静静地做出一系列手势。 双子座很快回应道:“我知道你在做什么! 你在玩石头、剪刀、布!”
6park.com
图片来源: Google/YouTube 6park.com
但该功能文档中的第一件事是模型如何不根据看到的单个手势进行推理。 它必须同时显示所有三个手势并提示:“你认为我在做什么? 提示:这是一个游戏。” 它回答道:“你在玩石头、剪刀、布。”
6park.com
图片来源:谷歌 6park.com
尽管有相似之处,但这些交互感觉并不相同。 它们给人的感觉是根本不同的交互,一种是直观的、无言的评估,可以即时捕捉抽象的想法,另一种是精心设计的、暗示性很强的交互,既展示了能力,也展示了局限性。 双子座做了后者,而不是前者。 视频中显示的“互动”并没有发生。
随后,将三张带有太阳、土星和地球涂鸦的便利贴放在表面上。 “这个顺序正确吗?” 双子座说不,它去太阳、地球、土星。 正确的! 但在实际的(再次书面的)提示中,问题是“这是正确的顺序吗? 考虑到太阳的距离并解释你的推理。”
6park.com
图片来源:谷歌 6park.com
双子座做对了吗? 或者它是否弄错了,需要一些帮助才能产生可以放入视频中的答案? 它是否认识到了行星,或者它也需要帮助吗? 6park.com
在视频中,纸团在杯子下交换,模型立即且看似直观地检测和跟踪。 在帖子中,不仅需要解释活动,而且还必须训练模型(如果快速并使用自然语言)来执行它。 等等。
这些示例对您来说可能看起来微不足道,也可能不那么微不足道。 毕竟,对于多模式模型来说,如此快速地将手势识别为游戏实际上确实令人印象深刻! 判断一张半成品是不是鸭子也是如此! 尽管现在,由于博客文章缺乏对鸭子序列的解释,我也开始怀疑这种互动的准确性。
现在,如果视频一开始就说“这是我们的研究人员测试的交互的程式化表现”,那么没有人会眨眼——我们有点期望这样的视频一半是事实,一半是理想。
但该视频被称为“与双子座互动”,当他们说它显示“我们最喜欢的互动”时,暗示我们看到的互动就是 这些互动。 他们不是。 有时他们会更加投入;有时他们会更加投入。 有时它们完全不同; 有时它们似乎根本没有发生过。 我们甚至不知道它是什么型号——人们现在可以使用的 Gemini Pro,还是(更有可能)定于明年发布的 Ultra 版本? 6park.com
当谷歌以他们的方式描述视频时,我们是否应该假设他们只是给我们提供了一个风味视频? 也许我们应该假设谷歌人工智能演示中的 所有功能都被夸大了。 我在标题中写道,该视频是“伪造的”。 起初我不确定这种严厉的语言是否合理(当然谷歌没有;一位发言人要求我改变它)。 但尽管包含了一些真实的部分,视频根本无法反映现实。 这是假的。
谷歌表示,该视频“显示了 Gemini 的真实输出”,这是事实,并且“我们对演示进行了一些编辑(我们对此一直是坦率且透明的)”,但事实并非如此。 这不是一个演示 - 不是真正的演示 - 并且视频显示的交互与为告知它而创建的交互非常不同。
更新:在本文发表后发布的 社交媒体帖子 中,Google DeepMind 的研究副总裁 Oriol Vinyals 详细介绍了“Gemini 是如何用来创建”该视频的。 “该视频展示了使用 Gemini 构建的多模式用户体验 是什么样子。 我们这样做是为了激励开发人员。” (强调我的。)有趣的是,它显示了一个预先提示序列,让双子座在没有太阳暗示的情况下回答行星问题(尽管它确实告诉双子座它是行星专家并考虑图中物体的顺序)。
下周,当带有 Gemini Pro 的 AI Studio 可供实验时,也许我会吃乌鸦。 Gemini 很可能发展成为一个强大的人工智能平台,真正与 OpenAI 和其他平台相媲美。 但谷歌在这里所做的却是毒害了井。 当他们声称他们的模型现在有所作为时,人们怎么能信任该公司呢? 他们已经在比赛中一瘸一拐地落后了。 谷歌可能刚刚搬起石头砸自己的另一只脚。 6park.com