[返回电脑前线首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
谷歌最好的 Gemini 演示是伪造的?
送交者: gonewithsmoke[☆★★★声望勋衔15★★★☆] 于 2023-12-08 11:31 已读 6902 次  

gonewithsmoke的个人频道

6park.com

图片来源:谷歌 6park.com

谷歌的新 Gemini AI 模型在昨天首次亮相后,受到的评价褒贬不一,但在发现最令人印象深刻的 Gemini 演示几乎是伪造的之后,用户可能对该公司的技术或完整性不再那么有信心。

一段名为“与 Gemini 互动:与多模式 AI 交互”的视频在最后一天观看次数达到了 100 万次,原因不难理解。这个令人印象深刻的演示“突出了我们最喜欢的与 Gemini 的一些交互”,展示了多模式模型(即它理解并混合语言和视觉理解)如何灵活地响应各种输入。

首先,它讲述了一只鸭子的草图从一条曲线到一幅完整的图画的演变过程,它说这是一种不切实际的颜色,然后当看到一只玩具蓝色鸭子时表现出惊讶(“什么嘎嘎!”)。然后它会响应有关该玩具的各种语音查询,然后演示继续进行其他炫耀动作,例如在换杯子游戏中跟踪球、识别皮影手势、重新排序行星草图等等。 6park.com

6park.com

尽管视频确实警告说“延迟已经减少,Gemini 输出也已经缩短”,但它的响应速度也非常快。所以他们跳过了这里的犹豫和那里的冗长答案,明白了。总而言之,这是多模态理解领域令人惊叹的力量展示。当我观看实际操作时,我对谷歌能否推出竞争者的怀疑受到了打击。


只有一个问题:视频不是真实的。我们通过捕捉镜头来创建演示,以测试 Gemini 在各种挑战中的能力。然后,我们使用镜头中的静态图像帧来提示 Gemini,并通过文本进行提示。(彭博社的帕米·奥尔森是第一个报告这一差异的人。)

因此,尽管它可能会做谷歌在视频中展示的事情,但它没有,也许不能,以他们暗示的方式现场做这些事情。实际上,它是一系列经过精心调整的带有静态图像的文本提示,经过明确选择和缩短,以歪曲交互的实际情况。您可以在相关博客文章中看到一些实际的提示和响应- 公平地说,视频描述中链接了这些提示和响应,尽管位于“…更多”下方。

一方面,双子座似乎确实产生了视频中所示的反应。谁想看到一些内务命令,例如告诉模型刷新其缓存?但观众在与模型交互的速度、准确性和基本模式方面被误导了。 6park.com

例如,在视频的 2 点 45 分处,一只手静静地做出一系列手势。双子座很快回应道:“我知道你在做什么!你在玩石头、剪刀、布!”

6park.com

图片来源: Google/YouTube 6park.com


但该功能文档中的第一件事是模型如何不根据看到的单个手势进行推理。它必须同时显示所有三个手势并提示:“你认为我在做什么?提示:这是一个游戏。” 它回答道:“你在玩石头、剪刀、布。”

6park.com

图片来源:谷歌 6park.com


尽管有相似之处,但这些交互感觉并不相同。它们给人的感觉是根本不同的交互,一种是直观的、无言的评估,可以即时捕捉抽象的想法,另一种是精心设计的、暗示性很强的交互,既展示了能力,也展示了局限性。双子座做了后者,而不是前者。视频中显示的“互动”并没有发生。

随后,将三张带有太阳、土星和地球涂鸦的便利贴放在表面上。“这个顺序正确吗?” 双子座说不,它去太阳、地球、土星。正确的!但在实际的(再次书面的)提示中,问题是“这是正确的顺序吗?考虑到太阳的距离并解释你的推理。”

6park.com

图片来源:谷歌 6park.com


双子座做对了吗?或者它是否弄错了,需要一些帮助才能产生可​​以放入视频中的答案?它是否认识到了行星,或者它也需要帮助吗? 6park.com

在视频中,纸团在杯子下交换,模型立即且看似直观地检测和跟踪。在帖子中,不仅需要解释活动,而且还必须训练模型(如果快速并使用自然语言)来执行它。等等。

这些示例对您来说可能看起来微不足道,也可能不那么微不足道。毕竟,对于多模式模型来说,如此快速地将手势识别为游戏实际上确实令人印象深刻!判断一张半成品是不是鸭子也是如此!尽管现在,由于博客文章缺乏对鸭子序列的解释,我也开始怀疑这种互动的准确性。

现在,如果视频一开始就说“这是我们的研究人员测试的交互的程式化表现”,那么没有人会眨眼——我们有点期望这样的视频一半是事实,一半是理想。

但该视频被称为“与双子座互动”,当他们说它显示“我们最喜欢的互动”时,暗示我们看到的互动就是这些互动。他们不是。有时他们会更加投入;有时他们会更加投入。有时它们完全不同;有时它们似乎根本没有发生过。我们甚至不知道它是什么型号——人们现在可以使用的 Gemini Pro,还是(更有可能)定于明年发布的 Ultra 版本? 6park.com

当谷歌以他们的方式描述视频时,我们是否应该假设他们只是给我们提供了一个风味视频?也许我们应该假设谷歌人工智能演示中的所有功能都被夸大了。我在标题中写道,该视频是“伪造的”。起初我不确定这种严厉的语言是否合理(当然谷歌没有;一位发言人要求我改变它)。但尽管包含了一些真实的部分,视频根本无法反映现实。这是假的。

谷歌表示,该视频“显示了 Gemini 的真实输出”,这是事实,并且“我们对演示进行了一些编辑(我们对此一直是坦率且透明的)”,但事实并非如此。这不是一个演示 - 不是真正的演示 - 并且视频显示的交互与为告知它而创建的交互非常不同。

更新:在本文发表后发布的社交媒体帖子中,Google DeepMind 的研究副总裁 Oriol Vinyals 详细介绍了“Gemini 是如何用来创建”该视频的。“该视频展示了使用 Gemini 构建的多模式用户体验什么样子。我们这样做是为了激励开发人员。” (强调我的。)有趣的是,它显示了一个预先提示序列,让双子座在没有太阳暗示的情况下回答行星问题(尽管它确实告诉双子座它是行星专家并考虑图中物体的顺序)。

下周,当带有 Gemini Pro 的 AI Studio 可供实验时,也许我会吃乌鸦。Gemini 很可能发展成为一个强大的人工智能平台,真正与 OpenAI 和其他平台相媲美。但谷歌在这里所做的却是毒害了井。当他们声称他们的模型现在有所作为时,人们怎么能信任该公司呢?他们已经在比赛中一瘸一拐地落后了。谷歌可能刚刚搬起石头砸自己的另一只脚。 6park.com

喜欢gonewithsmoke朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ gonewithsmoke的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回电脑前线首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


    用户名:密码:[--注册ID--]

    标 题:

    粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


         图片上传  Youtube代码器  预览辅助

    打开微信,扫一扫[Scan QR Code]
    进入内容页点击屏幕右上分享按钮

    楼主本栏目热帖推荐:

    >>>>查看更多楼主社区动态...






    [ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]