[返回数码家电首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
世界最快大模型 Groq 登场:每秒 500 token 破纪录,自研 LPU 是英伟达 GPU 10 倍
送交者: An4dy[♂★★★声望勋衔14★★★♂] 于 2024-02-20 10:10 已读 7224 次  

An4dy的个人频道

卷疯了!世界最快的大模型 Groq 一夜之间爆火,能够每秒输出近 500 个 token。如此神速的响应,背后全凭自研的 LPU。一觉醒来,每秒能输出 500 个 token 的 Groq 模型刷屏全网。堪称是世界上速度最快的 LLM!


相比之下,ChatGPT-3.5 每秒生成速度仅为 40 个 token。

有网友将其与 GPT-4、Gemini 对标,看看它们完成一个简单代码调试问题所需的时间。没想到,Groq 完全碾压两者,在输出速度上比 Gemini 快 10 倍,比 GPT-4 快 18 倍。(不过就答案质量来说,Gemini 更好。)

最关键的是,任何人可以免费用!

进入 Groq 主页,目前有两种可以自选的模型:Mixtral8x7B-32k,Llama 270B-4k。


地址: https://groq.com/

与此同时,Groq API 也向开发者提供,完全兼容 OpenAI API。 6park.com

Mixtral 8x7B SMoE 可以达到 480 token / S,100 万 token 价格为 0.27 美元。极限情况下,用 Llama2 7B 甚至能实现 750 token / S。


目前,他们还提供 100 万 token 的免费试用。

Groq 突然爆火,背后最大的功臣不是 GPU,而是自研的 LPU—— 语言处理单元。单卡仅有 230MB 内存,2 万美元一张。在 LLM 任务上,LPU 比英伟达的 GPU 性能快 10 倍。


在前段时间的基准测试中,Groq LPU 推理引擎上运行的 Llama 2 70B 直接刷榜,而且比顶级云提供商快 18 倍的 LLM 推理性能。


演示

Groq 火箭般的生成速度,让许多人为之震惊。网友们纷纷放出的自己做的 demo。


在不到一秒钟的时间里,生成几百词的、带有引用的事实性回答。实际上,搜索占据了超过四分之三的处理时间,而非内容的生成!


针对「创建一个简单的健身计划」同一提示,Groq 与 ChatGPT 并排响应,速度差异。



面对 300 多个单词的「巨型」prompt,Groq 在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划!



Groq 完全实现了远程实时的 AI 对话。在 GroqInc 硬件上运行 Llama 70B,然后在提供给 Whisper,几乎没有延迟。


GPU 不存在了?

Groq 模型之所以能够以惊人速度响应,是因为背后公司 Groq(同名)开发了独特的硬件 ——LPU。并非是,传统的 GPU。


简而言之,Groq 自研的是一种名为张量流处理器(TSP)的新型处理单元,并将其定义为「语言处理单元」,即 LPU。它是专为图形渲染而设计、包含数百个核心的并行处理器,能够为 AI 计算提供稳定的性能。


论文地址: https://wow.groq.com/wp-content / uploads / 2024/02 / GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf

具体来说,LPU 的工作原理与 GPU 截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的 GPU 那样频繁地从内存中加载数据。

这一特点不仅有助于避免 HBM 短缺的问题,还能有效降低成本。这种设计使得每个时钟周期(every clock cycle)都能被有效利用,从而保证了稳定的延迟和吞吐量。

在能效方面,LPU 也显示出其优势。通过减少多线程管理的开销和避免核心资源的未充分利用,LPU 能够实现更高的每瓦特计算性能。

目前,Groq 可支持多种用于模型推理的机器学习开发框架,包括 PyTorch、TensorFlow 和 ONNX。但不支持使用 LPU 推理引擎进行 ML 训练。

甚至有网友表示,「Groq 的 LPU 在处理请求和响应方面,速度超越了英伟达的 GPU」。

不同于英伟达 GPU 需要依赖高速数据传输,Groq 的 LPU 在其系统中没有采用高带宽存储器(HBM)。它使用的是 SRAM,其速度比 GPU 所用的存储器快约 20 倍。


鉴于 AI 的推理计算,相较于模型训练需要的数据量远小,Groq 的 LPU 因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的 GPU。

LPU 并不像 GPU 那样对存储速度有极高要求。如果在 AI 处理场景中采用 Groq 的 LPU,可能就无需为英伟达 GPU 配置特殊的存储解决方案。


Groq 的创新芯片设计实现了多个 TSP 的无缝链接,避免了 GPU 集群中常见的瓶颈问题,极大地提高了可扩展性。

这意味着随着更多 LPU 的加入,性能可以实现线性扩展,简化了大规模 AI 模型的硬件需求,使开发者能够更容易地扩展应用,而无需重构系统。


Groq 公司宣称,其技术能够通过其强大的芯片和软件,在推理任务中取代 GPU 的角色。

网友做的具体规格对比图。


这一切意味着什么?

对开发者来说,这意味着性能可以被精确预测并优化,这一点对于实时 AI 应用至关重要。

对于未来 AI 应用的服务而言,LPU 可能会带来与 GPU 相比巨大的性能提升!

考虑到 A100 和 H100 如此紧缺,对于那些初创公司拥有这样的高性能替代硬件,无疑是一个巨大的优势。

目前,OpenAI 正在向全球政府和投资者寻求 7 万亿美元的资金,以开发自己的芯片,解决扩展其产品时遇到算力不足的问题。

2 倍吞吐量,响应速度仅 0.8 秒

前段时间,在 ArtifialAnalysis.ai的 LLM 基准测试中,Groq 的方案击败了 8 个关键性能指标。

其中包括在延迟与吞吐量、随时间的吞吐量、总响应时间和吞吐量差异。

在右下角的绿色象限中,Groq 取得最优的成绩。


Llama 2 70B 在 Groq LPU 推理引擎上效果最为出色,达到了每秒 241 个 token 的吞吐量,是其他大厂的 2 倍还要多。

总响应时间

Groq 的响应时间也是最少的,接收 100 个 token 后输出只有 0.8 秒。

另外,Groq 已经运行了几个内部基准,可以达到每秒 300 个 token,再次设定了全新的速度标准。

Groq 首席执行官 Jonathan Ross 曾表示,「Groq 的存在是为了消除「富人和穷人」,并帮助人工智能社区中的每个人发展。而推理是实现这一目标的关键,因为『速度』是将开发人员的想法转化为商业解决方案和改变生 App 的关键」。


一块卡 2 万刀,内存 230MB

想必大家在前面已经注意到了,一张 LPU 卡仅有 230MB 的内存。

而且,售价为 2 万 + 美元。


根据 The Next Platform 的报道,在以上的测试中,Groq 实际上使用了 576 个 GroqChip,才实现了对 Llama 2 70B 的推理。


通常来说,GroqRack 配备有 9 个节点,其中 8 个节点负责计算任务,剩下 1 个节点作为备用。但这次,9 个节点全部被用于计算工作。


对此网友表示,Groq LPU 面临的一个关键问题是,它们完全不配备高带宽存储器(HBM),而是仅配备了一小块(230MiB)的超高速静态随机存取存储器(SRAM),这种 SRAM 的速度比 HBM3 快 20 倍。

这意味着,为了支持运行单个 AI 模型,你需要配置大约 256 个 LPU,相当于 4 个满载的服务器机架。每个机架可以容纳 8 个 LPU 单元,每个单元中又包含 8 个 LPU。

相比之下,你只需要一个 H200(相当于 1/4 个服务器机架的密度)就可以相当有效地运行这些模型。

这种配置如果用于只需运行一个模型且有大量用户的场景下可能表现良好。但是,一旦需要同时运行多个模型,特别是需要进行大量的模型微调或使用高级别的 LoRA 等操作时,这种配置就不再适用。

此外,对于需要在本地部署的情况,Groq LPU 的这一配置优势也不明显,因为其主要优势在于能够集中多个用户使用同一个模型。

另有网友表示,「Groq LPU 似乎没有任何 HBM,而且每个芯片基本上都带有少量的 SRAM?也就是说他们需要大约 256 个芯片来运行 Llama 70B?」

没想到得到了官方回应:是的,我们的 LLM 在数百个芯片上运行。


还有人对 LPU 的卡的价钱提出了异议,「这难道不会让你的产品比 H100 贵得离谱吗」?

马斯克 Grok,同音不同字

前段时间,Groq 曾公开基准测试结果后,已经引来了一大波关注。而这次,Groq 这个最新的 AI 模型,凭借其快速响应和可能取代 GPU 的新技术,又一次在社交媒体上掀起了风暴。

不过,Groq 背后的公司并非大模型时代后的新星。

它成立于 2016 年,并直接注册了 Groq 这一名字。


CEO 兼联合创始人 Jonathan Ross 在创立 Groq 之前,曾是谷歌的员工。

曾在一个 20% 的项目中,设计并实现了第一代 TPU 芯片的核心元素,这就是后来的谷歌张量处理单元(TPU)。

随后,Ross 加入了谷歌 X 实验室的快速评估团队(著名的「登月工厂」项目初始阶段),为谷歌母公司 Alphabet 设计和孵化新的 Bets(单元)。


或许大多数人对马斯克 Grok,还有 Groq 模型的名字感到迷惑。

其实,在劝退马斯克使用这个名字时,还有个小插曲。

去年 11 月,当马斯克的同名 AI 模型 Grok(拼写有所不同)开始受到关注时,Groq 的开发团队发表了一篇博客,幽默地请马斯克另选一个名字:

我们明白你为什么会喜欢我们的名字。你对快速的事物(如火箭、超级高铁、单字母公司名称)情有独钟,而我们的 Groq LPU 推理引擎正是运行 LLM 和其他生成式 AI 应用的最快方式。但我们还是得请你赶紧换个名字。

我们明白你为什么会喜欢我们的名字。你对快速的事物(如火箭、超级高铁、单字母公司名称)情有独钟,而我们的 Groq LPU 推理引擎正是运行 LLM 和其他生成式 AI 应用的最快方式。但我们还是得请你赶紧换个名字。


不过,马斯克并未对两个模型名称的相似之处作出回应。

参考资料:

https://x.com/JayScambler/status/1759372542530261154?s=20

https://x.com/gabor/status/1759662691688587706?s=20

https://x.com/GroqInc/status/1759622931057934404?s=20 6park.com

喜欢An4dy朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ An4dy的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回数码家电首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


    用户名:密码:[--注册ID--]

    标 题:

    粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


         图片上传  Youtube代码器  预览辅助

    打开微信,扫一扫[Scan QR Code]
    进入内容页点击屏幕右上分享按钮

    楼主本栏目热帖推荐:

    >>>>查看更多楼主社区动态...






    [ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]