The fastest large-scale model explosion in history! Groq became an overnight sensation, with its self-developed LPU outperforming NVIDIA GPU in speed.

华尔街见闻
2024.02.20 11:49
portai
I'm PortAI, I can summarize articles.

英伟达的挑战者 Groq 登场!抛弃 GPU,自研 LPU!文本生成速度比眨眼还快!推理场景速度比英伟达 GPU 快 10 倍,但价格和耗电量都仅为后者十分之一。

一觉醒来,AI 圈又变天了。

还没消化完 Sora 带来的震撼,又一家硅谷初创企业带着史上最快的大模型和自研芯片 LPU 霸占了热搜。

就在昨天,AI 芯片创企 Groq(不是马斯克的 Gork)开放了自家产品的免费试用。相比其他 AI 聊天机器人,Groq 闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq 每秒生成速度接近 500 tok/s,碾压 GPT-4 的 40 tok/s。

有网友震惊地说:

它回复的速度比我眨眼还快。

不过,需要强调的是,Groq 并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型 Mixtral 8x7B-32k 和 Llama 270B-4k。

冠绝大模型圈子的响应速度,来自驱动模型的硬件——Groq 并未使用英伟达的 GPU,而是自研了新型 AI 芯片——LPU(Language Processing Units)。

每秒 500 tokens,写论文比你眨眼还快

LPU 最突出的特点就是快。

根据 2024 年一月的测试结果,由 Groq LPU 驱动 Meta Llama 2 模型,推理性能遥遥领先,是顶级云计算供应商的 18 倍。

图片来源:GIT HUB

华尔街见闻此前文章提及,Groq LPU 搭配 Meta Llama 2 70B 能在 7 分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快 75 倍。

如下图所示,有推特网友问了一个和营销有关的专业问题,Groq 在四秒钟之内就输出了上千词的长篇大论。

还有网友测试同时用 Gemini、GPT-4 和 Groq 完成一个代码调试问题。

结果,Groq 的输出速度比 Gemini 快 10 倍,比 GPT-4 快 18 倍。

Groq 在速度上对其他 AI 模型的降维打击,让网友直呼,“AI 推理界的美国队长来了”。

LPU,英伟达 GPU 的挑战者?

再强调一遍,Groq 没有开发新的模型,它只是用了不一样的芯片。

根据 Groq 官网的介绍,LPU 是一种专为 AI 推理所设计的芯片。驱动包括 GPT 等主流大模型的 GPU,是一种为图形渲染而设计的并行处理器,有数百个内核,而 LPU 架构则与 GPU 使用的 SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求:

Groq 的 LPU 推理引擎不是普通的处理单元;它是一个端到端系统,专为需要大量计算和连续处理的应用(如 LLM)提供最快的推理而设计。通过消除外部内存瓶颈,LPU 推理引擎的性能比传统 GPU 高出几个数量级。

简单来说,对用户而言,最直观的体验就是 “快”。

使用过 GPT 的读者一定知道,痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验,而 LPU 驱动下的大模型,基本可以做到实时响应。

比如下图,华尔街见闻向 Groq 询问 LPU 和 GPU 的区别,Groq 生成这个回答用时不到 3 秒,完全不会像 GPT、Gemini 那样出现显著的延迟。如果以英文提问,生成速度还会更快。

Groq 官方的介绍还显示,创新的芯片架构可以把多个张量流处理器(Tensor Streaming Processor,简称 TSP)连接在一起,而不会出现 GPU 集群中的传统瓶颈,因此具有极高的可扩展性,简化了大规模 AI 模型的硬件要求。

能效也是 LPU 的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足,LPU 每瓦特可以提供更多的算力。

Groq 创始人兼首席执行官 Jonathan Ross 在采访中,时时不忘给英伟达上眼药。

他此前对媒体表示,在大模型推理场景,Groq LPU 芯片的速度比英伟达 GPU 快 10 倍,但价格和耗电量都仅为后者的十分之一。

实时推理是通过经过训练的 AI 模型运行数据的计算过程,以提供 AI 应用的即时结果,从而实现流畅的最终用户体验。随着 AI 大模型的发展,实时推理的需求激增。

Ross 认为,对于在产品中使用人工智能的公司来说,推理成本正在成为一个问题,因为随着使用这些产品的客户数量增加,运行模型的成本也在迅速增加。与英伟达 GPU 相比,Groq LPU 集群将为大模型推理提供更高的吞吐量、更低的延迟和更低的成本。

他还强调,Groq 的芯片,由于技术路径不同,在供应方面比英伟达更充足,不会被台积电或者 SK 海力士等供应商卡脖子:

GroqChip LPU 的独特之处在于,它不依赖于三星或 SK 海力士的 HBM,也不依赖于台积电将外部 HBM 焊接到芯片上的 CoWoS 封装技术。

不过,另有一些 AI 专家在社交媒体上表示,Groq 芯片的实际成本并不低。

如人工智能专家贾扬清分析称,Groq 综合成本相当于英伟达 GPU 的 30 多倍。

考虑到每张 Groq 芯片的内存容量为 230MB,实际运行模型需要 572 张芯片,总成本高达 1144 万美元。

相比之下,8 张 H100 的系统在性能上与 Groq 系统相当,但硬件成本仅为 30 万美元,年度电费约 2.4 万美元。三年总运营成本对比显示,Groq 系统的运营成本远高于 H100 系统,

而且,更关键的是,LPU 目前仅用于推理,要训练大模型,仍然需要购买英伟达 GPU。

创始人为谷歌 TPU 设计者之一 相信未来 2 年能卖出 100 万个 LPU

在今天互联网上一炮而红之前,Groq 已经低调埋头研发 7 年多的时间。

公开资料显示,Groq 成立于 2016 年,总部位于美国加州圣塔克拉拉山景城。公司创始人 Jonathan Ross 是前谷歌高级工程师,是谷歌自研 AI 芯片 TPU 的设计者之一。产品主管 John Barrus 曾在谷歌及亚马逊担任产品高管。

高管内唯一一位华裔面孔、副总裁 Estelle Hong,在公司任职已有四年,此前曾供职于美国军队及英特尔。

就在去年 8 月,Groq 也宣布了和三星的合作计划,表示其下一代芯片将在美国德克萨斯州三星芯片工厂采用 4 纳米工艺生产,预计量产时间为 24 年下半年。

展望下一代 LPU,Ross 相信 GroqChip 的能效将提高 15 到 20 倍,可以在相同的功率范围内为设备增加更多的矩阵计算和 SRAM 存储器。

在去年底的采访中,Ross 表示,考虑到 GPU 的短缺和高昂的成本,他相信 Groq 未来的发展潜力

在 12 个月内,我们可以部署 10 万个 LPU,在 24 个月内,我们可以部署 100 万个 LPU。