
挑戰英偉達,需要另闢蹊徑

Groq 是近期 AI 芯片界的一個明星。3 月 2 日,據報道,Groq 收購了一家人工智能解決方案公司 Definitive Intelligence。Groq 是由前谷歌員工喬納森·羅斯創立的,團隊中成員有谷歌、亞馬遜、蘋果的前員工。Groq 開發了一款 LPU(語言處理單元)推理引擎,該引擎在 AI 市場上展現了快速的推理速度,比英偉達的 GPU 有顯著提升。Groq 的挑戰者主要從推理切入,AI 推理市場對英偉達來説非常重要。
Groq 是近期 AI 芯片界的一個明星。原因是其號稱比英偉達的 GPU 更快。3 月 2 日,據報道,Groq 收購了一家人工智能解決方案公司 Definitive Intelligence。這是 Groq 在 2022 年收購高性能計算和人工智能基礎設施解決方案公司 Maxeler Technologies 後的第二次收購。Groq 來勢很兇。
自從 ChatGPT 爆火以來,英偉達憑藉 GPU 在市場上獨孤求敗,雖然也出現了不少挑戰者,但都沒有像 Groq 這般引人注意。
成立於 2016 年的 Groq,其創始人是被稱為 “TPU 之父” 的前谷歌員工喬納森·羅斯,團隊中成員不乏有谷歌、亞馬遜、蘋果的前員工。這幫人通過簡單的設計開發了一款 LPU(語言處理單元)推理引擎。就是這個 LPU 芯片讓 Groq 在 AI 市場上異軍突起,引得大家刷屏。據悉,LPU 可在當今大火的 LLM(大語言模型)中展現出非常快速的推理速度,比 GPU 有顯著提升。不要小看 AI 推理的市場,2023 年第四季度,英偉達有 4 成收入來源於此。因此,眾多英偉達的挑戰者是從推理切入的。

那麼,它是如何做到速度快的?為何能夠叫板英偉達?在芯片架構和技術路徑上有哪些可圈可點之處?。。。。對於這款引發廣泛關注的芯片,很多人也希望能夠了解其背後究竟有哪些玄妙?近日,半導體行業觀察有幸採訪到了北京大學集成電路學院,長聘副教授孫廣宇,孫教授為我們提供了一些專業見解,至於網上對 Groq 價格的各種推測,其比性能等估算更復雜,本文在此將不作過多探討,而是側重於技術層面的解析,以期為讀者帶來一些啓發。
最快的推理速度?
我們處於一個快節奏的世界中,人們習慣於快速獲取信息和滿足需求。研究表明,當網站頁面延遲 300 - 500 毫秒 (ms) 時,用户粘性會下降 20% 左右。這在 AI 的時代下更為明顯。速度是大多數人工智能應用程序的首要任務。類似 ChatGPT 這樣的大語言模型(LLM)和其他生成式人工智能應用具有改變市場和解決重大挑戰的潛力,但前提是它們足夠快,還要有質量,也就是結果要準確。
要想快,就要計算和處理數據的能力強大。據 Groq 的白皮書【Inference Speed Is the Key To Unleashing AI’s Potential】【1】指出,在衡量人工智能工作負載的速度時,需要考慮兩個指標:
-
輸出 Tokens 吞吐量(tokens/s):即每秒返回的平均輸出令牌數,這一指標對於需要高吞吐量的應用(如摘要和翻譯)尤為重要,且便於跨不同模型和提供商進行比較。
-
首個 Token 返回時間(TTFT):LLM 返回首個令牌所需的時間,對於需要低延遲的流式應用(如聊天機器人)尤其重要。
2)影響模型質量的兩個最大因素是模型大小 (參數數量) 和序列長度 (輸入查詢的最大大小)。模型大小可以被認為是一個搜索空間:空間越大,效果越好。例如,70B 參數模型通常會比 7B 參數模型產生更好的答案。序列長度類似於上下文。更大的序列長度意味着更多的信息——更多的上下文——可以輸入到模型中,從而導致更相關和相關的響應。
在 Anyscale 的 LLMPerf 排行榜上(這是一個針對大型語言模型(LLM)推理提供商的性能、可靠性和效率評估的基準測試),Groq LPU 在其首次公開基準測試中就取得了巨大成功。使用 Groq LPU 推理引擎運行的 Meta AI 的 Llama2 70B,在輸出 tokens 吞吐量上,實現了平均 185 tokens/s 的結果,比其他基於雲的推理提供商快了 3 到 18 倍。對於首個 Token 返回時間(TTFT),Groq 達到了 0.22 秒。所有 Llama 2 的計算都在 FP16 上完成。
這是如何實現的呢?
挖掘深度學習應用處理過程中的 “確定性”
如今行業不少人的共識認為,英偉達的成功不僅僅歸功於其 GPU 硬件,還在於其 CUDA 軟件生態系統。CUDA 也被業界稱為是其 “護城河”。那麼,其他 AI 芯片玩家該如何與英偉達競爭?
孫教授表示,誠然,CUDA 為 GPU 開發者提供了一個高效的編程框架,方便編程人員快速實現各種算子。不過,僅靠編程框架並不能實現高性能的算子處理。因此,英偉達有大量的軟件開發團隊和算子優化團隊,通過仔細優化底層代碼並提供相應的計算庫,提升深度學習等應用計算效率。由於 CUDA 有較好的生態,這部分開源社區也有相當大的貢獻。
然而,CUDA 框架和 GPU 硬件架構的緊密耦合同時也帶來了挑戰,比如在 GPU 之間的數據交互通常需要通過全局內存(Global Memory),這可能導致大量的內存訪問,從而影響性能。如果需要減少這類訪存,需要利用 Kernel 的 Fusion 等技術。實際上,英偉達在 H100 裏增加 SM-SM 的片上傳輸通路來實現 SM 間數據的複用、減少訪存數量,但是這通常需要程序員手工完成,同樣增加了性能優化的難度。另外,GPU 的整個軟件棧最早並不是專為深度學習設計的,它在提供通用性的同時,也引入了不小的開銷,這在學術界也有不少相關的研究。
因此,這就給 AI 芯片的新挑戰者如 Groq,這提供了機會。例如 Groq 就是挖掘深度學習應用處理過程中的 “確定性” 來減少硬件開銷、處理延時等。這也是 Groq 芯片的特色之處。
孫教授告訴筆者,實現這麼一款芯片的挑戰是多方面的。其中關鍵之一是如何實現軟硬件方面協同設計與優化,極大的挖掘 “確定性” 實現系統層面的 Strong Scaling 。為了達到這個目標,Groq 設計了基於 “確定性調度” 的數據流架構,硬件上為了消除 “不確定性” 在計算、訪存和互聯架構上都進行了定製,並且把一些硬件上不好處理的問題通過特定的接口暴露給軟件解決。軟件上需要利用硬件的特性,結合上層應用做優化,還需要考慮易用性、兼容性和可擴展性等,這些需求都對配套工具鏈和系統層面提出很多新的挑戰。如果完全依賴人工調優的工作是很大的,需要在編譯器等工具層面實現更多的創新,這也是新興的 AI 芯片公司(包括 Tenstorrent、Graphcore、Cerebras 等)面臨的共同問題。
HBM 是唯一解?純 SRAM 來挑戰
LPU 推理引擎主要攻克 LLM 的兩個瓶頸——計算量和內存帶寬。Groq LPU 能夠與英偉達叫板,其純 SRAM的方案起到了很大的作用。
不同於英偉達 GPU 所使用的 HBM 方案,Groq 捨棄了傳統的複雜儲存器層級,將數據全部放置在片上 SRAM 中,利用 SRAM 的高帶寬(單芯片 80TB/s),可以顯著提升 LLM 推理中帶寬受限的(Memory Bound)部分,比如 Decode Stage 計算和 KV cache 的訪存。SRAM 本身是計算芯片必須的存儲單元,GPU 和 CPU 等利用 SRAM 來搭建片上的高速緩存,在計算過程中儘可能減少較慢的 DRAM 訪問。但由於單個芯片的 SRAM 容量有限,所以涉及到數百個芯片協同處理,這也涉及芯片間的互連設計,以及系統層面的算法部署等。
Groq 提到,由於沒有外部內存帶寬瓶頸,LPU 推理引擎提供了比圖形處理器更好的數量級性能。
這種純 SRAM 的架構在最近幾年一直被學術界和工業界所討論,比如華盛頓大學在文章【Chiplet Cloud: Building AI Supercomputers for Serving Large Generative Language Models】【2】中提到,與 DDR4 和 HBM2e 相比,SRAM 在帶寬和讀取能耗上具有數量級的優勢,從而獲得更好的 TCO/Token 設計,如下圖所示。市面上,包括 Groq 以及其他公司如 Tenstorrent、Graphcore、Cerebras 和國內的平頭哥半導體(含光 800)、後摩智能(H30)等,都在嘗試通過增加片上 SRAM 的容量和片上互連的能力來提升數據交互的效率,從而在 AI 處理芯片領域尋求與英偉達不同的競爭優勢。
純 SRAM 架構的優勢在哪裏?孫教授指出主要涵蓋兩方面:第一個方面是 SRAM 本身有着高帶寬和低延遲優勢,可以顯著提升系統在處理訪存受限算子的能力。另一方面,由於 SRAM 的讀寫相比 DRAM 具有確定性,純 SRAM 的架構給軟件提供了確定性調度的基礎。編譯器可以細粒度地排布計算和訪存操作,最大化系統的性能。對於 GPU 來説,由於 HBM 訪問延遲會有波動,Cache 層級的存在也提升了訪存延遲的不確定性,增加了編譯器做細粒度優化的難度。
眾所周知,英偉達 GPU 所使用的 HBM 方案面臨着成本高、散熱、產能不足的難題。那麼,這種純 SRAM 架構又有哪些挑戰呢?
孫教授分析到:“純 SRAM 架構的挑戰也很明顯,主要來自於容量的限制。Groq 等芯片基本上都是在CNN時代進行的立項和設計,對於這個階段的模型,單芯片百兆 SRAM 來作為存儲是夠用的。但是在大模型時代,由於模型大小通常可以達到上百 GB,而且 KV-Cache(一種關鍵數據結構)的存儲也非常佔用內存,單芯片 SRAM 的容量在大模型場景下顯得捉襟見肘。”
他以 Groq 的方案為例來説,為了滿足 70B 模型的推理需求,它集成了 576 個獨立的芯片,而集成如此多的芯片,對芯片間、節點間互聯的帶寬和延遲要求也非常的高。576 芯片的集羣只有 100GB 的 SRAM 容量。模型需要通過細粒度的流水線並行(PP)和張量並行(TP)的方式進行切分,來保證每個芯片分到的模型分塊在 200MB 以內。細粒度切分的代價是芯片間通信的數據量和開銷顯著上升,雖然 Groq 在互聯方面也進行了定製優化來降低延遲,但是通過簡單估算可以發現,目前芯片間數據傳輸同樣可能成為性能瓶頸。”
另一方面,由於容量的限制,其留給推理時的激活值的存儲空間十分受限。特別是目前 LLM 推理需要保存 KV-Cache,這是隨着輸入輸出長度線性增長的數據。通常對於 70B 模型,即使用了特殊技術進行 KV-Cache 壓縮(GQA),32K 的上下文長度需要為每個請求保留 10GB 左右的 KV-Cache,這意味着在 32K 場景下同時處理的請求數最大僅為 3。對於 Groq 來説,由於依賴流水線並行(TP),需要至少流水線級數這麼多的請求來保證系統有較高利用率,較低的併發數會顯著降低系統的資源利用率。所以,如果未來長上下文(Long-Context)的應用場景,在 100K 甚至更長的上下文下,純 SRAM 架構能支持的併發數會非常受限。換一個角度看,對於邊緣場景,如果採用更激進的 MQA、更低的量化比特,可能會使 SRAM 架構更為適用。
如果 Groq 這類芯片確實能夠找到合適的應用場景,應該會讓算法從業者更積極挖掘模型壓縮、KV-Cache 壓縮等算法,來緩解純 SRAM 架構的容量瓶頸。一些對推理延遲有強需求的算法和應用,如 AutoGPT, 各種 Agent 算法等,整個算法流程需要鏈式處理推理請求的,會更有可能做到實時處理,滿足人與真實世界交互的需求。
因此,在孫教授看來,採用純 SRAM 還是 HBM 與未來模型發展和應用的場景非常相關。對於數據中心這類採用較大的 batch 數、較長的 sequence length、追求吞吐的場景,HBM 這類大容量存儲應該更加合適。對於機器人、自動駕駛等邊緣側,batch 通常為 1,sequence length 有限,追求延時的場景,尤其考慮到模型有機會繼續壓縮,純 SRAM 的場景應該有更大的機會。另外,還可以同時期待一些新的存儲介質的發展,能否將片上存儲容量從百 MB 突破到 GB 的規模。
應對 “存儲牆” 挑戰:芯片架構創新勢在必行
實際上,除了前述的純 SRAM 解決方案外,為了應對當前馮諾依曼架構面臨的 “存儲牆” 問題,業界正在探索多種新型架構,包括存算一體和近存計算等。這些探索涵蓋了基於傳統的 SRAM、DRAM 以及新興的非易失性存儲技術,如 RRAM、STTRAM 等,都有廣泛的研究正在進行中。在處理大型模型的場景中,也有相關的創新嘗試,例如三星、海力士等企業正積極研發的 DRAM 近存計算架構,可以很好的在帶寬和容量之間提供權衡,對於訪存密集 KV cache 和小 batch 的 Decode 處理部分也提供了不錯的機會。(對這部分有興趣,可以參考 “Unleashing the Potential of PIM: Accelerating Large Batched Inference of Transformer-Based Generative Models”【3】這篇文章關於 KV cache 的處理,孫教授團隊比較關注的研究方向。)
另外,從更廣義的角度分析,無論採用哪種存儲介質、無論採用存算還是近存架構,其本質目的和 Groq 出發點是類似的,都是挖掘存儲架構的內部高帶寬來緩解訪存瓶頸。如果同時考慮大容量的需求,都需要將存儲分塊,然後在存儲陣列附近(近存)或陣列內(存內)配備一定的算力單元。當這種分塊的數量達到一定數量,甚至會突破單個芯片的邊界,就需要考慮芯片間的互連等問題。對於這類計算和存儲從集中式走向分佈式的架構,孫教授團隊在研究時也習慣稱為空間型計算(Spatial Computing)架構。簡言之,每個計算或者存儲單元的位置都對它承擔的任務有影響。一方面,在芯片層面,這種分佈式計算架構和 GPU 提供抽象是不同的;另一方面,當規模擴大到多芯片/多卡這個級別,面臨的問題又是類似的。
總之,大模型確實給傳統的芯片架構帶來了極大的挑戰,迫使芯片從業者發揮主觀能動性,通過 “另闢蹊徑” 的方式來尋求突破。值得關注的是,國內也已經有一批架構創新型的芯片企業,陸續推出了存算一體或近存計算的產品,例如、知存科技、後摩智能、靈汐科技等。
考慮到芯片的研發週期通常長達數年,孫教授認為在嘗試新技術的時候需要對未來的應用(如 LLM 技術)的發展趨勢有一個合理的預判。分析好應用的發展趨勢,通過軟硬件的設計預留一定的靈活性和通用性,更能夠保證技術長期適用性。
【1】《Inference Speed Is the Key To Unleashing AI’s Potential》,Groq
附孫教授所提及的論文地址:
【2】Chiplet Cloud: Building AI Supercomputers for Serving Large Generative Language Models(https://arxiv.org/pdf/2307.02666.pdf)
【3】Unleashing the Potential of PIM: Accelerating Large Batched Inference of Transformer-Based Generative Models(https://ieeexplore.ieee.org/abstract/document/10218731)
本文作者:杜芹 DQ,來源:半導體行業觀察,原文標題:《挑戰英偉達,需要另闢蹊徑》
