Why did Wooden Sister sell off, why is Groq making waves? And the 12 unicorns aiming to "overtake" NVIDIA on the curve.

華爾街見聞
2024.02.21 12:45
portai
I'm PortAI, I can summarize articles.

Groq 的爆火或許暗示 AI 芯片的主戰場將由訓練測轉向推理測,當更多可替代英偉達 GPU 的新一代專用推理芯片出現,英偉達的 “王位” 還保得住嗎?

華爾街明星基金經理、方舟投資管理公司的 CEO“木頭姐” 凱茜·伍德(Cathie Wood) 最近接受媒體採訪時直言,她減持套現約 450 萬美元的英偉達股票,在她看來未來對英偉達 GPU 芯片的需求並沒有預期的那般火熱,英偉達將面臨更多的競爭。

木頭姐稱,看看科技巨頭們,比如 Meta、亞馬遜、Alphabet,它們都在開發自己的 AI 芯片。它們更加專業化,目的性更為明確,而英偉達的芯片則更加通用。

“木頭姐” 話音剛落,Groq LPU(Language Processing Units 語言處理單元) 芯片驚豔亮相,號稱 “性價比高英偉達 100 倍”(芯片的速度比英偉達 GPU 快 10 倍,但價格和耗電量都僅為英偉達的十分之一),再加上谷歌自研 AI 芯片 TPU設計者的光環,不少人直呼:英偉達的勁敵出現了。

根據 Groq 官網的介紹,LPU 是一種專為 AI 推理所設計的芯片。不同於英偉達 GPU 需要依賴高速數據傳輸,Groq 稱,他們的 LPU 芯片在系統中沒有采用高帶寬存儲器(HBM),而是選擇使用 SRAM,速度比 GPU 所用的存儲器快約 20 倍

Groq 公司更是 “喊話” 英偉達稱,在執行推理任務中 LPU 可以取代 GPU,通過其專用化的設計,LPU 能夠為特定的 AI 應用提供優化的性能和能效比。

Groq 的效益成本問題才是關鍵

原阿里技術副總裁賈揚清發文分析稱,要保證 LPU 和 H100 同樣吞吐量,就需要更多的卡,而一張 LPU 卡僅有 230MB 的內存,且售價超 2 萬美元,在運行 Llama-2 70b 模型時,需要 305 張 Groq 卡才足夠,而用 H100 則只需要 8 張卡。

從目前的價格來看,這意味着在同等吞吐量下,Groq 的硬件成本是 H100 的 40 倍,能耗成本是 10 倍。如果運營三年,Groq 的硬件採購成本為 1144 萬美元,運營成本為 76.2 萬美元。相比起來,8 卡 H100 的硬件採購成本是 30 萬美元,運營成本是 7.2 萬美元。

但華為 “天才少年” 左鵬飛在知乎上發文反駁了賈揚清的説法,左鵬飛認為大家混淆了售賣價和成本價。應該以 Groq 自己生產卡的成本價來計算推理成本。雖然 Groq 卡的售賣價是 2 萬美金,但其成本價非常低,預計每卡成本在 1200 美金左右。

左鵬飛直言,GPU 的成本大頭則在 HBM,但 Groq 直接丟掉了 HBM,可以按 SRAM 的成本價估算卡成本。按 1200 美金/卡的成本計算,500 張 Groq 卡的總成本是 60 萬美金。Groq 公司拿這 60 萬美金只能採購兩台英偉達 H100。兩台英偉達 H100 能跑出 500 tokens/s 的性能嗎?

Groq 如何降低成本?

分析指出,毫無疑問,按照當前硬件成本,Groq LPU 服務器比英偉達要貴得多,一方面正如左鵬飛所言 LPU 卡的官方售價虛高,而另一個關鍵點在於,LPU 的架構比較適用於有大量用户併發訪問的場景,通過高吞吐大併發的做法將單個用户的單次請求成本顯著降下來

這就不得不提到 LPU 底層獨特架構,不同於傳統的 CPU 和 GPU 架構,Groq 從頭設計了一個張量流處理器 (TSP) 架構, 以加速人工智能、機器學習和高性能計算中的複雜工作負載。

每個 TSP 都還具有網絡交換的功能,可直接通過網絡與其他 TSP 交換信息,無需依賴外部的網絡設備,這種設計提高了系統的並行處理能力和效率。

而 Groq 閃電般的響應速度迅速引爆互聯網討論,而 “快” 的關鍵則在於,LPU 沒有采用 HBM,而是使用 SRAM,而這種設計也能夠顯著提高吞吐量。

這意味着 LPU 無需像使用高帶寬存儲器(HBM)的 GPU 那樣頻繁地從內存中加載數據。這一特點不僅有助於避免 HBM 短缺的問題,還能有效降低成本。

因此,由於 AI 的推理計算,相較於模型訓練需要的數據量遠小,Groq 的 LPU 因此更節能。在執行推理任務時,它從外部內存讀取的數據更少,消耗的電量也低於英偉達的 GPU。

但有分析指出,Groq 閃電般的速度是建立在很有限的單卡吞吐能力,SRAM 還有兩個特點,第一是面積大,第二是功耗高。在同容量情況下,SRAM 的面積是 DRAM 的 5 倍-6 倍以上,而面積就是成本,所以 SRAM 按單位面積算,並不便宜。

AI 芯片的主戰場將由訓練轉向推理?

在 Groq LPU 推出之前,大模型訓練和推理都是基於英偉達 GPU 來設計,採用的 CUDA 軟件技術棧。而 Groq LPU 的 “一夜走紅” 也讓市場開始推斷風向變了,AI 芯片的主戰場將由訓練轉向推理。

在 AI 領域,工作任務有兩大類:訓練和推理。訓練階段對大規模的計算力和內存容量有着極高的需求,但對於訪問速度的依賴相對較小。推理階段則截然不同,AI 模型必須以極致的速度運行,目的是為了能夠向終端用户提供儘可能多的 Token,以此來加快回應用户指令的速度。

有分析認為,未來一年 AI 推理市場將大幅增長,相較於 AI 訓練,AI 推理與用户終端場景需求更加緊密,訓練後的大模型需要通過 AI 推理服務於實際的場景,目前基於英偉達 GPU 的 AI 推理方案依然成本高企,在性能、時延等方面影響用户使用體驗。

這一次 Groq 之所以突然爆發,也是因為 Groq 搭載的 Llama2 或 Mistreal 模型的雲服務上線,如果 Groq LPU 推理芯片可以從硬件上解決性能和成本問題,讓 AI 推理服務大規模部署,或許未來會有更多的 AI 推理類應用落地。

分析認為,英偉達 A100 採用的 Ampere 架構設計為廣泛的計算任務提供支持,包括但不限於機器學習。A100 的 Tensor Core 技術和對多種數據類型的支持確實為深度學習提供了強大的加速,但 TSP 的專門優化使其在機器學習任務上可能提供更優的性能和能效比

由於高能效比,Groq 就想到了把 TSP 變成專用集成電路,也就是 ASIC。ASIC 的特點在於特定的應用或算法進行了高度優化,以實現最佳性能、最低功耗和最小面積等目標。由於它們專門用於執行一種或一組相關任務,因此在完成這些任務時往往比非定製化的芯片更高效,特別是在推理領域。

數據顯示,目前,數據中心定製芯片市場約為 300 億美元,當更多可替代英偉達 GPU 的新一代專用推理芯片出現在數據中心,而基於雲端的 AI 訓練芯片的增長或許會逐漸放緩,這或許也是英偉達為什麼要開始進軍定製芯片市場的重要原因。

推理芯片公司試圖從英偉達 GPU 龐大市場裏分一杯羹

媒體匯總了目前處於競爭最前線的 12 家公司。這些初創企業平均歷史只有五年,融資額度最高的已有 7.2 億美元,而他們未來或許都有可能成為英偉達 “王位” 的有力挑戰者。