
英偉達超算機:定義 AGI 算力集羣

DGX GH200,從 AI 決策型向 AI 生成式的過渡標杆。
英偉達創始人兼 CEO 黃仁勳,不但是個出色的技術工程師,也是位傑出的市場管理專家和營銷大師。
黃仁勳的營銷才能,從其對 GPU 的定義可以窺視。原先,GPU 只是一張顯卡,後來黃仁勳將服務器也稱為 GPU。最近,“黃氏” GPU 定義,已擴展至 CPU 疊加 GPU 內存算力集羣。
英偉達最近發佈的超級計算機 DGX GH200,從參數上看,性能極為驚人,結構也堪稱精巧。但是,從技術原理上看,DGX GH200 原本很可能並非為 AI 集訓所設計,其內核 Grace Hopper 是決策型 AI(為 AI 推薦系統所用)性質。
從結構設計上看,DGX GH200 從決策型 AI“轉型” 到 LLM 方向,但其真正價值並非為 LLM 定製,而是其可擴展性、以及將 CPU 內存與 GPU 內存,通過 NVLINK C2C 組件整合起來的技術,從而實現黃仁勳將 GPU 的定義擴展為超算集羣的邏輯自洽。
至於真正的為 LLM 定製的針對性綜合解決方案,黃仁勳還沒給出答案。
CPU+GPU=?
DGX GH200 的核心是 Grace Hopper(CPU+GPU)。每台 DGX GH200,都搭載了多達 256 個 Grace Hopper。
黃仁勳將 Grace Hopper 稱為 “superchip”(超級芯片),這很像是一種營銷表達。
實際上,Grace 是 CPU,確實是為 AI 而生,但本身的技術特性不是高性能 CPU 算力,而是能耗控制。換句話説,Grace 負責還過得去的算力性能;Hopper 則是 GPU,與印象中的英偉達 GPU 負責 AI 算力不同,“Grace Hopper” 中的 Hopper,負責的是散熱。
根據英偉達技術白皮書顯示,Hopper 是英偉達基於 Hopper 架構的 GPU(即 H100 系列),而 Grace 則是英偉達自研的基於 ARM 架構的高性能 CPU。
這顆芯片的 CPU 核(core)型號是 Arm 的公版 neoverse N2。根據英偉達在 2021 年發佈 Grace Hopper 時的 PPT 信息,Grace 是一款包含了 76 個 CPU 核的 N2 多核處理器。
通過 LPDDR5X(內存)通信接口,Grace 接了高達 512GB 的內存(實際 480GB),內存帶寬也達到 546 GB/s;Hopper(GPU)則通過 HBM3(顯存)接口接了最多 96GB 的顯存,帶寬可達 3TB/s。
LPDDR,即 Low Power Double Data Rate,中文全稱 “低功耗雙倍數據速率”,是美國 JEDEC 固態技術協會(JEDEC Solid State Technology Association)面向低功耗內存制定的通信標準。
LPDDR 有時候也等同於 Low Power Double Data Rate SDRAM,中文全稱 “低功耗雙信道同步動態隨機存取內存”。通常,這以先進封裝技術直接堆在 CPU 處理器上方,以低功耗和小體積著稱,是移動應用場景的主流內存產品。
2019 年 2 月,JEDEC 發佈 JESD209-5,即 LPDDR5 低功耗內存傳輸速率(通信)標準。相較於 2014 年發佈的第一代 LPDDR4 標準,LPDDR5 的 I/O 速度提升到 6400 MT/s,實現翻番。
基於 LPDDR5 的性能基礎,LPDDR5X 更進一步:數據傳輸速率從 6400Mbps 增至 8533Mbps,對於支持 8533Mbps LPDDR5X 內存的移動 SoC,其峯值理論可用帶寬將進一步增長到 68.26GB/s,從而賦予更廣泛的設備擁有更多基於 AI 和 5G 的功能。
Grace 用了 LPDDR5X,就其 16GB 的容量而言,即使用了 8 片,CPU 的總容量也只有 128GB,遠遠達不到決策 AI 所需要的存儲空間,更遑論對 LLM 的容量支持要求。但黃仁勳採用了新的結構,也就是集成 8 顆 Grace CPU,還將之互聯成一個 Unified Memory。
這時,內存容量就高達 1TB(8*128G),等於用 X86 的 2S 結構,相當於 512GB per Socket 的 1TB 容量。
回到 Grace Hopper 超級芯片,其高達 144TB 的 Memory(顯存)量,實際上是 LPDDR5X 的內存疊加 HBM3 的顯存,即 256 組的 CPU 480GB 內存(LPDDR5X)疊加 GPU 96GB 顯存(HBM3)。簡單折算下,就是每個節點 8 組搭配,約 3.75TB 的 CPU 內存加上 768GB 的顯存。
乍看上去,如此神一樣存在的存儲容量令人驚歎。但實際上,Grace Hopper 的整體容量,除了內存還包括顯存,這是從所未見的結構設計。但這種結構忽略了 CPU 同樣令人驚奇的延遲。
這問題該怎麼解決?若解決不了,以 Grace Hopper 為核心的 DGX GH200,速度比蝸牛還慢,還怎麼訓練 AI?
因此,傑出的技術工程師黃仁勳,在 Grace Hopper 中,還應用了至關重要的組件 “NVLink C2C”。這個組件的核心是 NVLink 通信協議,將 Grace 的 CPU 與 Hopper 的 GPU 之間傳輸數據量的帶寬,以 900GB/s 的帶寬速率聯繫起來,遠超常規的 64GB/s 帶寬速率。
這就是黃仁勳敢於將 LPDDR5X 內存的 CPU 容量算到 DGX GH200 超算機整體存儲規格的底氣。雖然疊加高容量 CPU 內存會帶來超級延遲的不利後果,但 GPU 對延遲並不敏感,通過以 NVLINK 通信協議為核心的 NVLINK C2C 組件,將 CPU 的內存變成了 GPU 內存,以此消除高容量 CPU 內存帶來的延遲。
這種結構和部件設計,也是 DGX GH200 超算機引以為傲的可擴展性特徵。
價值和不足
DGX GH200 超算機的性能取決於存儲空間的大小。144TB 還能擴展嗎?當然可以。這可通過將 Grace Hopper 與英偉達 Bluefield DPU 的接口連接 InfiniBand,這樣就可進一步擴展到更大的規模,從而實現更高性能的計算。
雖然看上去有 144TB 超級內存空間,900GB/s 的傳輸速率也相當牛逼,但平均下來每組 Grace Hopper 的帶寬也就 200GB/s,與 144TB 共享顯存帶寬差太遠。
總體來説,對 DGX GH200 超算機的性能來説,Grace Hopper 芯片組的結構設計是關鍵,而英偉達的 NVLink 協議具有的超高性能數據互聯能力是關鍵中的關鍵,核心中的核心。通過提供高達 900GB/s 的帶寬並且提供一致性接口,Grace Hopper 實現強悍的可擴展性。
Grace Hopper 中 CPU 與其他高性能服務器端 ARM CPU 的區別,也許就是對於 NVLink 接口的支持,而這也成了 Grace Hopper 的最顯著亮點。
雖然英偉達發佈的 DGX GH200 超算機,其內核 Grace Hopper 的結構設計和軟件超高速一致性內存接口 NVLink 的奇思妙想,並非是對 AGI 做的針對性整體解決方案。但是,黃仁勳的技術和結構設計能力肌肉秀,真正的價值是對處於 AI 生成式技術和應用階段,對具有超強性能的算力集羣產品做出符合 AGI 階段的標準定義。
這裏可能需要簡單解釋下為什麼 DGX GH200 超算機不是為 AGI 做出的針對性解決方案,而是主要面向決策式傳統 AI 的推薦系統。
首先,DGX GH200 超算機的核心結構 Grace Hopper 芯片組發佈於 2021 年。那時雖然 AGI 也在迭代中,但遠遠沒有像 2022 年 12 月 OpenAI 發佈的 ChatGPT-3.5 這種現象級應用帶來的轟動效應,因而也沒有像現在這樣全球範圍內的廣泛關注度。
其次,從技術原理看,傳統 AI 決策型推薦系統的特點是內存佔用大,但計算數據要轉換的熱數據(指頻繁訪問的在線類 Data)並不多。因此,通行的做法是,通過系統設計,在 CPU 內存中臨時存放熱數據,再以 GPU 側的 HMB 顯存做 cache 並導入熱數據,對帶寬和 CPU 內存速度要求不高。
大模型的數據轉移特徵是什麼?內存佔用也不小,但每次計算來回流動的基本是熱數據,少有數據集之類的冷數據。所以就兩難,若選擇將海量熱數據放到 LPDDRX5,帶寬還是有點不夠(畢竟每組 Grace Hopper 帶寬也只有 200GB/s);若放冷數據,成本又太高。
這裏還有個問題,就是維護成本極高。Grace Hopper 就物理形態看,CPU 和 GPU 還各自獨立,這兩種芯片互聯使用的是 PCB 板上的走線。在技術邏輯角度,這兩種物理芯片的存儲空間通過 NVLink C2C 組件和 NVLink 協議,被集成為一個整體。
因此,高度集成的 Grace Hopper,但凡壞一塊 LPDDR5X,整個芯片組就要報廢。這樣的維護成本,除了巨頭比如微軟和谷歌這種不差錢的公司,其他公司都難以承受。
綜合來説,Grace Hopper 的 LLM 應用,在 DGX GH200 超算機的技術叢集中,並沒有顯現出驚豔的亮點;其結構設計確實表現出色,但這很像是以 LLM 需求所做的微調。因為這個結構,發佈於 2021 年,那時 LLM 應用方向也還並不向今日這樣如此明確。
