SemiAnalysis GTC Deep Dive: Behind Three New Systems, NVIDIA is Redefining the Boundaries of AI Infrastructure

華爾街見聞
2026.03.24 12:58

英偉達在 GTC 2026 發佈三款系統:融合 Groq LP30 芯片的 LPX 推理機架、塞入 256 顆 CPU 的液冷機架 Vera ETL256,以及存儲參考架構 STX。SemiAnalysis 認為,三款系統共同指向同一個戰略信號:英偉達不再僅僅是 GPU 供應商,而是在向全棧 AI 基礎設施平台商演進,其觸角已覆蓋推理優化、CPU 密度、存儲編排等此前由其他廠商主導的領域,這將深刻影響整個 AI 硬件供應鏈的競爭格局。

在 GTC 2026 大會上,英偉達一口氣推出三款全新系統——Groq LPX 推理機架、Vera ETL256 CPU 機架與 STX 存儲參考架構,將其產品版圖從 GPU 算力核心向低延遲推理、CPU 編排與存儲層全面延伸,標誌着英偉達正系統性地重構 AI 基礎設施的定義邊界。

其中最受市場關注的是 Groq LPX 系統。這是英偉達以 200 億美元完成對 Groq 知識產權授權與核心團隊引進後,不到四個月內推出的首款產品化成果。

LPX 機架將 Groq 的 LP30 芯片與英偉達 GPU 深度整合,並引入"注意力與前饋網絡解耦"(Attention FFN Disaggregation,下稱 AFD)技術,在高交互推理場景中針對性地壓縮解碼延遲,為大規模推理系統開闢了此前不存在的優化路徑。

與此同時,Vera ETL256 將 256 顆 CPU 塞入單一液冷機架,以銅纜拓撲實現機架內全互聯,直接瞄準隨 AI 規模擴張而日益凸顯的 CPU 供給瓶頸;STX 則通過標準化存儲參考架構,將英偉達的掌控範圍從算力層和網絡層正式延伸至存儲基礎設施層。

SemiAnalysis 認為,三款系統共同指向同一個戰略信號:英偉達不再僅僅是 GPU 供應商,而是在向全棧 AI 基礎設施平台商演進,其觸角已覆蓋推理優化、CPU 密度、存儲編排等此前由其他廠商主導的領域,這將深刻影響整個 AI 硬件供應鏈的競爭格局。

LPX 與 LP30:Groq 架構正式融入英偉達推理棧

英偉達與 Groq 之間的交易在結構上被設計為知識產權授權與人才引進,而非傳統併購。英偉達由此幾乎即時獲得了 Groq 的全部 IP 和核心團隊,並在不到四個月內推出基於 Groq 第三代 LPU 架構的 LP30 芯片與 LPX 機架系統。

LP30 採用三星 SF4 工藝,配備 500MB 片上 SRAM,FP8 精度下算力為 1.2 PFLOPS,相較於 Groq 第一代 LPU(230MB SRAM,750 TFLOPS INT8)實現了大幅提升,性能增長主要由製程節點從 GF16 遷移至 SF4 驅動。

LP30 以單一整體裸片形式存在,無需先進封裝。值得關注的是,SF4 工藝不擠佔英偉達在台積電 N3 上的稀缺產能配額,也不消耗同樣緊張的 HBM 資源,因此 LPX 系統代表的是真正意義上的增量產能與增量收入,據 SemiAnalysis 指出,這是競爭對手無法複製的差異化優勢。

LPU 的核心價值與天然侷限

LPU 架構的競爭優勢在於高帶寬 SRAM 與確定性流水線執行機制,這使其在單用户低延遲場景下具備 GPU 難以企及的首 token 生成速度。然而,高密度 SRAM 的代價是容量受限——權重加載後所剩空間極為有限,隨批量增大 KV Cache 迅速飽和,整體吞吐量顯著弱於 GPU。

據 SemiAnalysis 分析,獨立部署的 LPU 系統在大規模 token 服務上並不經濟,但在對延遲極度敏感的場景中可獲取可觀的溢價,這正是 LPU 在解耦解碼系統中的定位基礎。

AFD 技術:GPU 與 LPU 的角色分工

AFD 技術將大模型推理中的注意力計算(Attention)與前饋網絡計算(FFN)拆分至不同硬件。注意力計算因涉及動態 KV Cache 加載,天然適合 GPU 處理;FFN 計算因其無狀態、可靜態調度的特性,與 LPU 確定性架構高度契合。

在這一框架下,GPU 專注處理注意力計算,HBM 容量得以充分釋放用於 KV Cache,提升系統可併發處理的 token 總量;LPU 則承擔 FFN 計算,發揮其低延遲優勢。GPU 與 LPU 之間通過 All-to-All 集合通信完成 token 的分發與匯聚,並以乒乓流水線方式隱藏通信延遲。

此外,LPU 也可在投機解碼(Speculative Decoding)框架中發揮作用,將草稿模型或多 token 預測(MTP)層部署至 LPU,進一步降低單次解碼步驟的延遲開銷,通常可將每次解碼步驟的輸出 token 數提升至 1.5 至 2 倍。

LPX 機架架構

LPX 機架由 32 個 1U LPU 計算托盤與 2 台 Spectrum-X 交換機構成。每個計算托盤搭載 16 塊 LP30、2 塊 Altera FPGA(英偉達稱之為"Fabric Expansion Logic")、1 顆 Intel Granite Rapids 主機 CPU 及 1 塊 BlueField-4 前端模塊。

FPGA 在系統中承擔多重關鍵職能:將 LPU 的 C2C 協議轉換為以太網以接入 Spectrum-X 規模擴展網絡,提供 LPU 與主機 CPU 之間的 PCIe 橋接,併為系統提供每塊最高 256GB 的 DDR5 擴展內存用於 KV Cache 存儲。整個機架的規模擴展帶寬總計約 640TB/s。

LPU 模塊以"腹對腹"方式安裝於 PCB 板兩側,上下各 8 塊,旨在縮短全互聯網格所需的 X 和 Y 方向走線長度。節點內 16 塊 LPU 以全互聯 Mesh 拓撲相連,節點間通過銅纜背板互聯,跨機架連接則通過前面板 OSFP 接口實現。

Vera ETL256:256 顆 CPU 的密度極限

隨着 AI 工作負載對數據預處理、調度編排和強化學習驗證的需求持續攀升,CPU 正成為制約 GPU 利用率的新瓶頸。強化學習場景尤為突出——CPU 需要並行運行仿真環境、執行代碼並對輸出進行驗證。GPU 規模的擴張速度遠超 CPU,使得維持 GPU 滿載所需的 CPU 集羣規模不斷擴大。

英偉達的應對方案是 Vera ETL256,將 256 顆 Vera CPU 集成於單一機架,依賴液冷實現這一密度目標。

該系統的設計邏輯與 NVL 計算機架一脈相承:將算力密度提升至銅纜可覆蓋機架內全部連接的臨界點,從而在主幹網絡層面完全消除光收發器的需求。銅纜帶來的成本節約,足以抵消液冷引入的額外開銷。

具體而言,Vera ETL 機架由 32 個計算托盤構成,上下各 16 個,以 4 個 1U MGX ETL 交換托盤(基於 Spectrum-6)為中軸對稱排列。這種對稱佈局刻意壓縮各計算托盤與主幹交換托盤之間的線纜長度差異,確保全部連接均處於銅纜可達範圍內。

每個交換托盤的後向端口負責機架內銅纜主幹通信,32 個前向 OSFP 接口則提供與 POD 其餘節點的光纖連接。機架內網絡採用 Spectrum-X 多平面拓撲,將 200 Gb/s 通道分佈至四台交換機,在單一網絡層內實現 256 顆 CPU 的全互聯以太網連接,每個計算托盤承載 8 顆 Vera CPU。

STX:英偉達向存儲層的系統性延伸

STX 是英偉達在 GTC 2026 發佈的存儲參考機架架構,與此前推出的 CMX 上下文存儲平台配套,共同構成英偉達向存儲基礎設施層滲透的完整佈局。

STX 在 CMX 基礎上進一步建立參考架構,精確規定一個集羣中需要配置多少磁盤驅動器、Vera CPU、BF-4 DPU、CX-9 網卡和 Spectrum-X 交換機。

每個 STX 機箱內含 2 個 BF-4 單元,合計 2 顆 Vera CPU、4 塊 CX-9 網卡和 4 個 SOCAMM 模塊;整個 STX 機架共 16 個機箱,對應 32 顆 Vera CPU、64 塊 CX-9 網卡和 64 個 SOCAMM。

英偉達在發佈 STX 的同時罕見地點名一批主要存儲廠商——包括 DDN、Dell Technologies、HPE、IBM、NetApp、Supermicro 及 VAST Data 等——表示上述廠商均將支持 STX 標準,延續了英偉達以行業背書強化參考架構話語權的一貫做法。

據 SemiAnalysis 分析,BlueField-4、CMX 與 STX 的組合,代表英偉達在完成算力層(GPU)與網絡層(Spectrum-X 及 NVLink)的主導地位之後,正在系統性地向存儲層、軟件層和基礎設施運營層推進。

三款新系統合力拓寬了英偉達的產品護城河,也意味着 AI 基礎設施供應鏈中更大比例的市場份額將持續向英偉達集中。