
SemiAnalysis details NVIDIA's new chip "Rubin CPX": completely changing the inference architecture and reshaping the industry roadmap

SemiAnalysis 報告指出,Rubin CPX 的推出,其重要性僅次於 2024 年 3 月 GB200 NVL72 Oberon 機架級形態的。該芯片通過專門優化預填充階段,強調計算 FLOPS 而非內存帶寬。這可能導致 HBM 需求下降,GDDR7 內存需求激增,三星成為最大受益者。此外,英偉達競爭對手或將不得不再次重新配置他們的整個路線圖,就像 Oberon 架構改變了整個行業的路線圖一樣。
隨着 AI 大模型 “推理時代” 的全面到來,英偉達最新推出 Rubin CPX GPU,智庫 SemiAnalysis 認為該 GPU 或將徹底改變推理領域,發佈意義僅次於 2024 年 3 月 GB200 NVL72 機架。
近期英偉達在 AI 基礎設施峯會上重磅推出的 Rubin CPX GPU,專為長語境推理設計,英偉達還承諾實現約 50 倍的驚人投資回報率,遠超此前 GB200 NVL72 約 10 倍的回報率。
這一發布不僅僅是英偉達自身的進步,更是對整個行業路線圖的重塑。正如 SemiAnalysis 報告所強調的,Rubin CPX 的推出,其重要性僅次於 2024 年 3 月 GB200 NVL72 Oberon 機架級形態的。該芯片通過專門優化預填充階段,強調計算 FLOPS 而非內存帶寬,為分離式推理服務帶來革命性變化。
這一發布還將迫使英偉達所有競爭對手重新制定路線圖。AMD 和 ASIC 供應商此前投入大量資源追趕英偉達的機架級解決方案,但現在必須再次加倍投資開發自己的預填充芯片,進一步延遲縮小與英偉達差距的時間。
SemiAnalysis 的報告提供了對 Rubin CPX 的詳盡洞察,揭示了這款芯片如何通過優化推理的不同階段,重塑行業路線圖。以下是報告要點:
突破內存牆限制:專用芯片架構設計
根據 SemiAnalysis 介紹,英偉達推出 Rubin CPX 的核心理念在於將推理過程解耦為 “預填充(Prefill)” 和 “解碼(Decode)” 兩個階段,併為每個階段設計了專業化的硬件。
報告指出,LLM 請求的預填充階段(生成第一個 Token)通常是計算密集型(FLOPS)的,但對內存帶寬的利用率較低。
儘管 HBM 對訓練和推理都極具價值,但在推理的具體執行過程中,其利用效率存在顯著差異,HBM 僅在解碼步驟中發揮高價值作用。在這種情況下,使用配備昂貴 HBM 的芯片進行預填充是一種資源浪費。

而 Rubin CPX 正是為解決這一痛點而生,它 “瘦身” 了內存帶寬,轉而強調計算 FLOPS。Rubin CPX 擁有 20 PFLOPS 的 FP4 密集計算能力,但僅配備了 2TB/s 的內存帶寬和 128GB 的 GDDR7 內存。相比之下,雙芯片 R200 提供 33.3 PFLOPS 的 FP4 密集計算能力和 20.5TB/s 的內存帶寬以及 288GB 的 HBM。
這將帶來成本效益的顯著提升,SemiAnalysis 報告指出,將 HBM 切換為更便宜的 GDDR7 內存,每 GB 成本可降低 50% 以上。這意味着,在預填充階段,Rubin CPX 能夠以遠低於 R200 的成本,提供高效的計算能力,從而大幅降低總體擁有成本(TCO)。
SemiAnalysis 指出,該芯片設計類似於下一代 RTX 5090 或 RTX PRO 6000 Blackwell,使用大型單片式芯片和 512 位寬 GDDR7 內存接口。但與基於消費者 Blackwell GPU 芯片僅有其 HBM 版本 20% FLOPS 不同,Rubin CPX 的比例躍升至 60%,因為它將是更接近 R200 計算芯片的獨立流片設計。
全新機架級架構:三種部署方案
英偉達推出三種 Vera Rubin 機架配置:VR200 NVL144(僅 Rubin)、VR200 NVL144 CPX(Rubin+Rubin CPX 混合)、以及 Vera Rubin CPX 雙機架方案,具體來看:
- NVL144 CPX 機架: 英偉達推出了 VR NVL144 CPX(Vera Rubin NVL144 CPX)機架,將 Rubin GPU 與 Rubin CPX GPU 整合。每個計算托盤(Compute Tray)將包含 4 個 R200 GPU(用於解碼)和 8 個 Rubin CPX GPU(用於預填充)。這種異構配置使得系統能同時高效處理推理的兩個階段。
- 雙機架解決方案: Vera Rubin CPX 雙機架方案提供了更大的靈活性,允許客户根據自身工作負載需求,單獨部署 VR NVL144(純 Rubin GPU)機架和 VR CPX(純 Rubin CPX GPU)機架,以精確調整預填充與解碼的比例(PD ratio)。
SemiAnalysis 詳細分析了無線纜設計的技術革新。由於高密度設計無法為線纜佈線留出空間,英偉達採用 PCB 中板和 Amphenol Paladin 板對板連接器實現信號傳輸。CX-9 網卡從機箱後半部分移至前半部分,使 200G 以太網/InfiniBand 信號傳輸距離縮短,而較低速度的 PCIe Gen6 信號承擔更長距離傳輸,提高了可靠性和可維護性。
液冷採用夾層式液冷設計,Rubin CPX 和 CX-9 網卡採用夾層式設計,共享液冷冷板,最大化了 1U 托盤空間內的 GPU 密度和散熱效率,這種設計在英偉達 2009 年的 GTX 295 上曾有類似實踐。

預填充流水線並行:高效利用資源的關鍵
Rubin CPX 的另一個重要優勢在於其對預填充流水線並行(Pipeline Parallelism)的優化。
- 降低網絡成本: 預填充階段的通信需求較低,因此 Rubin CPX 放棄了昂貴的快速橫向擴展網絡(如 NVLink)。PCIe Gen6 x16 的帶寬(約 1Tbit/s)足以滿足現代 MoE LLM 的預填充需求。
- 更高的吞吐量: 流水線並行在每個 GPU 上提供更高的 Token 吞吐量,因為它涉及簡單的發送和接收操作,而不是專家並行(EP)中的所有到所有集體操作。
- 顯著的 TCO 節省: NVLink 橫向擴展的成本約為每 GPU 8000 美元,佔集羣總成本的 10% 以上。Rubin CPX 通過避免使用這些昂貴的網絡設備,為最終用户帶來了巨大的成本節省。
分離式推理服務的技術突破
SemiAnalysis 介紹,業界首先嚐試將預填充和解碼請求路由到不同計算單元,以解決兩種工作負載間的相互干擾問題。這種方法能更好地管理服務級別協議 (SLA),但仍存在"錯誤配置"問題——純預填充操作幾乎總是嚴重浪費內存帶寬資源。
SemiAnalysis 強調,LLM 請求處理包含兩個階段:預填充階段影響首令牌時間(TTFT),通常受計算限制;解碼階段影響每輸出令牌時間(TPOT),總是受內存限制。

分析顯示,當序列長度超過 32k 時,FLOPS 利用率達到 100%,而內存帶寬利用率下降。使用 R200 進行純預填充操作時,每小時總擁有成本浪費達 0.90 美元,而 Rubin CPX 通過使用成本更低的內存顯著降低了這種浪費。

在管道並行推理中,Rubin CPX 的 PCIe Gen6 x16 接口提供約 1Tbit/s 單向帶寬,足以處理現代 MoE 前沿 LLM 的預填充任務。Rubin CPX 提供更大內存容量,但使用的是"較低質量"的 GDDR7 內存,每 GB 成本不到 HBM 的一半。從內存供應商角度看,GDDR7 利潤率較低,因為技術要求不高且競爭更激烈 (如 Samsung 可以供應)。
HBM 需求可能下降?整體內存市場需求將增長?
CPX 系統的使用降低了 HBM 在總系統成本中的佔比。對於 VR200 NVL144 CPX 或 VR CPX 機架的每一美元支出,相比獨立 VR200 NVL144 機架,分配給 HBM 的比例更低。在 AI 系統支出固定的假設下,每美元支出的 HBM 需求將下降。
進一步來看,SemiAnalysis 報告表示,英偉達 Rubin CPX 架構雖然降低了內存使用率,但反而可能推動整體內存市場規模擴大,GDDR7 供應鏈格局面臨重塑。
技術現實更為複雜。 Rubin CPX 的作用機制是降低預填充和令牌的成本。當令牌成本降低時,需求隨之增加,這意味着解碼需求也會相應上升。與許多其他降低成本的技術創新類似,需求的增長通常會超過成本的下降,最終推動整體市場規模擴大。
Rubin CPX 對 GDDR7 的需求激增,正在重塑內存供應鏈格局,其影響已經開始顯現。值得關注的是,RTX Pro 6000 同樣使用 GDDR7 內存,但速度較低,為 28Gbps。英偉達已經為 RTX Pro SKU 下達了大規模供應鏈訂單。
在這輪 GDDR7 需求激增中,三星成為最大受益者。由於能夠滿足英偉達突然湧現的大批量訂單需求,這些訂單主要流向了三星。相比之下,SK 海力士和美光科技未能滿足這一需求,主要原因是它們的晶圓產能被 HBM 訂單等其他業務佔用。
競爭對手被遠遠甩在身後
SemiAnalysis 報告表示,Rubin CPX 的引入,令英偉達的機架系統設計能力與競爭對手之間的差距達到了 “峽谷” 級別。
英偉達所有競爭對手或將不得不再次重新配置他們的整個路線圖,就像 Oberon 架構改變了整個行業的路線圖一樣。他們需要再次加大投資,開發自己的預填充芯片,這將進一步延遲他們縮小與英偉達差距的時間。
SemiAnalysis 認為,Google TPU 憑藉 3D 環形擴展網絡優勢,支持最大 9216 個 TPU 的集羣規模,應開發預填充專用芯片維持性價比優勢。
AMD 的追趕策略面臨重大挑戰,MI400 72 GPU 機架級系統原本有望在 TCO 方面與 VR200 NVL144 競爭,但英偉達將 VR200 內存帶寬提升至 20.5TB/s,與 MI400 持平。如果 MI400 的實際 FP4 性能與 VR200 NVL144 相當或更低,AMD 將再次落後於英偉達。
據 SemiAnalysis 評估,AMD 缺乏強大的內部工作負載支撐,需要在開發機架級系統和改進軟件的同時,再開闢預填充專用芯片戰線,才有望在 2027 年追上英偉達。
AWS Trainium3 和 Meta MTIAv4 等擁有內部工作負載的供應商具備開發預填充專用芯片的優勢。但 AWS 面臨技術挑戰,因為 1U 計算托盤空間有限,可能需要採用 EFA 網卡側車機架和外部 PCIe AEC 線纜的解決方案。

