SemiAnalysis details NVIDIA's new chip "Rubin CPX": completely changing the inference architecture and reshaping the industry roadmap

SemiAnalysis 報告指出，Rubin CPX 的推出，其重要性僅次於 2024 年 3 月 GB200 NVL72 Oberon 機架級形態的。該芯片通過專門優化預填充階段，強調計算 FLOPS 而非內存帶寬。這可能導致 HBM 需求下降，GDDR7 內存需求激增，三星成為最大受益者。此外，英偉達競爭對手或將不得不再次重新配置他們的整個路線圖，就像 Oberon 架構改變了整個行業的路線圖一樣。

隨着 AI 大模型 “推理時代” 的全面到來，英偉達最新推出 Rubin CPX GPU，智庫 SemiAnalysis 認為該 GPU 或將徹底改變推理領域，發佈意義僅次於 2024 年 3 月 GB200 NVL72 機架。

近期英偉達在 AI 基礎設施峯會上重磅推出的 Rubin CPX GPU，專為長語境推理設計，英偉達還承諾實現約 50 倍的驚人投資回報率，遠超此前 GB200 NVL72 約 10 倍的回報率。

這一發布不僅僅是英偉達自身的進步，更是對整個行業路線圖的重塑。正如 SemiAnalysis 報告所強調的，Rubin CPX 的推出，其重要性僅次於 2024 年 3 月 GB200 NVL72 Oberon 機架級形態的。該芯片通過專門優化預填充階段，強調計算 FLOPS 而非內存帶寬，為分離式推理服務帶來革命性變化。

這一發布還將迫使英偉達所有競爭對手重新制定路線圖。AMD 和 ASIC 供應商此前投入大量資源追趕英偉達的機架級解決方案，但現在必須再次加倍投資開發自己的預填充芯片，進一步延遲縮小與英偉達差距的時間。

SemiAnalysis 的報告提供了對 Rubin CPX 的詳盡洞察，揭示了這款芯片如何通過優化推理的不同階段，重塑行業路線圖。以下是報告要點：

突破內存牆限制：專用芯片架構設計

根據 SemiAnalysis 介紹，英偉達推出 Rubin CPX 的核心理念在於將推理過程解耦為 “預填充（Prefill）” 和 “解碼（Decode）” 兩個階段，併為每個階段設計了專業化的硬件。

報告指出，LLM 請求的預填充階段（生成第一個 Token）通常是計算密集型（FLOPS）的，但對內存帶寬的利用率較低。

儘管 HBM 對訓練和推理都極具價值，但在推理的具體執行過程中，其利用效率存在顯著差異，HBM 僅在解碼步驟中發揮高價值作用。在這種情況下，使用配備昂貴 HBM 的芯片進行預填充是一種資源浪費。

而 Rubin CPX 正是為解決這一痛點而生，它 “瘦身” 了內存帶寬，轉而強調計算 FLOPS。Rubin CPX 擁有 20 PFLOPS 的 FP4 密集計算能力，但僅配備了 2TB/s 的內存帶寬和 128GB 的 GDDR7 內存。相比之下，雙芯片 R200 提供 33.3 PFLOPS 的 FP4 密集計算能力和 20.5TB/s 的內存帶寬以及 288GB 的 HBM。

這將帶來成本效益的顯著提升，SemiAnalysis 報告指出，將 HBM 切換為更便宜的 GDDR7 內存，每 GB 成本可降低 50% 以上。這意味着，在預填充階段，Rubin CPX 能夠以遠低於 R200 的成本，提供高效的計算能力，從而大幅降低總體擁有成本（TCO）。

SemiAnalysis 指出，該芯片設計類似於下一代 RTX 5090 或 RTX PRO 6000 Blackwell，使用大型單片式芯片和 512 位寬 GDDR7 內存接口。但與基於消費者 Blackwell GPU 芯片僅有其 HBM 版本 20% FLOPS 不同，Rubin CPX 的比例躍升至 60%，因為它將是更接近 R200 計算芯片的獨立流片設計。

全新機架級架構：三種部署方案

英偉達推出三種 Vera Rubin 機架配置：VR200 NVL144（僅 Rubin）、VR200 NVL144 CPX（Rubin+Rubin CPX 混合）、以及 Vera Rubin CPX 雙機架方案，具體來看：

NVL144 CPX 機架： 英偉達推出了 VR NVL144 CPX（Vera Rubin NVL144 CPX）機架，將 Rubin GPU 與 Rubin CPX GPU 整合。每個計算托盤（Compute Tray）將包含 4 個 R200 GPU（用於解碼）和 8 個 Rubin CPX GPU（用於預填充）。這種異構配置使得系統能同時高效處理推理的兩個階段。

雙機架解決方案： Vera Rubin CPX 雙機架方案提供了更大的靈活性，允許客户根據自身工作負載需求，單獨部署 VR NVL144（純 Rubin GPU）機架和 VR CPX（純 Rubin CPX GPU）機架，以精確調整預填充與解碼的比例（PD ratio）。

SemiAnalysis 詳細分析了無線纜設計的技術革新。由於高密度設計無法為線纜佈線留出空間，英偉達採用 PCB 中板和 Amphenol Paladin 板對板連接器實現信號傳輸。CX-9 網卡從機箱後半部分移至前半部分，使 200G 以太網/InfiniBand 信號傳輸距離縮短，而較低速度的 PCIe Gen6 信號承擔更長距離傳輸，提高了可靠性和可維護性。

液冷採用夾層式液冷設計，Rubin CPX 和 CX-9 網卡採用夾層式設計，共享液冷冷板，最大化了 1U 托盤空間內的 GPU 密度和散熱效率，這種設計在英偉達 2009 年的 GTX 295 上曾有類似實踐。

預填充流水線並行：高效利用資源的關鍵

Rubin CPX 的另一個重要優勢在於其對預填充流水線並行（Pipeline Parallelism）的優化。

降低網絡成本：預填充階段的通信需求較低，因此 Rubin CPX 放棄了昂貴的快速橫向擴展網絡（如 NVLink）。PCIe Gen6 x16 的帶寬（約 1Tbit/s）足以滿足現代 MoE LLM 的預填充需求。

更高的吞吐量：流水線並行在每個 GPU 上提供更高的 Token 吞吐量，因為它涉及簡單的發送和接收操作，而不是專家並行（EP）中的所有到所有集體操作。

顯著的 TCO 節省： NVLink 橫向擴展的成本約為每 GPU 8000 美元，佔集羣總成本的 10% 以上。Rubin CPX 通過避免使用這些昂貴的網絡設備，為最終用户帶來了巨大的成本節省。

分離式推理服務的技術突破

SemiAnalysis 介紹，業界首先嚐試將預填充和解碼請求路由到不同計算單元，以解決兩種工作負載間的相互干擾問題。這種方法能更好地管理服務級別協議 (SLA)，但仍存在"錯誤配置"問題——純預填充操作幾乎總是嚴重浪費內存帶寬資源。

SemiAnalysis 強調，LLM 請求處理包含兩個階段：預填充階段影響首令牌時間（TTFT），通常受計算限制；解碼階段影響每輸出令牌時間（TPOT），總是受內存限制。

分析顯示，當序列長度超過 32k 時，FLOPS 利用率達到 100%，而內存帶寬利用率下降。使用 R200 進行純預填充操作時，每小時總擁有成本浪費達 0.90 美元，而 Rubin CPX 通過使用成本更低的內存顯著降低了這種浪費。

在管道並行推理中，Rubin CPX 的 PCIe Gen6 x16 接口提供約 1Tbit/s 單向帶寬，足以處理現代 MoE 前沿 LLM 的預填充任務。Rubin CPX 提供更大內存容量，但使用的是"較低質量"的 GDDR7 內存，每 GB 成本不到 HBM 的一半。從內存供應商角度看，GDDR7 利潤率較低，因為技術要求不高且競爭更激烈 (如 Samsung 可以供應)。

HBM 需求可能下降？整體內存市場需求將增長？

CPX 系統的使用降低了 HBM 在總系統成本中的佔比。對於 VR200 NVL144 CPX 或 VR CPX 機架的每一美元支出，相比獨立 VR200 NVL144 機架，分配給 HBM 的比例更低。在 AI 系統支出固定的假設下，每美元支出的 HBM 需求將下降。

進一步來看，SemiAnalysis 報告表示，英偉達 Rubin CPX 架構雖然降低了內存使用率，但反而可能推動整體內存市場規模擴大，GDDR7 供應鏈格局面臨重塑。

技術現實更為複雜。 Rubin CPX 的作用機制是降低預填充和令牌的成本。當令牌成本降低時，需求隨之增加，這意味着解碼需求也會相應上升。與許多其他降低成本的技術創新類似，需求的增長通常會超過成本的下降，最終推動整體市場規模擴大。

Rubin CPX 對 GDDR7 的需求激增，正在重塑內存供應鏈格局，其影響已經開始顯現。值得關注的是，RTX Pro 6000 同樣使用 GDDR7 內存，但速度較低，為 28Gbps。英偉達已經為 RTX Pro SKU 下達了大規模供應鏈訂單。

在這輪 GDDR7 需求激增中，三星成為最大受益者。由於能夠滿足英偉達突然湧現的大批量訂單需求，這些訂單主要流向了三星。相比之下，SK 海力士和美光科技未能滿足這一需求，主要原因是它們的晶圓產能被 HBM 訂單等其他業務佔用。

競爭對手被遠遠甩在身後

SemiAnalysis 報告表示，Rubin CPX 的引入，令英偉達的機架系統設計能力與競爭對手之間的差距達到了 “峽谷” 級別。

英偉達所有競爭對手或將不得不再次重新配置他們的整個路線圖，就像 Oberon 架構改變了整個行業的路線圖一樣。他們需要再次加大投資，開發自己的預填充芯片，這將進一步延遲他們縮小與英偉達差距的時間。

SemiAnalysis 認為，Google TPU 憑藉 3D 環形擴展網絡優勢，支持最大 9216 個 TPU 的集羣規模，應開發預填充專用芯片維持性價比優勢。

AMD 的追趕策略面臨重大挑戰，MI400 72 GPU 機架級系統原本有望在 TCO 方面與 VR200 NVL144 競爭，但英偉達將 VR200 內存帶寬提升至 20.5TB/s，與 MI400 持平。如果 MI400 的實際 FP4 性能與 VR200 NVL144 相當或更低，AMD 將再次落後於英偉達。

據 SemiAnalysis 評估，AMD 缺乏強大的內部工作負載支撐，需要在開發機架級系統和改進軟件的同時，再開闢預填充專用芯片戰線，才有望在 2027 年追上英偉達。

AWS Trainium3 和 Meta MTIAv4 等擁有內部工作負載的供應商具備開發預填充專用芯片的優勢。但 AWS 面臨技術挑戰，因為 1U 計算托盤空間有限，可能需要採用 EFA 網卡側車機架和外部 PCIe AEC 線纜的解決方案。