
Understanding the key points of the Hot Chips 2025 conference regarding Google's TPU performance surge, Meta's computing power investment, optical modules, and Ethernet driving Scale Up

摩根大通稱,Hot Chips 2025 大會顯示 AI 基礎設施需求強勁增長。谷歌 TPU 性能較前代提升 10 倍,與英偉達 GPU 差距快速縮小;Meta 擴展 10 萬 +GPU 集羣,預計未來十年增長 10 倍;以太網技術向 Scale Up 領域擴張,成為網絡關鍵增長點;光學集成技術加速發展以應對功耗限制。
AI 需求增長遠未放緩,多項技術突破正在重塑行業格局。
9 月 3 日,摩根大通在最新研報中稱,該行分析師在參加 Hot Chips 2025 大會後認為,AI 在消費端和企業端的爆炸式增長將繼續推動先進計算、內存和網絡技術的多年強勁需求週期。
研報稱,大會上每個會議都強調 AI 是技術進步和產品需求的最重要驅動力,傳遞的核心信息是:AI 基礎設施需求的增長動能依然強勁,且正在從單純的計算力競爭擴展到網絡和光學技術的全面升級。該行認為,以下幾個重要趨勢值得關注:
谷歌 Ironwood TPU 性能大幅躍升,與英偉達 GPU 性能差距快速縮小;
Meta 擴展 100k+ GPU 集羣規模,未來十年預計增長 10 倍;
網絡技術成為 AI 基礎設施關鍵增長點,以太網向 Scale-up 領域擴張;
光學集成技術加速發展以應對功耗限制。
谷歌 Ironwood TPU:性能飛躍縮小與 GPU 差距
摩根大通稱,谷歌在大會上披露了 Ironwood TPU(TPU v6)的最新細節,展現出令人矚目的性能提升。與 TPU v5p 相比,Ironwood 的峯值 FLOPS 性能提升約 10 倍,功效比提升 5.6 倍。
存儲容量和帶寬同樣大幅改善,Ironwood 配備 192GB HBM3E 內存,帶寬達 7.3TB/s,相比 TPU v5p 的 96GB HBM2 和 2.8TB/s 帶寬有顯著提升。
Ironwood 超級集羣可擴展至 9,216 顆芯片(較此前 4,096 顆大幅提升),由 144 個機架組成,每個機架包含 64 顆芯片,總計 1.77PB 直接可尋址 HBM 內存和 42.5 exaflops FP8 計算能力。
性能對比顯示:Ironwood 的 4.2 TFLOPS/瓦功效比僅略低於英偉達 B200/300 GPU 的 4.5 TFLOPS/瓦。摩根大通稱:
這一數據突出表明,先進 AI 專用芯片正快速縮小與領先 GPU 的性能差距,推動超大規模雲服務商加大對定製 ASIC 項目的投資。
據摩根大通預測,該芯片採用與博通合作的 3 納米工藝,將在 2025 年下半年量產。預計 Ironwood 將在未來 6-7 個月為博通帶來 90 億美元收入,生命週期總收入超過 150 億美元。
Meta 定製化部署,凸顯 MGX 架構優勢
研報指出,Meta 在會上詳細介紹了其定製 NVL72 系統 Catalina 的架構設計。與英偉達標準 NVL72 參考設計不同,Catalina 分佈在兩個 IT 機架中,並配備四個輔助冷卻機架。
從內部配置看,每個 B200 GPU 都配對一個 Grace CPU,而非標準的 2 個 B200 配 1 個 Grace CPU 配置。這一設計使系統中 Grace CPU 總數翻倍至 72 個,LPDDR 內存從 17.3TB 增至 34.6TB,緩存一致性內存總量從 30TB 增至 48TB,增幅達 60%。
Meta 表示,選擇定製 NVL72 設計主要基於模型需求和物理基礎設施考慮。模型需求不僅包括大語言模型,還涵蓋排序和推薦引擎。物理基礎設施方面,需要將這些功耗密集型系統部署到傳統數據中心基礎設施中。
Meta 強調,英偉達採用符合 OCP 標準的 MGX 模塊化參考設計架構,為客户基於個性化架構需求進行定製化提供了可能。
網絡技術成焦點,Scale Up 帶來新機遇
網絡技術成為大會的重要議題,Scale Up 和 Scale Out 領域都出現顯著增長機會。
博通重點介紹了最新推出的 51.2TB/s Tomahawk Ultra 交換機,該公司將其描述為"專為 HPC 和 AI 應用構建的低延遲 Scale Up 交換機"。
Tomahawk Ultra 是博通 102.4TB/s Tomahawk 6 交換機的後續產品,支持該公司推動以太網在 Scale Up 和 Scale Out 領域採用的戰略。
該行分析師指出,Scale Up 特別代表着博通 TAM 擴展的重要機會,尤其是超大規模雲服務商部署越來越大的 XPU 集羣。
英偉達繼續推進以太網布局,推出"Spectrum-XGS"以太網技術,旨在解決客户運行跨多個數據中心的分佈式集羣所產生的"跨規模"機會。
英偉達稱 Spectrum-XGS 相比現成以太網解決方案具有多項優勢,包括無限制擴展和自動調整負載均衡,並宣佈 CoreWeave 成為首個部署該技術的客户。
光學技術深度集成,應對功耗和成本挑戰
光學技術成為大會另一焦點領域,多個演講者強調了推動光學技術深度集成到 AI 基礎設施的關鍵動力,包括銅互連的限制、快速增長的機架功率密度,以及光學收發器相對較高的成本和功耗。
Lightmatter 展示了其 Passage M1000"AI 3D 光子互連器",解決了 I/O 連接位於芯片周邊導致連接性擴展不如芯片性能擴展快速的挑戰。M1000 的核心是跨越 4000 平方毫米的有源多掩模光子互連器,能夠在單個封裝內創建大型芯片複合體。
Ayar Labs 討論了其用於 AI Scale Up 的 TeraPHY 光學 I/O 芯片,這是 UCIe 光學中繼器的首個實現,確保與其他製造商芯片的兼容性和互操作性。該技術支持高達 8.192TB/s 的雙向帶寬,功耗效率比傳統可插拔光學器件加電氣 SerDes 高 4-8 倍。
儘管 CPO 和其他前沿光子技術尚未廣泛部署,但分析師預計數據中心功耗限制將成為 2027-2028 年廣泛採用的關鍵驅動因素。M1000 的光學波導分佈在整個芯片表面,消除了傳統設計的"海岸線"限制,同時功耗顯著低於電氣信令。
AMD 產品線擴展,2026 年推出 MI400 系列
AMD 在會上深入介紹了 MI350 GPU 系列的技術細節。MI355X 運行在更高的 TBP 和最大時鐘頻率下,TBP 為 1.4kW,時鐘頻率 2.4GHz,而 MI350X 為 1.0kW 和 2.2GHz。
因此 MI355X 主要部署在液冷數據中心基礎設施中,MI350X 則主要服務於傳統風冷基礎設施的客户。
性能方面,MI355X 的計算性能較 MI350X 高出 9%,但單芯片內存容量和帶寬保持一致。
部署配置上,MI355X 可部署在最多 128 個 GPU 的機架系統中,而 MI350X 機架最多支持 64 個 GPU,這主要由風冷系統與直接液冷系統的熱管理能力差異決定。不過兩者的 Scale Up 域都保持在 8 個 GPU。
AMD 重申 MI400 系列及其"Helios"機架解決方案將按計劃於 2026 年推出,摩根大通預計時間為 2026 年下半年,MI500 系列計劃於 2027 年發佈。
摩根大通分析師認為,AMD 在推理計算市場具備良好定位,該市場需求增長超過訓練市場,AMD 產品相對英偉達替代方案具有強勁性能和總體擁有成本優勢。
