Understanding the key points of the Hot Chips 2025 conference regarding Google's TPU performance surge, Meta's computing power investment, optical modules, and Ethernet driving Scale Up

華爾街見聞
2025.09.04 10:42
portai
I'm PortAI, I can summarize articles.

摩根大通稱,Hot Chips 2025 大會顯示 AI 基礎設施需求強勁增長。谷歌 TPU 性能較前代提升 10 倍,與英偉達 GPU 差距快速縮小;Meta 擴展 10 萬 +GPU 集羣,預計未來十年增長 10 倍;以太網技術向 Scale Up 領域擴張,成為網絡關鍵增長點;光學集成技術加速發展以應對功耗限制。

AI 需求增長遠未放緩,多項技術突破正在重塑行業格局。

9 月 3 日,摩根大通在最新研報中稱,該行分析師在參加 Hot Chips 2025 大會後認為,AI 在消費端和企業端的爆炸式增長將繼續推動先進計算、內存和網絡技術的多年強勁需求週期。

研報稱,大會上每個會議都強調 AI 是技術進步和產品需求的最重要驅動力,傳遞的核心信息是:AI 基礎設施需求的增長動能依然強勁,且正在從單純的計算力競爭擴展到網絡和光學技術的全面升級。該行認為,以下幾個重要趨勢值得關注:

谷歌 Ironwood TPU 性能大幅躍升,與英偉達 GPU 性能差距快速縮小;

Meta 擴展 100k+ GPU 集羣規模,未來十年預計增長 10 倍;

網絡技術成為 AI 基礎設施關鍵增長點,以太網向 Scale-up 領域擴張;

光學集成技術加速發展以應對功耗限制。

谷歌 Ironwood TPU:性能飛躍縮小與 GPU 差距

摩根大通稱,谷歌在大會上披露了 Ironwood TPU(TPU v6)的最新細節,展現出令人矚目的性能提升。與 TPU v5p 相比,Ironwood 的峯值 FLOPS 性能提升約 10 倍,功效比提升 5.6 倍

存儲容量和帶寬同樣大幅改善,Ironwood 配備 192GB HBM3E 內存,帶寬達 7.3TB/s,相比 TPU v5p 的 96GB HBM2 和 2.8TB/s 帶寬有顯著提升

Ironwood 超級集羣可擴展至 9,216 顆芯片(較此前 4,096 顆大幅提升),由 144 個機架組成,每個機架包含 64 顆芯片,總計 1.77PB 直接可尋址 HBM 內存和 42.5 exaflops FP8 計算能力

性能對比顯示:Ironwood 的 4.2 TFLOPS/瓦功效比僅略低於英偉達 B200/300 GPU 的 4.5 TFLOPS/瓦。摩根大通稱:

這一數據突出表明,先進 AI 專用芯片正快速縮小與領先 GPU 的性能差距,推動超大規模雲服務商加大對定製 ASIC 項目的投資。

據摩根大通預測,該芯片採用與博通合作的 3 納米工藝,將在 2025 年下半年量產。預計 Ironwood 將在未來 6-7 個月為博通帶來 90 億美元收入,生命週期總收入超過 150 億美元。

Meta 定製化部署,凸顯 MGX 架構優勢

研報指出,Meta 在會上詳細介紹了其定製 NVL72 系統 Catalina 的架構設計。與英偉達標準 NVL72 參考設計不同,Catalina 分佈在兩個 IT 機架中,並配備四個輔助冷卻機架。

從內部配置看,每個 B200 GPU 都配對一個 Grace CPU,而非標準的 2 個 B200 配 1 個 Grace CPU 配置。這一設計使系統中 Grace CPU 總數翻倍至 72 個,LPDDR 內存從 17.3TB 增至 34.6TB,緩存一致性內存總量從 30TB 增至 48TB,增幅達 60%。

Meta 表示,選擇定製 NVL72 設計主要基於模型需求和物理基礎設施考慮。模型需求不僅包括大語言模型,還涵蓋排序和推薦引擎。物理基礎設施方面,需要將這些功耗密集型系統部署到傳統數據中心基礎設施中。

Meta 強調,英偉達採用符合 OCP 標準的 MGX 模塊化參考設計架構,為客户基於個性化架構需求進行定製化提供了可能。

網絡技術成焦點,Scale Up 帶來新機遇

網絡技術成為大會的重要議題,Scale Up 和 Scale Out 領域都出現顯著增長機會

博通重點介紹了最新推出的 51.2TB/s Tomahawk Ultra 交換機,該公司將其描述為"專為 HPC 和 AI 應用構建的低延遲 Scale Up 交換機"。

Tomahawk Ultra 是博通 102.4TB/s Tomahawk 6 交換機的後續產品,支持該公司推動以太網在 Scale Up 和 Scale Out 領域採用的戰略。

該行分析師指出,Scale Up 特別代表着博通 TAM 擴展的重要機會,尤其是超大規模雲服務商部署越來越大的 XPU 集羣

英偉達繼續推進以太網布局,推出"Spectrum-XGS"以太網技術,旨在解決客户運行跨多個數據中心的分佈式集羣所產生的"跨規模"機會。

英偉達稱 Spectrum-XGS 相比現成以太網解決方案具有多項優勢,包括無限制擴展和自動調整負載均衡,並宣佈 CoreWeave 成為首個部署該技術的客户。

光學技術深度集成,應對功耗和成本挑戰

光學技術成為大會另一焦點領域,多個演講者強調了推動光學技術深度集成到 AI 基礎設施的關鍵動力,包括銅互連的限制、快速增長的機架功率密度,以及光學收發器相對較高的成本和功耗。

Lightmatter 展示了其 Passage M1000"AI 3D 光子互連器",解決了 I/O 連接位於芯片周邊導致連接性擴展不如芯片性能擴展快速的挑戰。M1000 的核心是跨越 4000 平方毫米的有源多掩模光子互連器,能夠在單個封裝內創建大型芯片複合體。

Ayar Labs 討論了其用於 AI Scale Up 的 TeraPHY 光學 I/O 芯片,這是 UCIe 光學中繼器的首個實現,確保與其他製造商芯片的兼容性和互操作性。該技術支持高達 8.192TB/s 的雙向帶寬,功耗效率比傳統可插拔光學器件加電氣 SerDes 高 4-8 倍。

儘管 CPO 和其他前沿光子技術尚未廣泛部署,但分析師預計數據中心功耗限制將成為 2027-2028 年廣泛採用的關鍵驅動因素。M1000 的光學波導分佈在整個芯片表面,消除了傳統設計的"海岸線"限制,同時功耗顯著低於電氣信令。

AMD 產品線擴展,2026 年推出 MI400 系列

AMD 在會上深入介紹了 MI350 GPU 系列的技術細節。MI355X 運行在更高的 TBP 和最大時鐘頻率下,TBP 為 1.4kW,時鐘頻率 2.4GHz,而 MI350X 為 1.0kW 和 2.2GHz。

因此 MI355X 主要部署在液冷數據中心基礎設施中,MI350X 則主要服務於傳統風冷基礎設施的客户。

性能方面,MI355X 的計算性能較 MI350X 高出 9%,但單芯片內存容量和帶寬保持一致。

部署配置上,MI355X 可部署在最多 128 個 GPU 的機架系統中,而 MI350X 機架最多支持 64 個 GPU,這主要由風冷系統與直接液冷系統的熱管理能力差異決定。不過兩者的 Scale Up 域都保持在 8 個 GPU。

AMD 重申 MI400 系列及其"Helios"機架解決方案將按計劃於 2026 年推出,摩根大通預計時間為 2026 年下半年,MI500 系列計劃於 2027 年發佈

摩根大通分析師認為,AMD 在推理計算市場具備良好定位,該市場需求增長超過訓練市場,AMD 產品相對英偉達替代方案具有強勁性能和總體擁有成本優勢。