
The AI computing power competition has escalated, with Google releasing the next-generation Ironwood TPU architecture, which boasts a 16-fold increase in performance, achieving a single-chip computing power of 4614 TFLOPs

谷歌其第七代 TPU 架構 Ironwood 在核心性能上實現了指數級增長。單顆 Ironwood 芯片的峯值算力高達 4614 TFLOPs,與谷歌 2022 年推出的 TPU v4 相比,Ironwood 的單芯片算力提升了超過 16 倍。谷歌同時公佈了圍繞該芯片構建的機架、網絡互連和冷卻系統等。
AI 基礎設施的軍備競賽正以前所未有的速度升級。谷歌最新發布的下一代張量處理單元(TPU)平台 Ironwood,以其驚人的性能飛躍,再次推高了這場競賽的門檻。
根據谷歌在 Hot Chips 2025 大會上披露的信息,其第七代 TPU 架構 Ironwood 在核心性能上實現了指數級增長,單顆 Ironwood 芯片的峯值算力高達 4614 TFLOPs。與谷歌 2022 年推出的 TPU v4 相比,Ironwood 的單芯片算力提升了超過 16 倍;即便是與去年發佈的 TPU v5p 相比,也增長了近 10 倍。

Ironwood 的發佈不僅是單個芯片的革新,更是一套完整的、旨在實現極致擴展性的系統級解決方案。谷歌同時公佈了圍繞該芯片構建的機架、網絡互連和冷卻系統,展示了其將尖端算力轉化為大規模、高效率生產力的全棧能力。
性能飛躍:單芯片算力提升超 16 倍
谷歌此次公佈的數據清晰地展示了其 TPU 平台性能的演進路線。具體來看,Ironwood 的單芯片峯值算力達到 4614 TFLOPs,並配備了 192 GB 的高帶寬內存(HBM),帶寬高達 7.4 TB/s。與之對比,2022 年發佈的 TPU v4 單芯片算力為 275 TFLOPs,配備 32 GB HBM,帶寬為 1.2 TB/s。而 2023 年推出的 TPU v5p,單芯片算力為 459 TFLOPs,配備 95 GB HBM,帶寬為 2.8 TB/s。

從 TPU v4 到 Ironwood,谷歌在短短數年內將單芯片算力提升了一個數量級以上,這反映了 AI 模型對計算需求的爆炸性增長,以及芯片設計廠商為滿足這一需求所做的努力。
在超級計算集羣(Superpod)層面,一個 Ironwood Superpod 將包含 9216 顆芯片,規模相較於前幾代產品進一步擴大。

系統架構:從芯片到超級計算集羣的擴展
強大的芯片性能必須依賴精密的系統設計才能充分發揮。谷歌詳細介紹了 Ironwood 從芯片到機架再到集羣的模塊化、可擴展架構。該系統的核心是 Ironwood SoC(片上系統)芯片,四顆這樣的芯片被集成在一塊 Ironwood PCBA 主板上。

隨後,16 個 PCBA 主板像托盤一樣堆疊起來,構成一個包含 64 顆芯片的 Ironwood TPU 機架。在機架內部,谷歌沿用了至少三代產品的 4x4x4 3D 環面(3D Torus)網絡拓撲,形成一個邏輯上的計算單元。為了實現更大規模的擴展,谷歌採用其專有的芯片間互連技術(ICI),通過混合使用 PCB 走線、銅纜和光纖鏈路,將多個機架連接成一個 Superpod。
據披露,該系統最多可將 43 個計算單元(每個單元 64 顆芯片)連接起來,形成一個擁有 1.8 Petabytes 網絡帶寬的龐大集羣。

驚人算力的背後是巨大的能源消耗和散熱挑戰。資料顯示,一個滿載的 Ironwood 機架功耗可超過 100 千瓦,這對數據中心的供電和冷卻系統提出了嚴苛要求。為應對這一挑戰,谷歌為 Ironwood 機架配備了高效的液體冷卻系統。
該系統包括用於冷卻劑分配的 CBU 機架,以及在機架頂部安裝的防滴漏盤,用於監測任何潛在的液體泄漏。在供電方面,機架採用 416 伏交流電輸入,通過整流器轉換為直流電為系統供電。
