Apple AI boosts Google TPU, behind-the-scenes killer OCS is also an important part of computing power

華爾街見聞
2024.07.31 06:25
portai
I'm PortAI, I can summarize articles.

蘋果在官網論文中披露,其訓練模型採用了谷歌的 TPUv4 和 TPUv5 芯片,這些芯片能提供比英偉達 A100 更高的性能和能效。TPU 是 Google 推出的專用處理器,擅長大型矩陣運算,適用於深度學習中的張量運算任務。相比於 GPU,TPU 在特定 AI 計算任務上更快,但在其他任務上可能不如 GPU 靈活或高效。 蘋果在 AI 領域中依賴谷歌的芯片和軟件,但具體依賴程度未透露。

當地時間 7 月 29 日,蘋果在官網的一篇論文中披露,其訓練模型採用了谷歌研發的第四代 AI ASIC 芯片 TPUv4 和更新一代的芯片 TPUv5。

早在今年 6 月的全球開發者大會(WWDC)期間,媒體已經在蘋果公佈的技術文件細節中發現,谷歌成為蘋果在 AI 領域發力的另一位贏家。蘋果的工程師在構建基礎模型時運用了公司自研的框架軟件及多種硬件,包括僅在谷歌雲上可用的張量處理單元(TPU)。只不過,蘋果未透露,相比英偉達等其他 AI 硬件供應商,蘋果有多依賴谷歌的芯片和軟件。

TPU—AI 訓練的專用芯片

TPU(張量處理器)是 Google 2016 年首次推出的用於機器學習的專用處理器。

該處理器擅長大型矩陣運算,可以更高效地訓練模型,芯片內集成的 HBM 也有助於更大規模的模型訓練,此外多個 TPU 可以組成 Pod 集羣,極大地提升了神經網絡工作負載的效率。

對比當下市場主流的英偉達 GPU 產品,其主要有以下特點:

核心數量上,GPU 擁有大量的處理核心,可以同時處理多個任務,而 TPU 其核心數量相對較少,但每個核心都針對深度學習的工作負載進行了優化。

適用範圍上,GPU 提供了一定的通用性,可以處理包括圖形渲染、科學計算和深度學習等任務,而 TPU 則專注於深度學習中的張量運算,這使得 TPU 在特定 AI 計算任務上可能比 GPU 更快,但在其他類型的任務上可能不如 GPU 靈活或高效。

應用上,GPU 因其通用性和靈活性而被廣泛應用於各種計算密集型任務,包括但不限於遊戲、電影製作、科學研究、金融建模和深度學習訓練。TPU 由於其專門為深度學習優化,通常用於需要高吞吐量和低延遲的深度學習推理任務,如搜索引擎、推薦系統和自動駕駛汽車。

性能上,谷歌曾在一篇論文中表示,對於規模相當的系統,TPU v4 可以提供比英偉達 A100 強 1.7 倍的性能,同時在能效上也能提高 1.9 倍。

此外據華創證券,2023 年 Google 先後推出 TPUv5e 及 TPUv5p 兩款芯片。其中 TPU v5e,可在同樣成本情況下,為大語言模型和生成式 AI 模型提供相較於 TPUv4 高達 2 倍的訓練性能和 2.5 倍的推理性能;TPUv5p 則是 Google 有史以來功能最強大、可擴展性最強、靈活性最高的 AI 芯片,其訓練大型 LLM 模型的速度為 TPUv4 的 2.8 倍,較 TPUv5e 有近 50% 的提升。當前,TPU 已成為 Google 大模型訓練的主力軍。從 TPU 的使用情況來看,目前 Google 90% 以上的模型訓練均在 TPU 上進行。

谷歌的大殺器——OCS

另外,據此前 Google 論文的數據,在搭建 TPUv4 的集羣時,與傳統 Infiniband 交換機方案相比,OCS(光路交換機)方案成本更低,功耗更低,部署更快。

OCS 是谷歌自研的數據中心光交換機,它通過 MEMS 系統的陣列組反射實現光信號交換,取代原有光電混合交換機體系。

中泰證券指出,谷歌 Gemini 主要使用 TPU v4 和 TPU v5e 大規模訓練,且自 TPU v4 起開始使用 OCS 光交換機,其使用基於 MEMS 的微鏡陣列在 64 個 TPU slice 之間切換,能夠根據實際網絡中的數據量,靈活選擇數據鏈路和網絡拓展,意味着當網絡中部署更高速率的光模塊和交換機時,原有的低速器件可以繼續使用,降低成本功耗。預計大規模 AI 芯片組網有望進一步擴張高速率光模塊需求,OCS 全光方案或為光器件帶來全新增量。

產業方面,華創證券表示,基於 MEMS 的光交換方案在對數據速率及波長不敏感、低功耗、低延遲等方面都具備優勢,Google 選擇自研 OCS、光模塊和光環形器三大主要器件,以構成一個低成本高效益的大規模光交換系統。其中:

1)MEMS 反射鏡是 OCS 的核心組成器件,OCS 的創新性應用,有助於 MEMS 代工業務的拓展。

2)光模塊為適配 OCS 需求,被重新定製化設計為使用環形器 +CWDM4/8 的最新一代 Bidi OSFP 封裝。光模塊國內企業具有較強競爭力,未來應用技術難度更高,客户粘性有望持續提升;

3)環形器被創新性引入光模塊內,傳輸效率進一步提升。環形器供應鏈較為成熟,核心器件法拉第旋轉片國產化程度較低,偏振分束器近年國內廠商已具備量產能力;

4)光芯片與電芯片因更高鏈路預算需求而配套升級,EML 及 DSP 芯片均以海外供應商為主,國產化程度較低;

5)銅纜與光纖受益 Rack 內外連接,帶來較大需求。