
Google accelerates TPU deployment pace, competing with NVIDIA in the AI chip field

谷歌首次與第三方雲服務商達成協議,在其數據中心部署自研 AI 芯片 TPU,標誌着谷歌正更直接地挑戰英偉達在 AI 芯片市場的主導地位。分析認為,此舉可能減少這些設施對英偉達 GPU 的依賴,也反映出谷歌長期希望做大 TPU 業務、降低對英偉達依賴的戰略意圖。
谷歌是英偉達人工智能芯片最大的買家之一,並將這些芯片租賃給 Google Cloud 的客户,如 OpenAI 和 Meta Platforms。然而,谷歌發展自家 AI 芯片的雄心並未減緩。
據七位參與相關談判的人士對媒體透露,谷歌近期接洽了一些以租賃英偉達芯片為主的小型雲服務商,提出希望他們的數據中心也能部署谷歌的 AI 芯片。
據參與該交易的公司代表私下對媒體透露,谷歌已經與至少一家雲服務商達成協議,其中包括總部位於倫敦的 Fluidstack,後者將在紐約的數據中心部署谷歌的張量處理單元(TPU)。
此外,谷歌也曾嘗試與其他專注英偉達芯片的雲服務商達成類似協議,比如正為 OpenAI 打造一個部署大量英偉達芯片的數據中心的 Crusoe 公司,以及向微軟和 OpenAI 租賃英偉達芯片的 CoreWeave。
媒體稱,目前尚不清楚谷歌首次選擇在其他雲服務商的數據中心部署 TPU 的原因。分析認為,這可能是因為谷歌自建數據中心的速度趕不上對芯片的需求增長,也可能是希望通過其他雲服務商為其 TPU 尋找更多新客户,比如 AI 應用開發者。這種做法與雲服務商租賃英偉達顯卡的模式類似。
分析稱,如果是後一種情況,谷歌的做法就等於更直接地與英偉達競爭,畢竟英偉達主要是向這些雲服務商銷售芯片。無論出於什麼目的,在其他雲服務商的數據中心部署 TPU,都會意味着這些設施使用的英偉達 GPU 數量會減少。
投資公司 D.A. Davidson 的股票研究分析師 Gil Luria 團隊對媒體表示,越來越多的雲服務商和大型 AI 開發商對 TPU 感興趣,希望藉此擺脱對英偉達的依賴。他們在與多家前沿人工智能實驗室的研究人員和工程師交流後發現,業內對谷歌這款為機器學習和 AI 定製的加速芯片評價正面。
因此,分析師團隊認為,如果谷歌將 TPU 業務與旗下 AI 研究機構 DeepMind 合併並單獨剝離上市,市場將有強勁需求。根據 Luria 團隊的估算,這項業務的潛在估值約為 9000 億美元,而在今年早些時候,他們的估值還是 7170 億美元。
“沒人願意只有一個來源……在關鍵組件上完全受制於某一供應商。”
“如果這項業務真的被剝離,投資者將同時獲得一家領先的 AI 加速芯片供應商和一家頂級 AI 實驗室,這可能會成為 Alphabet 最具價值的資產之一。”
而英偉達首席執行官黃仁勳則對這種競爭芯片項目潑了冷水。他對媒體表示,AI 應用開發者更偏好 GPU,因為它們用途更廣,支持的軟件也更強大。
拉攏英偉達的 “朋友”
媒體報道,谷歌的談判表明,它正在設法接近那些英偉達重點扶持的新興雲服務商。這些公司與 Google Cloud 和 Amazon Web Services 不同,它們幾乎只租賃英偉達芯片,而且比傳統雲服務商更願意採購多樣化的英偉達產品。英偉達還向這些公司投資了資金,並優先供應最熱門的芯片。
谷歌主要將 TPU 用於開發自家的 AI 模型,比如 Gemini 系列,而近年來內部對 TPU 的需求大增。
不過,谷歌也長期向其他公司租賃 TPU。例如,Apple 和 Midjourney 都通過 Google Cloud 租用 TPU。而在今年夏季初,谷歌甚至一度讓 OpenAI 對租用 TPU 感興趣,但 OpenAI 隨後突然改變了主意。
谷歌內部曾討論擴大 TPU 業務,以增加收入並減少雲計算部門對昂貴的英偉達芯片的依賴。據兩名前高管對媒體透露,高層也曾探討過將 TPU 直接銷售給 Google Cloud 以外的客户。
分析認為,像 CoreWeave 和 Fluidstack 這類小型雲服務商,例如 Fluidstack 為 Mistral 這類創業公司提供英偉達 GPU,由於 AI 開發者普遍偏愛英偉達產品,因此在商業上有強烈動機優先提供英偉達芯片服務器。
但谷歌似乎已經找到辦法促使 Fluidstack 支持其 TPU 擴張計劃:如果 Fluidstack 無法承擔即將啓用的紐約數據中心的租賃成本,谷歌將提供最多 32 億美元的 “兜底” 支持。這項承諾幫助 Fluidstack 及其數據中心合作伙伴籌集債務融資以建造設施。
TPU 需求正在上升
媒體稱,谷歌的第六代 Trillium TPU 芯片自去年 12 月向外部客户開放後需求強勁。分析師預計,第七代 Ironwood TPU 的需求將 “顯著上升”。Ironwood 是 Google 首款專為大規模 AI 推理任務(即模型訓練完成後的部署運行)設計的芯片。
分析師指出,谷歌的 TPU 芯片算力最高可達 42.5 exaflops(百億億次浮點運算),並已大幅提升高帶寬內存容量。這些芯片 “成本效率也顯著提升”,這是吸引更多前沿實驗室關注的主要原因之一。
初創公司 Anthropic 此前雖在小規模上使用 TPU,但分析師指出,該公司近期正在招聘 TPU 內核工程師,這可能意味着他們正考慮從使用 Amazon Web Services 提供的 Trainium 芯片轉向 TPU。Trainium 是亞馬遜為 AI 訓練設計的芯片,該公司已對 Anthropic 投資 80 億美元。
分析師還指出,馬斯克的 xAI 公司也對購買 TPU 表現出興趣,部分原因在於今年 “JAX-TPU 工具支持的顯著改進”。JAX 是谷歌開發的一個高性能計算 Python 庫,能夠讓程序在 TPU 上高效運行。分析師指出,直到最近,JAX 生態系統還限制了 TPU 在 Google 外部大規模部署的可能性。
根據 D.A. Davidson 的 DaVinci 開發者數據集,2025 年 2 月至 8 月這半年內,Google Cloud 上與 TPU 相關的開發者活躍度增長了大約 96%。
