
Google's token consumption has increased 50 times in a year, now 6 times that of Microsoft/ChatGPT

推理成本比預期的低不少。
今天巴克萊一篇對比谷歌和微軟在推理流量上 token 消耗的對比,非常有意思,甚至有些出乎投資者意料外的內容。“免費” 帶來需求暴增,而且推理成本比預期的低不少。
1.AI 推理規模的絕對領先
Alphabet 在 1Q25 共推理≈634 萬億(634T)tokens,而 Microsoft 約 100T;到 2025 年 4 月,月度推理量已升至 480T,較一年前的 9.7T 激增 50 倍,顯示 Google 在 AI 推理流量上具備 6 倍於 Azure/ChatGPT 的規模優勢。
2.增長驅動力——免費 AI 產品而非付費訂閲
推理量暴漲主要來自 Search 的 AIOverviews 等免費場景;GoogleSearch 用户基數約為 ChatGPT 的 5–6 倍,免費 AItoken 增速(50×)遠超付費大模型收入增速(3–4×),凸顯 Google 先以用户與數據壁壘為先、後續再尋求變現。
3.成本衝擊被高估:推理花費僅佔搜索收入≈1%
按 Gemini2.5 費率估算,1Q25 推理成本約 7.5 億美元,僅佔搜索收入的≈1%(佔 COGS+Opex1.6%);即便 token 按 4 倍速度繼續攀升,也仍低於搜索核心基礎設施成本(≈18% 收入),緩解市場對利潤率下滑的擔憂。
4.資本開支結構:訓練為主,推理僅用≈10%
GoogleAI 計算 CAPEX 中約 90% 仍投向訓練與新模型,推理對應的芯片 CAPEX 在 1Q25 僅 6.2%(≈6 億美元)。若按 480T 月度 run-rate 估算,2Q25 推理 CAPEX 也僅升至≈14%,顯示資金仍主要押注長期模型演進。
5.硬件效率:≈27 萬顆 TPUv6 即可支撐現有推理
採用 50/50Pro 與 Flash 模型、15%ActiveParameters 假設,Google 僅用≈270kTPUv6(ASP≈4,500 美元)即可覆蓋 1Q25 推理負荷,體現自研加速器在功耗與成本端的優勢。
6.未來催化:Astra、Mariner、Veo 等代理式應用
尚未全面放量的通用 AI 助手(ProjectAstra)、瀏覽器代理(Mariner)和視頻生成模型(Veo)預計將進一步推高 token 基數,Google 已提前把 Compute CAPEX 提升到總 CAPEX 的>50%,為 2026 年後 AI 需求埋下增量彈性。