
Computing power, the "hard currency" in the post-GPT-5 era

北美模型更新與推理應用實現初步閉環,算力進入 “二次搶籌” 階段。OpenAI 發佈 GPT-5,顯著降低算力成本,CEO 表示算力資源有望在 5 個月內翻倍。各大廠商 tokens 消耗量快速增長,尋求 AI 技術普惠性與商業可持續性平衡。國內大模型加速追趕,字節等企業發佈模型更新,算力消耗穩中有升,特別是在多模態領域實現突破。國產算力芯片企業也在向系統級方案轉型,以支持大模型迭代與應用部署。
摘要
北美模型更新 + 推理應用實現初步閉環,算力進入 “二次搶籌” 階段,繼續看好海外算力鏈投資。在 Google/Anthropic 等廠商帶來模型小幅更新後,北京時間 8 月 8 日,OpenAI 發佈了其最新版本領先大模型 GPT-5,除智力水平、編程能力等基礎指標提升外,在資源調度、幻覺消除、輸入上下文窗口長度、寫作水平等領域也有明顯優化。
更重要的是,GPT-5 大幅降低了單位算力成本,API 調用價格與 Gemini 2.5 Pro 實現對標,我們認為這也是當下 OpenAI 這類依賴外部資本的大模型企業的必然選擇,是其算力需求持續的必要條件。OpenAI CEO 在 X 表示,公司有望於 5 個月內使其算力資源翻倍。
在推理應用端,以 Google 為代表的各大廠商 tokens 消耗量正呈高速增長態勢,通過當前 “免費拉量、付費突圍” 的市場策略,尋求 AI 技術普惠性與商業可持續性之間的階段性平衡。我們看到,大模型行業領軍者正通過技術迭代及客户粘性,使得追趕者不得不進行 “算力搶籌” 來避免被時代淘汰。
我們認為北美模型更新迭代 + 推理應用落地已在當下模型代際上實現初步閉環,算力在後 GPT-5 時代依然為 “硬通貨”,我們繼續看好海外算力產業鏈。
國內大模型加速追趕,看好開源 SOTA 模型更新後國產算力市場表現。國內業者雖在模型端與海外能力依然存在一定差距,但我們看到 2025 年以來字節、快手、Kimi、Minimax 等多家企業接連發布模型更新,並推廣應用部署,算力消耗穩中有升,特別是在多模態領域實現了能力突破和商業落地,為中長期算力需求增長提供多元化動能。以內外部使用的合計口徑來看,字節 tokens 月消耗量已經可媲美 Google。
供給側來看,我們也看到國產算力芯片企業產品正在從單芯片走向系統級方案,來支持國內大模型迭代及應用部署。我們認為,若 DS 等開源 SOTA 模型在 3Q25 迎來更新,國內 AI 產業鏈飛輪有望重啓,二級市場投資情緒也有望得到提振。
正文
發佈 GPT-5,AI 大模型繼續行駛在發展快車道上
我們看到,在 “DeepSeek 的創新熱” 過後,全球大模型行業持續發展,模型迭代速度並未放緩,反而呈現出多點爆發的趨勢,這也持續推動着算力需求向更高天花板邁進。
8 月 6 日凌晨,北美多家頭部大模型公司幾乎在同一時間段內發佈了新一輪的模型更新。谷歌 DeepMind 推出了新一代通用世界模型 Genie 3,它能以每秒 20-24 幀速度實時生成 720p 畫面,且可模擬出長達數分鐘內容連貫的可交互動態世界,能模擬物理世界、自然世界,創建動畫奇幻世界以及探索歷史場景等,其問世標誌着世界模擬 AI 邁向新高度,同時也推高了對算力的需求。
OpenAI 發佈了首個開源大模型系列 gpt-oss,包含 gpt-oss-120b(1170 億參數,適用於大規模、高性能推理任務)和 gpt-oss-20b(210 億參數,專為低延遲和本地化應用設計),這兩款模型的訓練與運行同樣需要大量算力支撐,無論是前期訓練時的海量數據處理,還是後期在不同設備上推理時的即時運算。Anthropic 公司更新了 Claude Opus 4.1 版本,相較於之前的 Claude 4 系列,在編碼、推理和執行指令能力上有所改進,如在 SWE-bench Verified 上的準確率提升等,我們認為模型性能的提升背後離不開算力提供保障。
圖表 1:Genie 3 性能表現
資料來源:Google DeepMind 官網,中金公司研究部
圖表 2:gpt-oss 競賽編程表現
資料來源:OpenAI 官網,中金公司研究部
圖表 3:Claude Opus 4.1 性能表現
資料來源:Anthropic 官網,中金公司研究部
8 月 8 日凌晨,OpenAI 更是發佈了備受期待的 GPT-5,我們認為從算力視角分析這一新模型不乏亮點:Token 使用效率顯著提升、定價體系大幅下降、上下文能力躍升至 400K。效率上的 “省”、價格上的 “低” 與能力上的 “強”,一方面壓低了單次調用成本,另一方面以更長上下文與更廣用户覆蓋提升整體調用密度與瞬時資源佔用,由此可明顯推高對算力的實際需求,形成 “降本—擴容—增需” 的良性循環。
具體來看,首先我們認為 GPT-5 大大提升了 Token 使用效率,能夠以更少的 Token 消耗獲得超過前代模型的效果。這源於三方面升級:
其一,統一系統與自適應推理路由。GPT-5 是一個 “統一系統”,默認用一個更高效的聊天模型,只有當問題真的複雜時才切到 “Thinking” 推理模型,能按任務複雜度自動決定是否啓用深度推理,避免對簡單問題的冗長思考與輸出;官方評估顯示,在保持或提升效果的同時,GPT-5 Thinking 相比 o3 在多類任務上輸出 Token 降低 50–80%。
其二,推理鏈收斂與工具調用更高效。根據公司官方評估,在真實工程評測(如 SWE-bench Verified)中,GPT-5 在高推理設置下較 o3 輸出 Token 少約 22%、工具調用少約 45%,意味着它在規劃—執行—校驗的鏈條上更直、更穩,減少了中間步驟與交互開銷,從源頭壓縮了生成長度。
其三,可控生成與最小推理。GPT-5 新增 verbosity(控制長短)與 reasoning effort(推理耗時)等控制項,使開發者能把 “文字密度” 和 “思考深度” 精確撥檔到任務所需,避免過度解釋,在不犧牲正確性的前提下顯著降低有效 Token 投入。
同時,我們認為 GPT-5 對指令遵循與多工具協作的魯棒性更強,減少澄清與返工回合,從而進一步降低 “每完成一項任務的總 Token”,這種從底層機制到應用接口的系統優化,不僅減少了單次任務的 Token 消耗,也降低了整體算力成本,推動算力的 “良性飛輪” 前進,用效率提升激發未來更大的需求。
圖表 4:GPT-5 在軟件編程上準確率與輸出 Token 效率大幅提升
資料來源:OpenAI 官網,中金公司研究部
其次,GPT‑5 的定價策略實現了顯著降本。開發者使用 GPT-5 API 時,每百萬個輸入 Token 收費僅為 1.25 美元,輸出部分為 10 美元,整體遠低於前代 GPT-4.1 模型;其中 GPT‑5 mini 版本更低,僅需 0.25 美元輸入和 2 美元輸出,GPT‑5 nano 更低至 0.05 美元輸入和 0.40 美元輸出。
我們看到,GPT-5 的定價結構甚至比一直被視為 “低價典範” 的 Gemini 2.5 Pro 更具競爭力,僅在輸入端相當而輸出更便宜,更比 Anthropic 同類產品低了 15 倍之多。另一方面,C 端用户現在可有條件地免費使用 GPT‑5。普通用户可以直接使用 GPT‑5 模式,使用時間保持在每天 “幾小時” 級別,當用量達到上限後系統會自動切換到 mini 版本,確保體驗不中斷;Plus 訂閲(約$20/月)擁有更高的使用額度,而 Pro 訂閲(約$200/月)則享有無限訪問 GPT‑5 Pro 與 GPT‑5 Thinking 模式。
從策略層面看,我們認為這樣的定價和產品分層機制不僅降低了使用門檻,也讓算力 “降本增效” 的趨勢更加明確,對生成式 AI 的高頻日常使用形成良性推動,有望持續刺激用户需求與使用廣度。
圖表 5:GPT-5 API 定價 (美元,每百萬 Token)
資料來源:各公司官網,中金公司研究部
另一個關鍵進步在於上下文能力的躍升。
GPT-5 版本目前支持的上下文擴展到了 400K Tokens,相較 GPT-4o 的 128K 放大約 3.1 倍,相較 o3 的 200K 也提升到 2 倍;並且在長上下文檢索與跨文檔內容對齊上更穩健、命中率更高。這意味着單次會話可直接容納大部頭報告、代碼庫與多源資料,減少拆分與反覆往返帶來的 “額外對話” 與無效生成;同時,400K 的窗口也對顯存與帶寬提出更高的瞬時需求。
總體來看,一方面,更長的可見範圍會帶來超過 128K 的即時算力需求,另一方面,更強的應用承載力又會反向提升應用能力,激發新的應用場景(如長文檔回答、跨工具流水線),從而進一步放大對算力的需求。
綜上,我們看到,近期的模型更新背後一個共同的趨勢和邏輯是:模型能力持續增強的同時,Token 的使用效率越來越高,同時對算力的需求持續走高,不僅是傳統的雲側集羣推理能力,越來越多的場景開始向本地和端側算力遷移,例如本地部署的 OSS 模型對消費級 GPU 也提出了性能要求,Genie 3 這種需要端側實時響應的模型也進一步推高了設備端的能效與算力門檻。
可以説,模型迭代本身就是當前大模型行業算力需求增長的主要源頭之一。無論是訓練規模的擴大,還是推理複雜度的提升,亦或是多模態、多任務適配的需求,都在持續推高算力消耗。
圖表 6:2022 年以來 AI 模型更新時間線
資料來源:公司官網,中金公司研究部
從上圖 AI 模型更新時間線圖可見,2022 年以來,國內外眾多廠商如 OpenAI、Anthropic、谷歌、國內如 MiniMax、Deepseek、字節等,不斷推出新模型或更新迭代現有模型,2025 年上半年全球範圍內主流廠商發佈的大模型數量明顯增加,且呈現出更為密集的發佈節奏。
數據顯示,2025 年上半年共有 9 家主要公司更新模型,總髮布模型數量達 21 個,同比 2024 年上半年分別增長了 28.6% 和 10.5%。不僅如此,從模型類型來看,也從早期的語言模型單點能力演進為多模態、多任務、超長上下文等全面突破。例如 OpenAI 的 GPT-4.5、Claude4.1、Gemini2.5、Grok4、Qwen3-235B 等均體現出能力邊界的進一步拓展。
這進一步反映出大模型行業持續發展、迭代加速的現狀,密集更新的模型正成為推動算力需求持續走高核心因素。
海外模型的持續更新對算力而言是持續的利好因素。以 OpenAI 的 GPT-5 來看,我們認為其整體能力雖低於部分市場預期,然而本輪更像是在資本與單位經濟的約束下的一次 “效率優先”、成本導向的選擇,而非前沿技術邊界突破的嘗試。
OpenAI 主要依賴外部資本,資金消耗快,若無法形成合適的價格—性能組合,產品難以被大規模負擔並保持可持續。基於此,我們認為 GPT-5 此次更新轉變的目標是降低 OpenAI 的運營成本,而非全力推動前沿技術邊界的拓展。為實現降本,GPT-5 此次更新將重點放在追求規模效應、降低延遲時間以及實現更經濟便宜的推理成本上,讓自身變得更易於被用户獲取,為在全球範圍內的推廣創造了有利條件。
隨着產品的廣泛推廣,吸引了更為龐大且多樣化的用户羣體,進而有力推動了產品的發展。而產品的發展壯大,必然會對算力產生更多的需求,從這個角度看,GPT-5 的更新對其持續消耗算力是有益的。8 月 11 日,OpenAI CEO Sam Altman 也在 X 平台表示,公司會把算力側重分配給推理側(付費版使用量提升/優先滿足 API 需求/免費版服務質量提升),且擬在 5 個月維度內將計算資源擴大一倍,這一舉措也印證了我們的上述觀點。
與此同時,其他競爭對手可能選取的不同策略也有望對算力市場需求產生正面影響。例如谷歌、Meta 等企業,憑藉其母公司的萬億級市值規模與雄厚資源,在資金投入與研發支持上幾乎無後顧之憂,能夠更從容地推進模型的更新與優化;Anthropic 則憑藉與眾多企業的緊密對接,具備更強的盈利能力與商業可持續性,這為其持續投入代碼能力較強的模型研發、推動技術迭代提供了堅實基礎。
我們看到,無論是面臨資金約束而尋求商業化或規模化突破的參與者,還是具備穩定資源支撐的頭部企業,其對模型迭代升級不同方向的持續推動,都在共同提升對算力的需求。
圖表 7:不同廠商商業策略均對算力需求構成正向拉動
資料來源:各公司官網,中金公司研究部
全球大模型 Token 消耗快速攀升,AI 應用密度全面提升
海外巨頭 Token 調用量快速增長:谷歌 AI Overview 領跑
2025 年以來,谷歌、微軟與字節跳動的 Token 消耗量均呈顯著上升趨勢。
圖表 8:2024 年 12 月-2025 年 7 月微軟、字節、谷歌 Token 消耗量
資料來源:微軟電話會,2025 火山引擎原動力大會,Google I/O 大會,中金公司研究部
我們認為,谷歌 Token 消耗量在 2025 年上半年顯著攀升,主要受到兩方面因素驅動:
首先,我們認為 AI Overview 的快速擴展大幅提升了 Token 調用頻率,是驅動谷歌 2025 年 Token 消耗量顯著增長的主要原因。AI Overview 是谷歌於 2024 年 5 月首次推出的搜索增強功能,該功能在搜索結果頁面頂部自動生成簡潔明瞭的 AI 摘要,無需用户主動進入對話界面,直接基於搜索關鍵詞觸發,這意味着 AI 系統在用户搜索時會頻繁地在頁面上自動生成大量自然語言摘要,而這些生成過程大多是在用户無感知的情況下由系統後台完成,因此 Token 的消耗主要來源於系統自動生成內容本身,而不是用户主動提問或點擊所觸發的交互行為。這種靜態、默認觸發的高覆蓋率摘要機制,疊加谷歌每年約 5 萬億次的搜索請求體量,使得 AI Overview 成為谷歌 Token 調用量增長的關鍵推手。此外,2025 年 5 月谷歌推出 AI Mode,相比 AI Overview 進一步引入多輪搜索整合與多問題預測,推高了搜索 AI 整體的 Token 密度。整體來看,AI Overview 的產品形態、觸發機制及部署速度,在功能側構成谷歌 Token 消耗量快速增長的重要基礎。
與此同時,我們認為谷歌在用户側的明顯領先進一步放大了其 Token 消耗總量,並拉開與其他廠商的差距。截至 2025 年 3 月,AI Overview 月活躍用户已達 15 億,而 Gemini 的月活用户為 3.5 億,OpenAI 旗下 ChatGPT 的月活躍用户約為 6 億。值得注意的是,儘管 Gemini 作為 Chatbot 類應用的月活僅為 ChatGPT 的一半左右,谷歌整體的 Token 調用量卻已達到微軟的 5–6 倍,表明真正拉開雙方差距的核心因素在於 AI Overview 這一搜索類功能的高頻使用。相比之下,谷歌 AI 產品以免費、默認觸發、輕交互為主要特點,大幅降低了用户使用門檻,在全球範圍內實現了更快的滲透速度和 Token 調用量的集中快速增長。綜合來看,谷歌依託其龐大的搜索用户體量、高頻觸發的 AI Overview 功能,以及輕便易用的交互入口設計,使得其 Token 調用結構在用户數與單位用户調用密度兩個維度上同時擴張,從而支撐了其成為 2025 年 Token 消耗增長速度最快的頭部廠商。
Token 消耗密度持續抬升,付費場景有望率先打破商業閉環
當下,Token 消耗量快速上升的驅動因素愈發多元複雜,相較於僅以 Chatbot 為主的階段,算力需求快速擴張。
圖表 9:Token 增加消耗的主要方式
資料來源:中金公司研究部
從當前 AI 應用市場的供需格局來看,免費模式仍是主要的用户使用方式,其用户規模和增長速度明顯快於付費模式。
相比之下,那些已經實現變現的 AI 產品,通常具備明顯的差異化能力,能夠精準解決用户的高價值需求。從功能層面看,付費產品往往在專業性、可靠性與體驗完整性上形成壁壘:例如,ChatGPT-Agent 與 Claude-4 等付費產品,憑藉更強的推理能力、更低的錯誤率以及更完整的功能體驗,構築起一定的專業壁壘,其輸出內容的錯誤率明顯低於免費模型;從技術支撐看,付費產品依託更優的算力調度與緩存機制(如火山引擎的 AI 雲原生方案降低 20% 推理成本 [1]),能夠在高頻交互場景中保持低延遲與高穩定性,這是免費產品難以企及的服務水準。
總體來看,我們認為當前 “免費拉量、付費突圍” 的市場格局,反映出 AI 技術普惠性與商業可持續性之間的階段性平衡。我們認為,隨着模型能力的持續提升,如推理更準確、多模態交互更流暢、成本控制更高效,用户對高質量服務的付費意願將逐步增強。屆時,真正能為用户創造效率提升或決策優化價值的產品,將有望實現 “價值定價”,構建更清晰的商業閉環。
國產模型不甘示弱,靜待流量王者更新
在全球範圍內,雖然中國廠商的大模型創新能力相比北美可能暫時稍顯落後,但整體模型水平仍在持續推進。隨着模型不斷迭代更新,其對雲側和端側算力的要求也會越來越高,整個行業也將在算力與模型創新的相互促進中持續發展。我們認為,後續若 DeepSeek 等流量模型發佈更新,有望促進上述正循環發展。
Kimi K2 作為一款萬億參數的 MoE 架構模型,較之前版本在架構、能力和功能上均有明顯更新,整體性能實現大幅躍升。其採用總參數 1T、激活參數 32B 的設計,通過增加專家數量提升知識廣度,減少注意力頭數量增強特徵學習效率,配合 MuonClip 優化器實現了 15.5T Token 預訓練的穩定進行,在代碼生成(如構建 3D HTML 場景、期貨交易系統)、數學推理等基準測試中取得開源模型 SOTA 成績,基礎能力明顯增強。按官方定價,每百萬輸入 Token 4 元、輸出 Token16 元,未來隨着開發者把更長文檔、更復雜鏈式任務交由 K2 處理,整體 Token 消耗規模還將進一步放大。
圖表 10:Kimi K2 損失與 Token 消耗量關係
資料來源:Kimi K2 官網,中金公司研究部
MiniMax 較之前版本也在長文本、視頻生成與智能體三大賽道均完成 SOTA 級更新,同時也帶來了更高的算力消耗。MiniMax 更新的三款模型通過 “擴大容量/分辨率 + 降低單價” 策略,實則增加了 Token 消耗。M1 將輸入上限提至 100 萬 Token,用户可一次性提交大量內容,單任務 Token 數成十倍、百倍增長;Hailuo 02 提升分辨率且同價,使用户傾向用更高清或多次重生成,單條視頻 Token 消耗顯著上升;Agent 方案可緩存整個知識庫,每步將消耗大量 Token。三者將共同拉高 MiniMax 總 Token 消耗量。
快手可靈 AI 最近也通過多維度技術升級實現了能力的全面躍升。5 月快手推出的可靈 2.1 系列模型。儘管官方把定價(靈感值)維持在與 1.6 版本同一水平,但模型升級帶來的高階功能和創作自由度可能引導用户更頻繁使用高規格模式,從而增加實際靈感值的消耗總量。
8 月 5 日,阿里通義千問團隊開源了首個全新文生圖模型 Qwen-Image。Qwen-Image 可能會推動通義千問向 “文本 - 圖像” 多模態交互升級,這會增加 Token 消耗,其圖像生成、編輯等任務需更復雜的文本指令,以及圖像創作的多輪迭代調整、功能擴展帶來的場景擴容等可能將增加 Token 消耗量。
圖表 11:Qwen-Image 生成的圖像
資料來源:Qwen-Image GitHub,中金公司研究部
從國內 AI 模型的升級態勢來看,近期各大模型的更新均以獨特方式拓展着 AI 邊界,這直接引發了 Token 消耗量的急劇上揚,與早期僅存在 Chatbot 的階段相比,呈現出指數級增長趨勢。
圖表 12:各個 AI 模型 APP 周度日均活躍用户數
資料來源:Similar Web,Questmobile,中金公司研究部
在字節跳動方面,火山引擎公佈的數據顯示,豆包大模型的日均 Token 使用量已達到約 16.4 萬億。2025 年第一季度,其在國內公有云大模型調用量的市場份額約為 46.4%,位居行業第一。
以 Kimi 為例,2025 年 2 月其 App MAU 約 2,622 萬。
MiniMax 旗下海外社交 AI 產品 Talkie 在 2024 年 10 月的月活達 2062 萬,對應的國內版產品 “星野” 月活為 512 萬,二者合計月活 2574 萬,其主打娛樂對話場景。
快手可靈的 Token 需求更多由 “多模態鏈路深度” 驅動:官方數據顯示,其全球用户規模已突破約 2200 萬,上線第 10 個月的年度經常性收入(ARR)突破 1 億美元,且 4-5 月單月付費均超過 1 億元人民幣。
通義千問的 App 端公開 “絕對 MAU/DAU” 較少;第三方監測曾指出其雖位列 “智能體數量 Top3”,但流量多在 500 萬以下,據此以 “數百萬級 MAU” 估算,同樣的交互口徑下月度 Token 可達數十億級,且隨着其在 “文本—圖像/視頻” 多模態方向擴展(如 Qwen-Image、VLo 等),每次任務的提示詞與迭代輪次也會進一步拉長。
綜合而言,我們認為,隨着 MAU 與人均交互次數的 “雙增長”,疊加深度推理與多模態鏈路的拓展,Token 處理量的快速增長直接驅動了對更大內存容量與更復雜調度算法的需求。而在視頻生成等新場景中,算力需求也快速攀升。隨着模型能力的持續進化,未來 Token 消耗與算力需求將持續攀升,且算力瓶頸正從解碼能力受限向帶寬與互聯能力受限發生結構性遷移。
國產算力聚焦從芯片到系統的全維度支撐,把握行業高成長機會
聚焦國內供給側,我們看到中國 AI 芯片企業紛紛亮相 2025 世界人工智能大會(WAIC 2025)。
我們認為,當下國產算力廠商不再侷限於單一芯片的性能迭代,而是聚焦於互連技術創新、超節點架構構建與規模化系統方案輸出,通過協同構建高效算力集羣,為 AI 大模型的訓練與推理提供從芯片到系統的全維度支撐。
面對不斷成長的市場天花板,我們認為國產算力有望通過產品實力不斷提升繼續攫取市場份額。
本文作者:成喬升、賈順鶴等,來源:中金點睛,原文標題:《中金 | AI 進化論(13):算力,後 GPT-5 時代的 “硬通貨”》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
