The Verification Logic of AI Grand Narrative

華爾街見聞
2025.01.31 06:11
portai
I'm PortAI, I can summarize articles.

這篇文章探討了 AI 宏大敍事的驗證邏輯,強調在宏大敍事之外,需通過數學和調研數據進行驗證。當前主流觀點認為,強化學習在 Scaling Law 的早期階段,可能會替代 Pretrain 的算力需求,未來三年內 AGI 將出現,Agent 產品將替代人類價值。儘管應用尚未爆發,但強化學習的進展延長了訓練生命週期,行業面臨的挑戰和機遇並存。

這幾天看各路 Sellside 點評和國內自媒體學到了很多宏大敍事專用名詞,例如 Jevons paradox、Sputnik moment、全球技術擴散、降本帶來加速 AGI。

太多的宏大敍事對弈難免逃不開空對空的交流。我們是個嚴肅的研究團隊,不想從宏大敍事角度過度討論。

這篇文章無意去證實或者證偽,只是感覺到在宏大敍事之外,我們也需要嘗試用數學/會計方法和調研 Data Point 驗證,作為我們 Track 進展的錨。

至少從我的感受是經歷過去幾天的 Debate,整個行業變得越來越容易受到刺激,易體質,投資的難度也越來越大。

現在的主流宏大敍事是:

  • 強化學習目前仍然在 Scaling Law 的早期,這會完全替代 Pretrain 的算力用量。

  • Deepseek等帶來的模型降本,最終會大量刺激 Token 用量,帶來應用生態的加速催化,並且總量比訓練更大。

  • 我們會在未來三年內看到 AGI,Agent 產品替代人類價值,並且貢獻大量的消耗。AGI 已經不是能不能,已經是什麼時候的問題。

這與我們一年前聽到的宏大敍事已經有了觀感的變化,在一年前的宏大敍事是:

  • Agent 和應用進展是更加漸進的,在推理大規模起量,到訓練預算增長變慢之間,可能會有 Air Pocket。

  • Air Pocket 的時間點,可能是發現 AI 剛好能處理例如 Coding、Math、客服等相對簡單場景,但延伸到更加複雜場景需要更長的時間。

  • 前途非常光明,但過程可能仍然像 Gartner 曲線表述的,會有一個過熱→冷靜→成熟的階段。

宏大敍事的轉變是因為:

  • 最主要供應鏈出貨很好,看不出 Airpocket。

  • 儘管我們還沒有看到應用的爆發,但強化學習基於邊際數據改善的邏輯,更容易做垂直場景。

  • 訓練的生命週期也因為強化學習進一步延長了。

1 強化學習的進展與天花板

我們在之前的一篇文章詳細的講過強化學習的關鍵要素:合成數據的數量與質量。

在我們跟蹤 Scaling Law 的過程中,也出現過幾次明顯的心態變化。

在 2024 年上半年和之前,Scaling Law 沒有爭議,Pretrain 的邏輯比 Posttrain 更加清晰簡單,每一代模型可能需要 2-3 年,但 10x 參數量增長帶來相應效果提升。

在 2024 年年中,我們開始在個別案例中,發現強化學習的用量已經超過 Pretrain,同時這是一條非常好的生成合成數據的路徑,並最終會反哺 Pretrain。所以在當時,我們非常樂觀,Scaling Law 同時有兩條驅動曲線。

在 2024 年四季度我們看到了一些變化:

  • 強化學習反哺 Pretrain 的路徑好像沒有之前那麼清晰,很難泛化。

  • 儘管進行了無數次嘗試,但將額外計算能力投入到 Pretrain 中的回報已大大減少。這主要是由於高質量原始數據集的枯竭,而合成數據(一種潛在的解決方案)尚未提供令人滿意的結果。

  • 但雖然 Pretrain 撞牆了,Scaling Law 仍然有一條處於早期的曲線for強化學習,我們講到強化學習甚至還沒有到 GPT3 的階段。

  • 在這一階段,我們的想法與目前的主流敍事邏輯非常一致。

到了最近一個月,我們又看到了一些變化:

  • 強化學習也存在數據制約,現在的數據生成方法仍然偏向手工化,依賴人工標註。同時,做題的方法也基本只適用於 coding 和 math,很難進一步泛化。

  • 如果繼續沿用目前的的合成數據生產方案,往後的邊際成本也會越來越高,這會同時出現 Data Effiency 和 Data Quality 的問題。

  • 但我們仍然不確定在 GB 卡帶來訓練算力指數級提升後,是否能解決 Data Effiency 問題,同時也通過大量實驗解決 Data Quality 問題,最終通向可泛化的 Self-play,突破數據瓶頸,超越人類智能。

  • 另外也強調下,最近討論熱烈的 Deepseek R1-zero,和我們所説的 self-play 仍有所區別,實際上還是大量依靠了人類生成的數據,本質上還是和人類做了對齊,需要在宏大敍事下正視技術的發展。

所以這裏最關鍵的驗證點是在 GB 到量後,是否大量實驗真的能夠通向真正的Self-play。這個時間點很近了,可能在Q2-Q3會有清晰地結論(除非大集羣 GB 完全上線會進一步 delay)

在這個驗證點前,我們相信所有的大模型公司都要為了驗證這一邏輯做大量的算力儲備,換言之在這個時間段是對 CAPEX 相對安全的時間段。

但越臨近驗證點,不確定性的風險也就越大。

2 降本帶來的推理用量刺激-Jevons paradox

燃油、煤炭、電都是典型的Jevons paradox 商品,並在不斷降價後催生了更大的需求。

IaaS 產品也是,頭部 CSP 每年降價 5-8%,通過性能相對 OnPrem 的不斷提升,最終帶來的穩定的增速。

大模型 API 仍然非常接近於過去軟件行業的 PaaS 產品。而降本帶來用量刺激的邏輯,在 PaaS 產品的每一個階段都相伴相生。

我們在 CDN、短信、RTC、數據庫等不同壁壘的 PaaS 產品中都聽到過類似的故事,“降價會促生更大的用量,來收入的加速增長。”

最近的一次故事在所有 Consumption SaaS 中,從 2022 年開始,所有的客户都開始認為 Consumption SaaS 的定價太貴了。Consumption SaaS 也開始回應客户的需求,並開始為我們所有投資人畫下了一個新的大餅,“降價刺激更多的用量,百利而無一害,我們很快會再次加速增長。”

這個再次加速增長短的用了一年時間,長的用了三年時間。

就 LLM API,我也覺得最後一定會符合 Jevons paradox 的終局,但中間的路徑可能仍然很曲折。

這需要非常好的節奏把控。目前每個季度平均 API 的降本大概維持 20-30% 的水平。這意味着每年 API 價格會降低 70%,換言之需要倍的 Token 增長維持 API 收入的穩定。需要 6 倍的 Token 增長,維持 API 收入的翻倍。

造成過去每個季度降本的模型包括 GPT4 Turbo、GPT4o、GPT4o mini。

一次過快的價格調整,很可能也會帶來 1-2 個月的 Dip(沒錯,AGI 時代已經比之前的 PaaS 友好多了,畢竟是大時代),然後花更多的時間走出來直至加速。

所以在這輪裏可能要去想,如果降本不一定能帶來推理算力總盤子立刻加速增長(可能還是漸進的增長),那在敍事變化的時候,什麼產品的份額會提升?

同時在目前的場景中也需要區分是更好的模型,還是更便宜的模型在驅動用量。

在多數 2C 場景,更便宜的價格,意味着更低的試錯成本,可以覆蓋更多的客户,這一點問題都沒有。

但在 2B 場景,客户付費能力本身就更強,更好的模型才會帶來更多的用量,價格帶來的彈性可能有限。例如 Salesforce Agentforce 產品,目前普遍的客户折扣在 2-3 折,模型的降本很難推動客户去打 1 折刺激更多量。但模型的能力提升,不光可以帶來用量提升,還可以帶來更高的 ASP。

所以更強的 O4、O5 模型,或者 Orion 模型,可能對用量的幫助更大。

回到我們的觀測時間點,觀測 API 增長比觀測 Agent 公司的進展更加直接。

這個時間點可能在 2-3 月。O1 正式版在相比 O1 Preview 降本 60%,以及 O3 出現後,是不是能帶來用量的增長。這對推理的彈性非常大。

目前在觀察了 2 個月 O1 Preview 的使用情況後,還沒有看到用量的激增。

3 IT Spending 與 CAPEX 的數學邏輯

主流敍事很容易將兩者畫等號,但在數學與會計邏輯卻有很大的區別。

我們曾經對 OpenAI 的訓練成本進行過估算,這包括 24-26 年的訓練折舊成本分別為 3.6B、8.6B 與 15B。25 年的折舊成本可能比 OpenAI 原本的計劃要低,在考慮到如果 Stargate 項目能順利融資,25 年-26 年的折舊成本也會繼續上移。

在上述的假設中,儘管訓練開支仍然在 2026 年有 70% 的增長,但到 CAPEX 層面已經不再增長了。訓練開支更符合收入增長的趨勢,我們假設 OpenAI 在 26 年仍然有翻倍的收入增長。但毫無疑問在這個算術裏,2025 年是 CAPEX 的超級大年,但也留下了更多的問號給 2026 年。

我們嘗試將 Startgate 的影響加入其中。尚且不瞭解 Stargate 與 OpenAI 原本的 CAPEX 有多少重合。

第一批 1000 億美金 StargateTCO 中,有 15% 是資金和運維成本,扣掉後 25-27 年的 CAPEX 投資(和上面 apple2apple 包括場地等)分別是 100 億,250 億,500 億。如果 25-26 年的 CAPEX 中都各有一半是來自 OpenAI 過去的 CAPEX 計劃,那意味着去重後的 25-26 年 CAPEX 是 300 億和 375 億,27 年會增長更快。

在這個算術場景中,Stargate 非常重要,能不能順利融資和啓動決定了 2026 年的 CAPEX 敍事。

同樣的數學計算也可以出現在 Anthropic CEO 最近的描述中。

所以這裏最大的驗證節點是 Stargate 的融資進展,以及其 ROI 的合理性。

按照目前的 ROI 估算,最大的算力供應方 Oracle 的 IRR 僅有 5-8%。

4 Sputnik moment

這個話題非常 Debate,不想過度闡述。

但看起來更像閉源 AI 的 Sputnik moment,而不像美國 AI 行業的 Sputnik moment。

Deepseek 與北美大模型的 Effiency 比較,雖然無法 Apple2Apple 的給出答案,但觀察北美公司的做法,這也確實改變了長期想法。

關於優化數據,OpenAI 幾乎不做任何披露,Deepseek 也很多沒寫,兩邊就像開了戰爭迷霧,只能靠猜進行比對。

但即使 OpenAI 的 Effiency 比 Deepseek 高,OpenAI 能夠挖掘的算力利用空間也是很大的。

OpenAI 有最高效的 networking,NV 保姆級支持,最好的卡,最好的配置,階段性在優化少的情況下 Effiency 比 Deepseek 高也是可能的,但 Deepseek 的工程做法還是給了北美大模型公司很多優化上的啓示。

更不用提,之前本來在算力應用上就非常粗放的 META 等大模型公司。

5 最重要的

整個故事中最重要的驗證點是什麼?

應該是大規模可泛化的 Self-play 能否跑通。

本文作者:波太金,來源:共識粉碎機,原文標題:《AI 宏大敍事的驗證邏輯

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。