
Wall Street Deep Research: Is DeepSeek the AI Apocalypse?

在 “模型規模定律” 不斷推動成本上升的背景下,像 MoE、模型蒸餾、混合精度計算等創新對 AI 發展至關重要。伯恩斯坦認為,目前 AI 計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收。
春節期間,DeepSeek 新一代開源模型以驚人的低成本和高性能引發熱議,在全球投資界引發劇震。
市場上甚至出現了 DeepSeek"僅用 500 萬美元就複製 OpenAI"的説法,認為這將給整個 AI 基礎設施產業帶來 “末日”。
對此,華爾街知名投行伯恩斯坦在詳細研究 DeepSeek 技術文檔後發佈報告稱,這種市場恐慌情緒明顯過度,DeepSeek 用 “500 萬美元複製 OpenAI” 是市場誤讀。
另外,該行認為,雖然 DeepSeek 的效率提升顯著,但從技術角度看,並非奇蹟。而且,即便 DeepSeek 確實實現了 10 倍的效率提升,這也僅相當於當前 AI 模型每年的成本增長幅度。
該行還表示,目前 AI 計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收,因此對 AI 板塊保持樂觀。
“500 萬美元複製 OpenAI” 是誤讀
對於 “500 萬美元複製 OpenAI” 的説法,伯恩斯坦認為,實際上是對 DeepSeek V3 模型訓練成本的片面解讀,簡單將 GPU 租用成本計算等同於了總投入:
這 500 萬美元僅僅是基於每 GPU 小時 2 美元的租賃價格估算的 V3 模型訓練成本,並未包括前期研發投入、數據成本以及其他相關費用。
技術創新:效率大幅提升但非顛覆性突破
接着,伯恩斯坦在報告中詳細分析了 DeepSeek 發佈的兩大模型 V3、R1 詳細技術特點。
(1)V3 模型的效率革命
該行表示,V3 模型採用專家混合架構,用 2048 塊 NVIDIA H800 GPU、約 270 萬 GPU 小時就達到了可與主流大模型媲美的性能。
具體而言,V3 模型採用了混合專家(MoE)架構,這一架構本身就旨在降低訓練和運行成本。在此基礎上,V3 還結合了多頭潛在注意力(MHLA)技術,顯著降低了緩存大小和內存使用。
同時,FP8 混合精度訓練的運用進一步優化了性能表現。這些技術的綜合運用,使得 V3 模型在訓練時僅需同等規模開源模型約 9% 的算力,便能達到甚至超越其性能。
例如,V3 預訓練僅需約 270 萬 GPU 小時,而同樣規模的開源 LLaMA 模型則需要約 3000 萬 GPU 小時。
- MoE 架構: 每次只激活部分參數,減少計算量。
- MHLA 技術: 降低內存佔用,提升效率。
- FP8 混合精度訓練: 在保證性能的同時,進一步提升計算效率。
談及 V3 模型帶來的效率提升,伯恩斯坦認為,與業界 3-7 倍的常見效率提升相比並非顛覆性突破:
MoE 架構的重點是顯著降低訓練和運行的成本,因為在任何一次只有一部分參數集是活動的(例如,當訓練 V3 時,只有 671B 個參數中的 37B 為任何一個令牌更新,而密集模型中所有參數都被更新)。
對其他 MoE 比較的調查表明,典型的效率是 3-7 倍,而類似大小的密度模型具有類似的性能;
V3 看起來甚至比這個更好(10 倍以上),可能考慮到該公司在模型中帶來的其他一些創新,但認為這是完全革命性的想法似乎有點誇張,並且不值得在過去幾天裏席捲 twitter 世界的歇斯底里。
(2)R1 模型的推理能力與 “蒸餾” 策略
DeepSeek 的 R1 模型則在 V3 的基礎上,通過強化學習(RL)等創新技術,顯著提升了推理能力,使其能夠與 OpenAI 的 o1 模型相媲美。
值得一提的是,DeepSeek 還採用了 “模型蒸餾” 策略,利用 R1 模型作為 “教師”,生成數據來微調更小的模型,這些小模型在性能上可以與 OpenAI 的 o1-mini 等競爭模型相媲美。這種策略不僅降低了成本,也為 AI 技術的普及提供了新的思路。
- 強化學習(RL): 提升模型推理能力。
- 模型蒸餾: 利用大模型訓練小模型,降低成本。
對 AI 板塊保持樂觀
伯恩斯坦認為,即便 DeepSeek 確實實現了 10 倍的效率提升,這也僅相當於當前 AI 模型每年的成本增長幅度。
事實上,在 “模型規模定律” 不斷推動成本上升的背景下,像 MoE、模型蒸餾、混合精度計算等創新對 AI 發展至關重要。
根據傑文斯悖論,效率提升通常會帶來更大的需求,而非削減開支。該行認為,目前 AI 計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收。
基於以上分析,伯恩斯坦對 AI 板塊保持樂觀。