Does DeepSeek have negative implications for computing power?

華爾街見聞
2025.01.26 00:55
portai
I'm PortAI, I can summarize articles.

DeepSeek 的算力問題引發討論,分析指出 550 萬美元的訓練成本僅為 DeepSeek-V3 的零頭,且不包括前期研究成本。算力需求隨着算法進步和技術演變而降低,後發追趕者可避免浪費。儘管訓練效率提高,整體成本未必下降,反而可能導致更高的算力需求。幻方的成功代表開源相對閉源的勝利,推動社區繁榮。

其實具體邏輯,從 12 月 deepseek v3 到這周的 r1,我們前前後後分析過很多次了,不妨總結梳理下

1. 海外廣泛引用的 550 萬美金是 v3,而不是 r1 的訓練成本,且 550 萬隻是 v3 實際訓練成本的零頭。v3 論文原話:上述成本僅包括 DeepSeek-V3 的正式訓練,不包括與架構、算法、數據相關的前期研究、消融實驗的成本。社羣內一位算法工程師就曾説 “v3用了幻方自己的 r1 模型生成數據,這個部分的反覆嘗試要不要算在成本里呢?” 一個意思。

2. 前沿探索和後發追趕,所需要的算力本就不是一個量級。表現為訓練同一代模型所需算力每隔 N 個月就是指數級降低。原因包括算法本身的進步(FP8、混合 MoE)、算力的持續通縮、復現方法如蒸餾等對數據的濃縮。最關鍵的是,探索就意味着會有浪費,而後發追趕 “站在巨人肩膀上” 本就可以規避浪費。就比如 o1 的訓練成本肯定遠超 GPT-4,幻方 r1 的訓練成本肯定也超過 v3。而從 o3 到 o4/o5,從 r1 到 r2/r3,訓練算力只會更多。

3. 單次訓練降本了,不代表整體訓練成本會下降。訓練效率提高,實驗室就減少投入嗎?不會,真實邏輯是:基於更高效率,榨乾算力,去攫取更大收益。就拿幻方來説,infra 優化降本能力這麼強、提前囤卡也挺多、沒怎麼擴張 API 服務專注於研究與訓練的情況下,依然還在缺卡。橫向對比之下,北美某些花了更多錢的實驗室,的確顯得很尷尬...但他們之後就降本增效嗎?不會。消化吸收幻方開源的方法 + 比幻方多得多的算力=攫取智能的更大提升。訓練算力最應該擔心的是撞牆,算力使用效率提高,反而可能是提高了模型本身的天花板。

4. 幻方代表的是整個開源相對閉源的一次勝利。對社區的貢獻會快速轉化為整個開源社區的繁榮。如果真的説利空的 Loser,那可能是閉源模型。中國這一點已經提前經歷了,被 Llama 支配的恐懼,跑不過 Llama3 的中國閉源模型公司被迫倒閉、轉應用、轉開源。而今天中國開源打到了北美閉源...如果現在還不如 r1(以及即將到來的 r2 r3),那這家公司的 API 價值基本歸 0。但説實話這個過程的確會讓模型訓練參與方快速縮減。

5. 最關鍵的,以上討論都是訓練,而未來顯然更大需求來自推理。有一點被大家忽略了,幻方對推理成本的消減,比訓練來的更為震撼。今天大家都看到了AMD 宣佈支持幻方 v3,用我們嘉賓 Y 博的話就是:DeepSeek 架構的優雅之處就在於,和標準的 transformer 架構比較起來, 並沒有引入特殊的算子。理論上可以相對輕鬆支持各種類型卡...(這也是被 GPU 禁運逼出來的)大家體會下這句話的分量,以及對於 CUDA 的啓示...幻方這幫人都是手擼算子的天才...

推理成本降低,對算力是利好還是利空?比訓練更好理解。請對比:剛推出來貴到沒人用的o1,以及掀起 API 價格戰之後的豆包。推理成本的降低大概率會帶來應用的繁榮,反而會拉動更大的算力需求。

這裏再引用下星球 Y 博的評論,現在回頭看非常前瞻:DeepSeek-V3 將支持私有部署和自主微調,為下游應用提供遠大於閉源模型時代的發展空間。未來一兩年,大概率將見證更豐富的推理芯片產品、更繁榮的 LLM 應用生態。

6. 如何平衡北美仍在瘋狂的基建,和過去浪費的投資?美國的確CSP 仍在瘋狂搶電,都搶到 2030 年去了。其實各大 CSP 過去 2 年千億美金砸下去,沒有一家單純是為了訓練,基本都是自身業務需求 + 推理業務增長驅動。只有微軟為 OpenAI 準備的算力 credit、AWS 算力租賃給了下游客户用於訓練、Meta/xAI 部分算力用於自身訓練,但算力大頭都是因為自身的推薦系統業務/自動駕駛業務本身需求。以及微軟已經相當於拒絕了 Sam Altman 繼續 All in 的訴求,轉而聚焦回報更確定的推理(Satya 親口這麼説)。

因此幻方這件事對北美 CSP 來説,客觀來講,過去某些訓練投入的確是打水漂了。為冒險、探索新市場付出的必要成本。但看未來,開源的整體繁榮一定最終是利好這些 “中間商”。之前我們闡述過,他們其實不是親自冒險的礦工,他們只是鏟子的搬運工,以及基於這些模型(無論開源 or 閉源)建立更具商業價值的應用生態。卡並不只是用於訓練,越來越大比例會挪到推理。假如訓練的高效讓模型更快進步,應用生態更加繁榮,他們怎麼可能不繼續投呢?

最後,繼續引用下《the bitter lesson》:長遠來看,算力才是真正的決勝因素。歷史的經驗一次又一次地告誡我們,AI 研究者常常試圖將人類的知識灌輸到 AI 算法中,這種做法在短期內通常有效,並且帶來個人成就感和虛榮心。但長遠來看,它會造成瓶頸,甚至阻礙進一步發展。最終的突破性進展往往源於一種截然不同的思路,即通過搜索學習來擴展算力規模。而那些最終的成功往往伴隨着苦澀,難以被下嚥,因為算力的成功,意味着對我們以人類為中心的固有思維和虛榮心,是一記響亮的耳光。

本文作者:信息平權,來源:信息平權,原文標題:《DeepSeek 利空算力?》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。