
How to anticipate DeepSeek R2

路透社報道 DeepSeek 可能在 5 月前發佈 R2 版本。研究員 Daya 提到,RL 仍在早期階段,預計今年會有顯著進步。R1 論文指出,隨着 RL 數據增加,模型的推理能力將提升,並自然湧現複雜行為。DeepSeek 計劃在開源的基礎上,繼續推進模型的開發,R2 將對標 OpenAI 的完整模型,而 V4 可能加入多模態能力。
路透今晚報道了 DeepSeek 可能在 5 月前發佈 r2。之前 DeepSeek 研究員 Daya 在 2 月初已經説過:RL 還在早期,今年會看 “顯著進步”(significant progress)
其實在 r1 論文中也提到過:由於目前 RL 訓練數據還很少,R1 的下個版本會大幅提升。
也就是 r1 論文中的下圖,以及論文所述:隨着 RL 數據的增加,模型不僅解決複雜推理任務的能力持續穩定提升,且會自然湧現出一些複雜行為能力,比如 “反思”、“探索不同方法”。這些能力不是人類設計,而是隨着模型在 RL 環境中訓練,自然湧現的。
粗淺的理解,現在不需要算法上的巨大創新,按照目前路線 + 更多算力 +DS 如此強的 infra 能力,基於目前的 V3 基座模型,依然可以取得 r2/r3。當看到 RL 提升邊際放緩,再基於新的基座 V4,繼續做 RL,進一步推進推理模型提升。也就是下面這張圖:(左腳踩右腳示意圖)
而參考 OpenAI 的路線圖,o3 已經決定不發佈完整模型,GPT-4.5 也成了最後一個獨立發佈的基座模型,意味着 GPT-5(混合模型)開始,越來越黑盒。説白了,以後無論是基座模型還是推理模型本身,都是 “原料” 而不是 “最終產品”,CloseAI 和 Anthropic 一定會雪藏。
但 DeepSeek 要做的,就是在別人繼續閉源的時候,繼續開源。r2 應該對標的是 o3 完整版,而 V4 至少應該對標 GPT-4.5,基於 V4+RL 的模型,應該對標是未來的所謂 “GPT-5”。因此合理預期應該是 V4 可能會加入多模態能力,但 r 系列依然是推理模型。且這個過程中,所有的 “原料” 全部開源,不僅原料開源,按照這次代碼的基調,連製造原材料的 “配方” 都直接開源。
這裏面其實沒有什麼 DeepSeek 不知道的秘密,甚至在 infra 層面遠超北美很多模型大廠。今天我們在星球討論的:DeepSeek 甚至可能比英偉達更懂如何使用 GPU。而所謂 Research 上的創新,OpenAI o 系列的靈感也來自於早已發表的 “開源” paper,疊加自己的算力優勢和工程探索實現。説到底沒人全靠自己閉門造車,都受益於全世界 “開源” 研究或實踐的餵養。
因此説回來,相比於 r2,大家反而應該更期待 V4,因為這打開了推理模型另一個 level 天花板,開闢的是另一條全新跑道。r2 是時間表上確定的事情,而 V4 會是一個驚喜。這都會在今年發生。
信息平權,原文標題:《如何預期 DeepSeek R2》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。