
Liang Wenfeng's new paper: Provide a "dictionary" for large models, with computation and memory separated, IQ skyrockets, spoilers for DeepSeek V4?

論文揭示,當我們將 “記憶” 從 “計算” 中剝離,把該背的交給 “字典”,把該算的交給大腦,AI 的推理能力將迎來反直覺的爆發式增長。這一刻,或許就是 DeepSeek V4 誕生的前夜。
這是一場關於 AI“大腦皮層” 的重構。
長期以來,Transformer 架構被困在一個昂貴的悖論中:我們用着最先進的 GPU 算力,去讓 AI 模型 “死記硬背” 那些查字典就能知道的靜態知識。
DeepSeek 梁文鋒團隊與其北大合作者在今日凌晨發佈的重磅論文《Conditional Memory via Scalable Lookup》,徹底打破了這一僵局。他們提出了一種全新的Engram(印跡)模塊,在傳統的 “條件計算”(MoE)之外,開闢了第二條稀疏化戰線——“條件記憶”。
這不只是一次技術修補,而是一場關於模型 “腦容量” 的供給側改革。它證明了:當我們將 “記憶” 從 “計算” 中剝離,把該背的交給 “字典”,把該算的交給大腦,AI 的推理能力將迎來反直覺的爆發式增長。


DeepSeek 計劃在 2 月春節前後正式發佈 V4,而這一刻或許就是 DeepSeek V4 誕生的前夜。
六層神經網絡的 “無用功”
故事的起點,源於 DeepSeek 團隊對 Transformer 內部運作機制的一次 “核磁共振” 掃描。
在人工智能的黑盒子裏,當大模型看到 “Diana, Princess of Wales”(戴安娜,威爾士王妃)這個短語時,它的內部發生了一場令人費解且極其昂貴的 “內耗”。
研究人員發現,為了識別這個固定的實體,模型竟然動用了整整 6 層網絡:
-
第 1-2 層:模型還在琢磨 “Wales” 大概是一個國家;
-
第 3 層:它意識到這是歐洲的一個地理概念;
-
第 4 層:它開始拼湊出 “Princess of Wales” 似乎是一個頭銜;
-
第 5 層:它聯想到了 “威爾士親王的妻子”;
-
第 6 層:直到這裏,它才終於確認,這是指那位著名的 “戴安娜王妃”。

在一位追求極致效率的架構師眼中,這簡直是算力的暴殄天物。
“戴安娜王妃” 是一個客觀存在的、靜態的實體,它不會因為上下文的變化而改變其本質。為了提取這個本來查字典就能知道的事實,Transformer 竟然動用了整整 6 層深度的昂貴矩陣運算去 “重建” 這個概念。
這就像是一個絕世天才,在去解決微積分難題之前,每次都得先花半小時默寫一遍九九乘法表。 這種 “隱式記憶” 的機制,迫使模型將寶貴的參數容量和網絡深度,浪費在了簡單的模式匹配上。
DeepSeek 在這篇長達 33 頁的論文中,提出了一個直擊靈魂的拷問:為什麼不直接給大模型配一本可以隨查隨用的 “超級字典”?
架構重塑——Engram 模塊的暴力美學
為了解決這個問題,DeepSeek 提出了一種名為 “Engram(條件記憶)” 的全新模塊。
如果説 MoE(混合專家模型)是把 “大腦” 分成了不同的區域,讓不同的專家負責不同的思考(條件計算);那麼 Engram 就是給大腦外掛了一個巨大的 “海馬體”,專門負責存儲靜態知識(條件記憶)。

1. 復活 “N-gram”:從古老智慧中尋找答案
Engram 的核心靈感,竟然來自於 NLP(自然語言處理)領域的 “上古神器”——N-gram。在深度學習統治世界之前,我們就是靠統計 “N 個詞同時出現的概率” 來理解語言的。
DeepSeek 將這一經典概念進行了現代化的魔改:
-
傳統的 Transformer:知識分散在神經元的權重(Weights)裏,提取知識需要經過複雜的線性層計算,複雜度高。
-
Engram 模塊:它是一個巨大的、可擴展的嵌入表(Embedding Table)。當模型讀到 “張仲景” 或者 “四大發明” 這種固定搭配(N-gram)時,不需要動用大腦皮層去推理,直接通過哈希索引,在內存表中 “查” 出對應的向量。
這一過程的時間複雜度是O(1)——這意味着無論知識庫膨脹到多大(哪怕是 1000 億參數),查找速度幾乎不變,且極快。

2. 三大技術護城河
既然查表這麼好,為什麼以前沒人做?因為有三個攔路虎:存儲爆炸、多義詞衝突、參數分配。DeepSeek 給出了教科書級的解決方案:
A. 詞表壓縮:極致的去重
世界上的詞組組合是天文數字。DeepSeek 首先做了一步 “無損壓縮”。在分詞器(Tokenizer)層面,它將語義相同但寫法不同的詞進行了歸一化。
例如,“Apple”(首字母大寫)和 “apple”(小寫)在語義上通常指同一個東西。通過映射歸併,有效詞表直接縮小了 23%。這不僅節省了空間,更讓知識的密度大幅提升。
B. 多頭哈希:解決 “哈希衝突”
不可能把所有 N-gram 都存下來。Engram 使用了 “多頭哈希(Multi-Head Hashing)” 技術。通過多個哈希函數,將無限的 N-gram 映射到有限的內存槽位中。雖然會有哈希衝突(即兩個不同的詞被映射到了同一個位置),但通過 “多頭” 設計,模型可以從多個候選結果中拼湊出正確的信息,極大地提高了魯棒性。
C. 上下文門控:給記憶配個 “裁判”
這是最精妙的一筆。查表是死的,語言是活的。
比如 “蘋果” 這個詞。在 “吃蘋果” 的語境下,它指水果;在 “蘋果發佈會” 的語境下,它指科技公司。直接查表可能會引入噪聲。
DeepSeek 設計了一個 “上下文感知門控”(Context-aware Gating)。
-
Query(查詢):當前上下文的隱藏狀態(Hidden State)。
-
Key/Value(鍵值):查表得到的靜態向量。
這個門控就像一個裁判。如果查出來的 “靜態知識” 和當前的 “上下文” 不搭,裁判就會把權重壓低(Gate 值趨向 0),讓模型忽略這個噪聲;如果完美契合(比如 “傷寒雜病論” 後跟着 “張仲景”),裁判就會把大門打開(Gate 值趨向 1),直接把知識注入模型。

黃金比例——發現 AI 模型的 “U 型曲線”
架構設計好了,接下來的問題是:怎麼分家產?
假設我們顯卡里的顯存是有限的,總參數預算也是固定的。我們應該把多少參數分配給 MoE 的 “專家”(負責計算),多少參數分配給 Engram 的 “字典”(負責記憶)?
這是一個典型的資源配置博弈。DeepSeek 團隊進行了一場大規模的消融實驗,掃描了從 0% 到 100% 的分配比例,結果畫出了一條完美的 “U 型 Scaling Law 曲線”。

這張圖揭示了 AI 模型設計的底層規律:
-
左側極端(純 Engram):如果把參數全給字典,Loss 很高。因為模型變成了 “書呆子”,光有死記硬背,沒有邏輯推理能力。
-
右側極端(純 MoE):如果把參數全給專家,Loss 也很高。因為專家們被迫把精力都花在背書(記憶靜態知識)上,沒空幹正事。
-
黃金分割點(ρ ≈ 75%-80%):當我們將約20%-25% 的稀疏參數預算分給 Engram,剩下的給 MoE 時,模型的驗證集 Loss 降到了最低點。
這是一個極具指導意義的發現:對於幾百億參數的大模型來説,單純堆砌計算單元(MoE 專家)已經是邊際效應遞減了,必須引入專門的靜態記憶模塊來實現 “存算平衡”。
反直覺的爆發——為什麼 “查字典” 能提高 “數學成績”?
如果 Engram 僅僅是讓模型 “記性更好”,這篇論文的分量還不足以震動社區。畢竟,RAG(檢索增強生成)也能解決知識問題。
真正讓業界感到震撼的,是實驗結果中那些意料之外的收益。
DeepSeek 構建了三個對比模型,嚴格控制激活參數量(3.8B)和訓練數據量(262B tokens)完全一致:
-
Dense-4B:傳統的稠密模型。
-
MoE-27B:純 MoE 模型(72 個專家)。
-
Engram-27B:混合模型(55 個專家 + 5.7B Engram 參數)。
結果令人大跌眼鏡:
1. 意料之中:知識類任務霸榜
在 MMLU(綜合知識)上,Engram 模型提升了3.4 分;在 CMMLU(中文知識)上,提升了4.0 分。這很好理解,外掛了字典,常識自然更好了,幻覺更少了。
2. 意料之外:邏輯、代碼、數學全面暴漲
按理説,“查字典” 和 “做數學題” 沒關係。但在 BBH(綜合推理)上,Engram-27B 竟然比同參數的純 MoE 基線提升了整整5.0 分!
-
MATH(數學):提升2.4 分。
-
HumanEval(代碼生成):提升3.0 分。
-
ARC-Challenge(複雜推理):提升3.7 分。

3. 深度解析:有效深度(Effective Depth)理論
為什麼?一個 “死記硬背” 的模塊,為什麼能提高智商?
DeepSeek 團隊利用LogitLens和 “CKA(中心核對齊)” 技術,對模型內部進行了 “解剖”。他們發現了一個驚人的現象:
還記得開頭的 “戴安娜王妃” 嗎?
在純 MoE 模型中,前幾層網絡都在忙着 “拼湊概念”。
而在 Engram 模型中,由於第 2 層就插入了 Engram 模塊,靜態知識的檢索在極早的階段就完成了。
這意味着,原本用於 “死記硬背” 的前幾層網絡被解放了!
這相當於給模型 “虛增” 了深度。 那些被釋放出來的網絡層和注意力頭(Attention Heads),不再需要處理瑣碎的局部依賴(比如識別 “張仲景” 是誰),從而可以全神貫注地投入到更復雜的全局推理、長程邏輯構建和代碼邏輯生成中去。
Engram 的本質,不是 “替代” 推理,而是通過 “分流” 雜活,讓大腦專注於更高維度的思考。

工程奇蹟——打破英偉達的 “顯存霸權”
對於華爾街的投資者和算力中心的運維者來説,這篇論文最性感的地方不在於 Score,而在於Cost(成本)。
在 AI 時代,最昂貴的資源不是算力(FLOPs),而是顯存(HBM)。英偉達 H100 之所以貴,很大程度上是因為那稀缺的 HBM3e 內存。
而 Engram 帶來了一個顛覆性的特性:徹底的存算分離。
1. MoE 的痛點:顯存吞噬者
傳統的 MoE 模型,其路由機制(Routing)是動態的。模型必須先算出當前 Token 的特徵,算完這一層,才知道下一層該找哪個專家。這意味着,所有的專家模型必須時刻在昂貴的 GPU 顯存裏待命,隨叫隨到。
2. Engram 的突破:確定的預知
Engram 的查表邏輯是確定性的。
只要輸入的文本確定了(比如 “A New Axis of Sparsity”),那麼它對應的 N-gram 索引就確定了。我們根本不需要等模型算完前一層,在 Token 進入模型的那一瞬間,我們就知道它需要查哪張表的哪一行。
3. CPU 的逆襲:把大模型塞進內存條
這一特性帶來了巨大的工程紅利:
-
卸載(Offload):我們可以把幾百億、甚至上千億參數的 Engram 詞表,直接扔到便宜、量大、易擴展的 “CPU 內存(DRAM)” 裏,甚至放在 NVMe SSD 上。
-
預取(Prefetching):在 GPU 拼命計算前一層 Transformer 的時候,CPU 利用 PCIe 通道,異步地把下一層需要的記憶數據 “預取” 出來,推送到 GPU。
掩蓋延遲,並行處理。
DeepSeek 實測數據顯示:即使掛載了100B(千億)參數的 Engram 表到 CPU 內存,相比於純 GPU 推理,吞吐量的下降不到 3%。
這是一個讓所有因為買不到 HBM 而焦慮的人狂喜的結論。這意味着,未來的大模型,“記憶容量” 可以低成本地無限擴張,而不必被英偉達的顯存卡脖子。

長文本的勝利——NIAH 測試的躍升
除了通用推理,Engram 在長文本(Long Context)領域的表現同樣證明了 “分工” 的價值。
在長文本處理中,注意力機制(Attention)的窗口是有限的。如果注意力被大量的局部信息(如固定短語)佔據,它處理全局信息的能力就會下降。
Engram 接管了局部依賴後,Attention 機制終於可以抬頭看路了。
在嚴格的RULER 基準測試中,Engram-27B 的表現令人咋舌:
-
Multi-Query NIAH(多重針大海撈針):從 MoE 基線的 84.2 分,直接飆升至97.0 分。
-
Variable Tracking(變量追蹤):從 77.0 分提升至89.0 分。
這説明,當我們將 “局部記憶” 外包給 Engram 後,Transformer 原本的注意力機制就能更高效地捕捉幾萬字文檔中的 “草蛇灰線”。

DeepSeek V4 的拼圖已現
把以上所有信息串聯起來,我們已經隱約看到了 DeepSeek 下一代模型——DeepSeek V4的雛形。
華爾街見聞寫道,報道稱DeepSeek 計劃在 2 月(春節前後)正式發佈 V4。回顧 DeepSeek 的節奏:從 2024 年 1 月的 R1,到年底擊敗 GPT-5 基準的 V3.2,再到即將登場的 V4,每一步都踩準了技術迭代的脈搏。
如果説 R1 展示了 “推理” 的深度,V3 展示了 “MoE” 的效率,那麼即將到來的 V4,可能通過引入 Engram 技術,將解決記憶與計算的耦合,實現 “電子腦(計算)” 與 “外部記憶(Engram)” 的完美共生。
-
DeepSeek V2:引入MLA(多頭潛在注意力),壓縮 KV Cache,解決推理顯存瓶頸。
-
DeepSeek V3:優化 “MoE(混合專家)” 與無損負載均衡,解決訓練穩定性與計算成本。
-
DeepSeek V4(推測):引入Engram(條件記憶),解決記憶與計算的耦合,實現 “電子腦(計算)” 與 “外部記憶(Engram)” 的完美共生。
這不是一次簡單的版本迭代,這是對 Transformer 架構底層缺陷的一次系統性手術。在 DeepSeek V3 已經憑藉極其低廉的 API 價格和強大的性能席捲全球之後,V4 如果集成了 Engram 技術,將帶來更可怕的競爭力:它將擁有更大的知識庫(低成本內存擴展)、更強的邏輯推理(網絡深度解放)以及更低的推理成本(存算分離)。
更重要的是,報道提到 V4 在數據模式理解上的改進,“避免了以往模型在長時間訓練下性能衰退的情況”。這與 Engram 將靜態知識固化、減少動態網絡負擔的特性不謀而合——它讓模型更穩定,更不容易 “遺忘” 或 “精神錯亂”。
在論文的最後,DeepSeek 團隊自信地寫道:
“We envision conditional memory as an indispensable modeling primitive for next-generation sparse models.”
(我們預想,條件記憶將成為下一代稀疏模型不可或缺的建模原語。)
春節前夕的這篇論文,不僅是 DeepSeek 的技術秀,更是向全行業發出的信號:單純 “卷算力”、“堆參數” 的蠻荒時代結束了,架構創新的紅利期才剛剛開始。而在這場定義下一代 AI 標準的競賽中,中國大模型不僅沒有掉隊,甚至正在重新定義比賽規則。
2026,中國商業航天的 “諾曼底時刻” 剛剛過去;而 AI 領域的 “存算分家” 時刻,或許正是現在。
論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
開源地址:https://github.com/deepseek-ai/Engram
