Liang Wenfeng's new paper: Provide a "dictionary" for large models, with computation and memory separated, IQ skyrockets, spoilers for DeepSeek V4?

論文揭示，當我們將 “記憶” 從 “計算” 中剝離，把該背的交給 “字典”，把該算的交給大腦，AI 的推理能力將迎來反直覺的爆發式增長。這一刻，或許就是 DeepSeek V4 誕生的前夜。

這是一場關於 AI“大腦皮層” 的重構。

長期以來，Transformer 架構被困在一個昂貴的悖論中：我們用着最先進的 GPU 算力，去讓 AI 模型 “死記硬背” 那些查字典就能知道的靜態知識。

DeepSeek 梁文鋒團隊與其北大合作者在今日凌晨發佈的重磅論文《Conditional Memory via Scalable Lookup》，徹底打破了這一僵局。他們提出了一種全新的Engram（印跡）模塊，在傳統的 “條件計算”（MoE）之外，開闢了第二條稀疏化戰線——“條件記憶”。

這不只是一次技術修補，而是一場關於模型 “腦容量” 的供給側改革。它證明了：當我們將 “記憶” 從 “計算” 中剝離，把該背的交給 “字典”，把該算的交給大腦，AI 的推理能力將迎來反直覺的爆發式增長。

DeepSeek 計劃在 2 月春節前後正式發佈 V4，而這一刻或許就是 DeepSeek V4 誕生的前夜。

六層神經網絡的 “無用功”

故事的起點，源於 DeepSeek 團隊對 Transformer 內部運作機制的一次 “核磁共振” 掃描。

在人工智能的黑盒子裏，當大模型看到 “Diana, Princess of Wales”（戴安娜，威爾士王妃）這個短語時，它的內部發生了一場令人費解且極其昂貴的 “內耗”。

研究人員發現，為了識別這個固定的實體，模型竟然動用了整整 6 層網絡：

第 1-2 層：模型還在琢磨 “Wales” 大概是一個國家；
第 3 層：它意識到這是歐洲的一個地理概念；
第 4 層：它開始拼湊出 “Princess of Wales” 似乎是一個頭銜；
第 5 層：它聯想到了 “威爾士親王的妻子”；
第 6 層：直到這裏，它才終於確認，這是指那位著名的 “戴安娜王妃”。

在一位追求極致效率的架構師眼中，這簡直是算力的暴殄天物。

“戴安娜王妃” 是一個客觀存在的、靜態的實體，它不會因為上下文的變化而改變其本質。為了提取這個本來查字典就能知道的事實，Transformer 竟然動用了整整 6 層深度的昂貴矩陣運算去 “重建” 這個概念。

這就像是一個絕世天才，在去解決微積分難題之前，每次都得先花半小時默寫一遍九九乘法表。 這種 “隱式記憶” 的機制，迫使模型將寶貴的參數容量和網絡深度，浪費在了簡單的模式匹配上。

DeepSeek 在這篇長達 33 頁的論文中，提出了一個直擊靈魂的拷問：為什麼不直接給大模型配一本可以隨查隨用的 “超級字典”？

架構重塑——Engram 模塊的暴力美學

為了解決這個問題，DeepSeek 提出了一種名為 “Engram（條件記憶）” 的全新模塊。

如果説 MoE（混合專家模型）是把 “大腦” 分成了不同的區域，讓不同的專家負責不同的思考（條件計算）；那麼 Engram 就是給大腦外掛了一個巨大的 “海馬體”，專門負責存儲靜態知識（條件記憶）。

1. 復活 “N-gram”：從古老智慧中尋找答案

Engram 的核心靈感，竟然來自於 NLP（自然語言處理）領域的 “上古神器”——N-gram。在深度學習統治世界之前，我們就是靠統計 “N 個詞同時出現的概率” 來理解語言的。

DeepSeek 將這一經典概念進行了現代化的魔改：

傳統的 Transformer：知識分散在神經元的權重（Weights）裏，提取知識需要經過複雜的線性層計算，複雜度高。
Engram 模塊：它是一個巨大的、可擴展的嵌入表（Embedding Table）。當模型讀到 “張仲景” 或者 “四大發明” 這種固定搭配（N-gram）時，不需要動用大腦皮層去推理，直接通過哈希索引，在內存表中 “查” 出對應的向量。

這一過程的時間複雜度是O(1)——這意味着無論知識庫膨脹到多大（哪怕是 1000 億參數），查找速度幾乎不變，且極快。

2. 三大技術護城河

既然查表這麼好，為什麼以前沒人做？因為有三個攔路虎：存儲爆炸、多義詞衝突、參數分配。DeepSeek 給出了教科書級的解決方案：

A. 詞表壓縮：極致的去重

世界上的詞組組合是天文數字。DeepSeek 首先做了一步 “無損壓縮”。在分詞器（Tokenizer）層面，它將語義相同但寫法不同的詞進行了歸一化。
例如，“Apple”（首字母大寫）和 “apple”（小寫）在語義上通常指同一個東西。通過映射歸併，有效詞表直接縮小了 23%。這不僅節省了空間，更讓知識的密度大幅提升。

B. 多頭哈希：解決 “哈希衝突”

不可能把所有 N-gram 都存下來。Engram 使用了 “多頭哈希（Multi-Head Hashing）” 技術。通過多個哈希函數，將無限的 N-gram 映射到有限的內存槽位中。雖然會有哈希衝突（即兩個不同的詞被映射到了同一個位置），但通過 “多頭” 設計，模型可以從多個候選結果中拼湊出正確的信息，極大地提高了魯棒性。

C. 上下文門控：給記憶配個 “裁判”

這是最精妙的一筆。查表是死的，語言是活的。
比如 “蘋果” 這個詞。在 “吃蘋果” 的語境下，它指水果；在 “蘋果發佈會” 的語境下，它指科技公司。直接查表可能會引入噪聲。

DeepSeek 設計了一個 “上下文感知門控”（Context-aware Gating）。

Query（查詢）：當前上下文的隱藏狀態（Hidden State）。
Key/Value（鍵值）：查表得到的靜態向量。

這個門控就像一個裁判。如果查出來的 “靜態知識” 和當前的 “上下文” 不搭，裁判就會把權重壓低（Gate 值趨向 0），讓模型忽略這個噪聲；如果完美契合（比如 “傷寒雜病論” 後跟着 “張仲景”），裁判就會把大門打開（Gate 值趨向 1），直接把知識注入模型。

黃金比例——發現 AI 模型的 “U 型曲線”

架構設計好了，接下來的問題是：怎麼分家產？

假設我們顯卡里的顯存是有限的，總參數預算也是固定的。我們應該把多少參數分配給 MoE 的 “專家”（負責計算），多少參數分配給 Engram 的 “字典”（負責記憶）？

這是一個典型的資源配置博弈。DeepSeek 團隊進行了一場大規模的消融實驗，掃描了從 0% 到 100% 的分配比例，結果畫出了一條完美的 “U 型 Scaling Law 曲線”。

這張圖揭示了 AI 模型設計的底層規律：

左側極端（純 Engram）：如果把參數全給字典，Loss 很高。因為模型變成了 “書呆子”，光有死記硬背，沒有邏輯推理能力。
右側極端（純 MoE）：如果把參數全給專家，Loss 也很高。因為專家們被迫把精力都花在背書（記憶靜態知識）上，沒空幹正事。
黃金分割點（ρ ≈ 75%-80%）：當我們將約20%-25% 的稀疏參數預算分給 Engram，剩下的給 MoE 時，模型的驗證集 Loss 降到了最低點。

這是一個極具指導意義的發現：對於幾百億參數的大模型來説，單純堆砌計算單元（MoE 專家）已經是邊際效應遞減了，必須引入專門的靜態記憶模塊來實現 “存算平衡”。

反直覺的爆發——為什麼 “查字典” 能提高 “數學成績”？

如果 Engram 僅僅是讓模型 “記性更好”，這篇論文的分量還不足以震動社區。畢竟，RAG（檢索增強生成）也能解決知識問題。

真正讓業界感到震撼的，是實驗結果中那些意料之外的收益。

DeepSeek 構建了三個對比模型，嚴格控制激活參數量（3.8B）和訓練數據量（262B tokens）完全一致：

Dense-4B：傳統的稠密模型。
MoE-27B：純 MoE 模型（72 個專家）。
Engram-27B：混合模型（55 個專家 + 5.7B Engram 參數）。

結果令人大跌眼鏡：

1. 意料之中：知識類任務霸榜

在 MMLU（綜合知識）上，Engram 模型提升了3.4 分；在 CMMLU（中文知識）上，提升了4.0 分。這很好理解，外掛了字典，常識自然更好了，幻覺更少了。

2. 意料之外：邏輯、代碼、數學全面暴漲

按理説，“查字典” 和 “做數學題” 沒關係。但在 BBH（綜合推理）上，Engram-27B 竟然比同參數的純 MoE 基線提升了整整5.0 分！

MATH（數學）：提升2.4 分。
HumanEval（代碼生成）：提升3.0 分。
ARC-Challenge（複雜推理）：提升3.7 分。

3. 深度解析：有效深度（Effective Depth）理論

為什麼？一個 “死記硬背” 的模塊，為什麼能提高智商？

DeepSeek 團隊利用LogitLens和 “CKA（中心核對齊）” 技術，對模型內部進行了 “解剖”。他們發現了一個驚人的現象：

還記得開頭的 “戴安娜王妃” 嗎？
在純 MoE 模型中，前幾層網絡都在忙着 “拼湊概念”。
而在 Engram 模型中，由於第 2 層就插入了 Engram 模塊，靜態知識的檢索在極早的階段就完成了。

這意味着，原本用於 “死記硬背” 的前幾層網絡被解放了！

這相當於給模型 “虛增” 了深度。 那些被釋放出來的網絡層和注意力頭（Attention Heads），不再需要處理瑣碎的局部依賴（比如識別 “張仲景” 是誰），從而可以全神貫注地投入到更復雜的全局推理、長程邏輯構建和代碼邏輯生成中去。

Engram 的本質，不是 “替代” 推理，而是通過 “分流” 雜活，讓大腦專注於更高維度的思考。

工程奇蹟——打破英偉達的 “顯存霸權”

對於華爾街的投資者和算力中心的運維者來説，這篇論文最性感的地方不在於 Score，而在於Cost（成本）。

在 AI 時代，最昂貴的資源不是算力（FLOPs），而是顯存（HBM）。英偉達 H100 之所以貴，很大程度上是因為那稀缺的 HBM3e 內存。

而 Engram 帶來了一個顛覆性的特性：徹底的存算分離。

1. MoE 的痛點：顯存吞噬者

傳統的 MoE 模型，其路由機制（Routing）是動態的。模型必須先算出當前 Token 的特徵，算完這一層，才知道下一層該找哪個專家。這意味着，所有的專家模型必須時刻在昂貴的 GPU 顯存裏待命，隨叫隨到。

2. Engram 的突破：確定的預知

Engram 的查表邏輯是確定性的。
只要輸入的文本確定了（比如 “A New Axis of Sparsity”），那麼它對應的 N-gram 索引就確定了。我們根本不需要等模型算完前一層，在 Token 進入模型的那一瞬間，我們就知道它需要查哪張表的哪一行。

3. CPU 的逆襲：把大模型塞進內存條

這一特性帶來了巨大的工程紅利：

卸載（Offload）：我們可以把幾百億、甚至上千億參數的 Engram 詞表，直接扔到便宜、量大、易擴展的 “CPU 內存（DRAM）” 裏，甚至放在 NVMe SSD 上。
預取（Prefetching）：在 GPU 拼命計算前一層 Transformer 的時候，CPU 利用 PCIe 通道，異步地把下一層需要的記憶數據 “預取” 出來，推送到 GPU。

掩蓋延遲，並行處理。

DeepSeek 實測數據顯示：即使掛載了100B（千億）參數的 Engram 表到 CPU 內存，相比於純 GPU 推理，吞吐量的下降不到 3%。

這是一個讓所有因為買不到 HBM 而焦慮的人狂喜的結論。這意味着，未來的大模型，“記憶容量” 可以低成本地無限擴張，而不必被英偉達的顯存卡脖子。

長文本的勝利——NIAH 測試的躍升

除了通用推理，Engram 在長文本（Long Context）領域的表現同樣證明了 “分工” 的價值。

在長文本處理中，注意力機制（Attention）的窗口是有限的。如果注意力被大量的局部信息（如固定短語）佔據，它處理全局信息的能力就會下降。

Engram 接管了局部依賴後，Attention 機制終於可以抬頭看路了。

在嚴格的RULER 基準測試中，Engram-27B 的表現令人咋舌：

Multi-Query NIAH（多重針大海撈針）：從 MoE 基線的 84.2 分，直接飆升至97.0 分。
Variable Tracking（變量追蹤）：從 77.0 分提升至89.0 分。

這説明，當我們將 “局部記憶” 外包給 Engram 後，Transformer 原本的注意力機制就能更高效地捕捉幾萬字文檔中的 “草蛇灰線”。

DeepSeek V4 的拼圖已現

把以上所有信息串聯起來，我們已經隱約看到了 DeepSeek 下一代模型——DeepSeek V4的雛形。

華爾街見聞寫道，報道稱DeepSeek 計劃在 2 月（春節前後）正式發佈 V4。回顧 DeepSeek 的節奏：從 2024 年 1 月的 R1，到年底擊敗 GPT-5 基準的 V3.2，再到即將登場的 V4，每一步都踩準了技術迭代的脈搏。

如果説 R1 展示了 “推理” 的深度，V3 展示了 “MoE” 的效率，那麼即將到來的 V4，可能通過引入 Engram 技術，將解決記憶與計算的耦合，實現 “電子腦（計算）” 與 “外部記憶（Engram）” 的完美共生。

DeepSeek V2：引入MLA（多頭潛在注意力），壓縮 KV Cache，解決推理顯存瓶頸。
DeepSeek V3：優化 “MoE（混合專家）” 與無損負載均衡，解決訓練穩定性與計算成本。
DeepSeek V4（推測）：引入Engram（條件記憶），解決記憶與計算的耦合，實現 “電子腦（計算）” 與 “外部記憶（Engram）” 的完美共生。

這不是一次簡單的版本迭代，這是對 Transformer 架構底層缺陷的一次系統性手術。在 DeepSeek V3 已經憑藉極其低廉的 API 價格和強大的性能席捲全球之後，V4 如果集成了 Engram 技術，將帶來更可怕的競爭力：它將擁有更大的知識庫（低成本內存擴展）、更強的邏輯推理（網絡深度解放）以及更低的推理成本（存算分離）。

更重要的是，報道提到 V4 在數據模式理解上的改進，“避免了以往模型在長時間訓練下性能衰退的情況”。這與 Engram 將靜態知識固化、減少動態網絡負擔的特性不謀而合——它讓模型更穩定，更不容易 “遺忘” 或 “精神錯亂”。

在論文的最後，DeepSeek 團隊自信地寫道：

“We envision conditional memory as an indispensable modeling primitive for next-generation sparse models.”
（我們預想，條件記憶將成為下一代稀疏模型不可或缺的建模原語。）

春節前夕的這篇論文，不僅是 DeepSeek 的技術秀，更是向全行業發出的信號：單純 “卷算力”、“堆參數” 的蠻荒時代結束了，架構創新的紅利期才剛剛開始。而在這場定義下一代 AI 標準的競賽中，中國大模型不僅沒有掉隊，甚至正在重新定義比賽規則。

2026，中國商業航天的 “諾曼底時刻” 剛剛過去；而 AI 領域的 “存算分家” 時刻，或許正是現在。

論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

開源地址：https://github.com/deepseek-ai/Engram