Unlocking the next big opportunity in storage! Korean media details Jensen Huang's "mysterious reasoning contextual memory platform"

華爾街見聞
2026.01.25 05:28
portai
I'm PortAI, I can summarize articles.

英偉達在 CES 上發佈 “推理上下文內存平台”(ICMS),將 AI 硬件重心轉向高效存儲。 它通過 DPU 管理大容量 SSD,解決了 AI 推理中激增的 “KV 緩存” 需求,使 NAND 閃存/SSD 成為核心計算部件。這直接激活了企業級存儲市場,為三星、SK 海力士等頭部廠商帶來巨大新訂單,開啓行業新週期。

在 1 月 5 日的 2026 年國際消費電子展(CES)上,英偉達首席執行官黃仁勳發佈了名為 “推理上下文內存平台”(ICMS)的全新硬件,旨在解決人工智能推理階段爆炸式增長的數據存儲需求。此舉標誌着 AI 硬件架構的重心正從單純的算力堆疊向高效的上下文存儲轉移,NAND 閃存和 SSD 有望接棒 HBM,成為下一個關鍵的增長引擎。

《韓國經濟日報》在 1 月 24 日的文章中介紹,黃仁勳在演講中展示了一個被稱為 “推理上下文內存平台”(Inference Context Memory Platform,簡稱 ICMS)的神秘黑色機架。這並非普通的硬件更新,而是一個旨在解決人工智能推理階段數據瓶頸的關鍵創新。記者敏鋭地捕捉到,這可能是繼 HBM(高帶寬內存)之後,存儲行業的下一個爆發點。

這一平台的核心邏輯在於解決 AI 推理中的 “KV 緩存”(鍵值緩存)問題。隨着 AI 從單純的學習階段轉向大規模推理應用,數據量呈爆炸式增長,現有的 GPU 顯存和服務器內存架構已難以滿足需求。英偉達通過引入全新的數據處理單元(DPU)和海量 SSD(固態硬盤),構建了一個龐大的緩存池,試圖打破這一物理限制。

這一技術變革對於韓國存儲巨頭三星電子和 SK 海力士來説,無疑是一個巨大的利好消息。報道認為,隨着 ICMS 的推廣,NAND 閃存將迎來類似 HBM 的 “黃金時代”。這不僅意味着存儲容量需求的激增,更預示着存儲架構的根本性變革——GPU 將可能繞過 CPU,直接與存儲設備進行高速通信。

KV 緩存爆炸式增長引發存儲焦慮

韓媒文章指出,黃仁勳引入 ICMS 技術的核心動因在於 “KV 緩存” 的激增在 AI 推理時代,KV 緩存是 AI 理解對話上下文、進行邏輯推理的關鍵。例如,當用户向 AI 詢問關於 G-Dragon 的複雜主觀問題時,AI 需要調用模型內部數據和歷史對話上下文(即 KV 緩存)進行權重分配和推理,以避免重複計算和幻覺。

隨着 AI 從單純的學習轉向推理,以及應用場景向多模態擴展,所需處理的數據量呈現不規則且爆炸式的增長。英偉達發現,僅靠昂貴的 HBM 或常規 DRAM 已無法容納海量的 KV 緩存,而現有的服務器內部存儲架構在應對未來推理時代時顯得捉襟見肘。因此,一種能承載海量數據且保持高效訪問的專用存儲平台成為剛需。

DPU 驅動的 9600TB 巨量空間

據韓媒文章,ICMS 平台的核心在於將 DPU 與超大容量 SSD 相結合。文章轉述英偉達介紹,該平台採用了新的 “BlueField-4” DPU,充當數據傳輸的 “行政後勤官”,以減輕 CPU 負擔。一個標準的 ICMS 機架包含 16 個 SSD 托架,每個托架配備 4 個 DPU 並管理 600TB 的 SSD,使得單個機架的總容量達到驚人的 9600TB。

這一容量遠超傳統 GPU 機架。相比之下,一套包含 8 個機架的 VeraRubin GPU 平台,其 SSD 總容量約為 4423.68TB。黃仁勳表示,通過 ICMS 平台,虛擬層面上將 GPU 的可用內存容量從以前的 1TB 提升到了 16TB。同時,藉助 BlueField-4 的性能提升,該平台實現了每秒 200GB 的 KV 緩存傳輸速度,有效解決了大容量 SSD 在網絡傳輸中的瓶頸問題。

開啓 NAND 閃存黃金時代

文章指出,ICMS 平台主要利用的是 SSD,這直接利好 NAND 閃存製造商。過去幾年,雖然 AI 火熱,但鎂光燈主要集中在 HBM 上,NAND 閃存和 SSD 並沒有受到同等程度的關注。

英偉達將該平台定位為介於服務器內部本地 SSD 和外部存儲之間的 “第 3.5 層” 存儲。與昂貴且耗電的 DRAM 相比,由高性能 DPU 管理的 SSD 具備大容量、速度快且斷電不丟失數據的優勢,成為存儲 KV 緩存的理想選擇。

這一架構變革直接利好三星電子和 SK 海力士。由於 ICMS 對存儲密度的極高要求,市場對企業級 SSD 和 NAND 閃存的需求將大幅攀升。此外,英偉達正在推進 “Storage Next”(SCADA)計劃,旨在讓 GPU 繞過 CPU 直接訪問 NAND 閃存,進一步消除數據傳輸瓶頸。

SK 海力士已迅速響應這一趨勢。據報道,SK 海力士副總裁金天成透露,公司正與英偉達合作開發名為 “AI-N P” 的原型產品,計劃利用 PCIe Gen 6 接口,在今年年底推出支持 2500 萬 IOPS(每秒讀寫次數)的存儲產品,並預計到 2027 年底將性能提升至 1 億 IOPS。隨着各大廠商加速佈局,NAND 閃存和 SSD 有望在 AI 推理時代迎來量價齊升的新週期。

以下是韓媒文章全文,由 AI 翻譯:

英偉達首席執行官黃仁勳在 2026 年國際消費電子展(CES)上發佈了一個神秘的內存平台:“推理上下文內存平台”。今天,《科技與城市》欄目將深入探討它究竟是什麼。

關鍵詞:KV 緩存

在 5 日(當地時間)於拉斯維加斯舉行的 NVIDIA Live 大會上,NVIDIA 首席執行官黃仁勳在演講結尾談到了內存平台。我不禁豎起了耳朵。這會是下一個 HBM 嗎?


今日之星:黑色機架式 NVIDIA ICMS(推理上下文內存存儲)。圖片來源:NVIDIA

首席執行官黃仁勳指着的是 VeraRubin 人工智能計算平台一角的一個黑色機架。這個機架,也就是我們今天故事的主角,裏面存放着海量的存儲空間。

首先,讓我解釋一下黃仁勳引入這項技術的原因。我們應該從 “KV 緩存” 説起,黃仁勳 CEO 在官方場合經常提到它。讀者朋友們,你們可能在最近關於 GPU 和 AI 硬件的文章中已經多次聽到過 KV 緩存這個名字。

這個關鍵詞在 AI 推理時代至關重要。它關乎 AI 理解對話上下文和高效計算的能力。我們舉個簡單的例子。假設你打開 OpenAI 的 ChatGPT 或 Google Gemini,問一個關於韓國流行歌手 G-Dragon 的問題。

如果用户問的是 G-Dragon 的音樂、時尚或事業等客觀信息,AI 可以根據它學習到的信息回答。但是,聊了一會兒之後,用户突然問:“那他為什麼會成為他那個時代的 ‘偶像’ 呢?” 這就好比問了一個沒有明確答案的論述題。這時,AI 就開始推理了。

這就是 KV 緩存的關鍵所在:鍵和值。首先是鍵。我們很容易理解,但人工智能使用鍵向量來清晰地識別對話上下文中問題中的 “那個人” 是誰,以及答案的主題和目標(鍵)。然後,它會利用模型內部關於 G-Dragon 以及在與用户對話過程中收集到的各種數據(值)的中間計算結果,進行權重分配、推理,最終得出答案。

如果沒有 KV 緩存,如果每個問題都像第一次一樣重新計算,GPU 將重複兩到三次工作,從而降低效率。這可能導致人工智能出現幻覺和錯誤答案。然而,KV 緩存可以提高效率。基於 “注意力計算” 的推理,會重用從與用户的長時間對話中獲得的各種數據並應用權重,速度更快,對話也更加自然。


圖片由 NVIDIA 提供

隨着人工智能行業從學習向推理轉型,這種鍵值緩存不再僅僅是輔助存儲器。此外,所需的容量也在不斷增加。

首先,隨着越來越多的人將生成式人工智能融入日常生活,數據量的不規則激增不可避免。隨着圖像和視頻服務的加入,對人工智能高級推理和想象力的需求將進一步增長,數據量還將呈爆炸式增長。

隨着人工智能發現新信息的能力不斷提升,它會在與用户的互動過程中,在各種場景下創建大量有用的鍵值緩存(KV 緩存)。

面對鍵值緩存的爆炸式增長,NVIDIA 也對 GPU 流量進行了管理。他們將 GPU 分為兩類:一類是大量生成鍵值緩存的 GPU,另一類是使用鍵值緩存的 GPU。然而,存儲空間不足以存儲所有這些緩存。

當然,服務器內部的內存容量很大。GPU 旁邊是 HBM 內存→如果不夠用,就用 DRAM 模塊→如果實在不行,甚至會在服務器內部使用 SSD 固態硬盤。然而,CEO 黃仁勳似乎已經意識到,這種架構在未來的推理時代將難以駕馭。因此,他在 CES 上發佈了這款黑盒子。


NVIDIA CEO 黃仁勳在 CES 2026 上推出 ICMS。圖片由 NVIDIA YouTube 提供。

DPU + 超大容量 SSD = KV 緩存存儲專用團隊


這台黑色服務器是 “推理上下文內存平台”,簡稱 ICMS。讓我們仔細看看它的規格。

首先,驅動 ICMS 的設備是 DPU,即數據處理單元。讀者可能對 GPU 和 CPU 比較熟悉,但服務器的隱藏動力源——DPU 也值得一看。


NVIDIA 首席執行官黃仁勳發佈了 BlueField-4 DPU。圖片由 NVIDIA 提供。

DPU(數據處理單元)就像軍隊中的行政後勤官。如果説 CPU 是連長,那麼 GPU 就是計算突擊隊員。DPU 負責彈藥和食物的運送,甚至處理通信和移動,使 CPU 能夠做出適當的決策,而 GPU 則專注於攻擊。NVIDIA 的新型 DPU“Bluefield-4” 被賦予了一項新任務:ICMS。現在,讓我們仔細看看 ICMS 平台。這個機架總共包含 16 個 SSD 托架。


圖片來源:NVIDIA

每個托架配備四個 DPU,每個 DPU 管理 150TB 的 SSD。這意味着一個托架總共有 600TB 的緩存 SSD。

這是一個相當大的存儲容量。我們來比較一下。假設在 Blackwell GPU 服務器中,為了最大化 KV 緩存,我們在 SSD 放置區域安裝了八個 3.84TB 的通用緩存 SSD。這樣每台服務器就有 30.72TB 的 SSD,這意味着一個包含 18 台服務器的 GPU 機架的總 SSD 容量為 552.96TB。

也就是説,單個 ICMS 托架的緩存 SSD 容量可以超過一個 GPU“機架” 所能容納的容量。一個機架中的 SSD 總數為 600TB x 16,即 9600TB。這比一套完整的 VeraRubin 8 個 GPU 機架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。


圖片由 NVIDIA 提供

黃仁勳在 CES 演講中表示:“以前 GPU 的內存容量為 1TB,但通過這個平台,我們獲得了 16TB 的存儲容量。”

仔細想想,他的話似乎相當準確。一個完整的 VeraRubin 平台由八個 GPU 機架組成。每個機架有 72 個 GPU,共計 576 張存儲卡。將 ICMS 的總容量 9600TB 除以 576 張存儲卡,得出約 16.7TB。

雖然人們仍然擔心服務器的物理距離和 SSD 的傳輸速度,但 BlueField 4 性能的提升緩解了這些問題。黃仁勳解釋説:“我們實現了與之前相同的每秒 200GB 的 KV 緩存傳輸速度。”

此外,現有的 GPU 服務器存在網絡瓶頸,限制了 7.68TB 和 15.36TB 等大容量 SSD 的充分利用。這項基於 DPU 的網絡改進似乎正是為了解決這些問題。

被視為 “零” 的 NAND 閃存的黃金時代即將到來嗎?


圖片由 NVIDIA 提供

NVIDIA 將此平台劃分為 3.5 個內存組。第一組是 HBM,第二組是 DRAM 模塊,第三組是服務器內部的本地 SSD,第四組是服務器外部的存儲。ICMS 深入研究了介於第三組和第四組之間的神秘領域。與昂貴或耗電的 DRAM 不同,SSD 比硬盤速度更快、容量更大,即使斷電也不會丟失數據(這得益於高性能 DPU),使其成為理想之選。

該平台顯然為三星電子和 SK 海力士提供了巨大的商機。僅一個機架就能增加 9,600 TB 的容量,這意味着他們可以銷售比現有 NVIDIA 機架多數倍的 NAND 閃存,而且這僅僅是按位計算。此外,這款產品的開發商是 NVIDIA,一家全球所有人工智能公司都夢寐以求的公司,因此商機更加巨大。


三星電子的服務器固態硬盤。即使人工智能時代已經到來,NAND 閃存和固態硬盤的價格一直滯後,預計今年第一季度將出現大幅上漲。圖片由三星電子提供。

過去三年,儘管人工智能市場發展迅猛,但 NAND 閃存和固態硬盤 (SSD) 並未受到太多關注。這主要是因為與在 NAND 閃存發展中發揮關鍵作用的 HBM 相比,它們的利用率較低。NVIDIA 正從 ICMS 項目入手,籌備一個旨在進一步提升 SSD 利用率的項目。該項目是 “Storage Next”(也稱為 SCADA,即 Scaled Accelerated Data Access,規模化加速數據訪問)計劃的一部分。目前,執行 AI 計算的 GPU 將直接訪問 NAND 閃存(SSD)來獲取各種數據,而無需經過 CPU 等控制單元。這是一個旨在消除 GPU 和 SSD 之間瓶頸的大膽設想。SK 海力士也已正式宣佈正在開發 AI-N P,以順應這一趨勢。 SK 海力士副總裁金天成表示:“SK 海力士正與 NVIDIA 積極開展名為 ‘AI-N P’ 的初步實驗(PoC)。”

他解釋説:“基於 PCIe Gen 6、支持 2500 萬 IOPS(每秒輸入/輸出操作數)的存儲原型產品有望在今年年底發佈。” 他還表示:“到 2027 年底,我們將能夠生產出支持高達 1 億 IOPS 的產品。” 2500 萬 IOPS 是目前固態硬盤速度的 10 倍以上。