
Four Solutions for Inference Chips, Written by David Patterson

近日,Xiaoyu Ma 與 David Patterson 聯合發佈的文章《Challenges and Research Directions for Large Language Model Inference Hardware》探討了大型語言模型(LLM)推理芯片的挑戰與解決方案。文章指出,LLM 推理面臨的主要挑戰在於內存和互連,而非計算能力,並提出四個架構研究方向:高帶寬閃存、近內存處理、3D 內存邏輯堆疊及低延遲互連。預計未來 5-8 年,推理芯片年銷售額將增長 4-6 倍。
日前,由 Xiaoyu Ma 和 David Patterson 聯合署名的文章《Challenges and Research Directions for Large Language Model Inference Hardware》正式發佈。這篇文章被髮布以後,引起了廣泛關注。文章中,作者圍繞 LLM 推理芯片的挑戰以及解決方案,給出了建議。

以下為文章正文:
大型語言模型 (LLM) 推理難度很高。底層 Transformer 模型的自迴歸解碼階段使得 LLM 推理與訓練有着本質區別。受近期人工智能趨勢的影響,主要挑戰在於內存和互連,而非計算能力。
為了應對這些挑戰,我們重點介紹了四個架構研究方向:高帶寬閃存,可提供 10 倍內存容量,帶寬堪比 HBM;近內存處理和 3D 內存邏輯堆疊,可實現高內存帶寬;以及低延遲互連,可加速通信。雖然我們的研究重點是數據中心人工智能,但我們也探討了這些方案在移動設備上的應用。
引言
當一位作者於 1976 年開始其職業生涯時,計算機體系結構會議上約 40% 的論文來自業界。到 2025 年 ISCA 會議時,這一比例已降至 4% 以下,表明研究與實踐之間幾乎完全脱節。為了幫助恢復二者之間的歷史聯繫,我們提出了一些研究方向,如果這些方向得以推進,將有助於解決人工智能行業面臨的一些最嚴峻的硬件挑戰。
大型語言模型 (LLM) 推理正面臨危機。硬件的快速發展推動了人工智能的進步。預計未來 5-8 年,推理芯片的年銷售額將增長 4-6 倍。雖然訓練展現了人工智能的顯著突破,但推理的成本決定了其經濟可行性。隨着這些模型使用量的急劇增長,企業發現維護最先進的模型成本高昂。
新的趨勢使推理變得更加困難。LLM 的最新進展需要更多資源來進行推理:
- 專家混合模型 (MoE:Mixture of Experts)。與單一的密集前饋模塊不同,MoE 使用數十到數百個專家(DeepSeekv3 為 256 個)進行選擇性調用。這種稀疏性使得模型規模能夠顯著增長,從而提高模型質量,儘管訓練成本僅略有增加。MoE 在幫助訓練的同時,也通過擴展內存和通信能力,加劇了推理過程。
- 推理模型。推理是一種先思考後行動的技術,旨在提高模型質量。額外的 “思考” 步驟會在最終答案之前生成一長串 “想法”,類似於人們逐步解決問題的過程。思考會顯著增加生成延遲,而長長的想法序列也會佔用大量內存。
- 多模態。LLM 已從文本生成發展到圖像、音頻和視頻生成。更大的數據類型比文本生成需要更多的資源。
- 長上下文。上下文窗口指的是 LLM 模型在生成答案時可以查看的信息量。更長的上下文有助於提高模型質量,但會增加計算和內存需求。
- 檢索增強生成 (RAG:Retrieval-Augmented Generation)。RAG 訪問用户特定的知識庫,獲取相關信息作為額外上下文,以改進 LLM 結果,但這會增加資源需求。
- 擴散。與順序生成標記的自迴歸方法不同,新型擴散方法一步生成所有標記(例如,整幅圖像),然後迭代地對圖像進行去噪,直至達到所需的質量。與上述方法不同,擴散方法只會增加計算需求。
不斷增長的市場和 LLM 推理面臨的挑戰表明,創新既是機遇也是需求!
當前 LLM 推理硬件及其效率低下之處
我們首先回顧 LLM 推理的基礎知識及其在主流 AI 架構中的主要瓶頸,重點關注數據中心中的 LLM。移動設備上的 LLM 受到不同的限制,因此也需要不同的解決方案(例如,HBM 不可行)。
LLM 的核心是 Transformer,它包含兩個特性截然不同的推理階段:預填充 (Prefill) 和解碼 (Decode)(圖 1)。預填充類似於訓練,它同時處理輸入序列中的所有標記,因此本質上是並行的,並且通常受限於計算能力。相比之下,解碼本質上是順序的,因為每個步驟都會生成一個輸出標記(“自迴歸:autoregressive”),因此它受限於內存。KV(Key Value)緩存連接這兩個階段,其大小與輸入和輸出序列的長度成正比。儘管在圖 1 中預填充和解碼同時出現,但它們並非緊密耦合,通常運行在不同的服務器上。分解推理允許使用批處理等軟件優化方法,從而降低解碼過程的內存佔用。一項關於高效 LLM 推理的調查回顧了許多軟件優化方法。

GPU 和 TPU 是數據中心常用的加速器,可用於訓練和推理。歷史上,推理系統通常是在訓練系統的基礎上縮減而來,例如減少芯片數量或使用內存或性能更低的小型芯片。迄今為止,還沒有專門為 LLM 推理設計的 GPU/TPU。由於預填充與訓練類似,而解碼則截然不同,因此 GPU/TPU 在解碼方面面臨兩個挑戰,導致效率低下。
解碼挑戰 1:內存
自迴歸解碼使得推理本質上受限於內存,而新的軟件趨勢加劇了這一挑戰。相比之下,硬件發展趨勢則完全不同。
1.AI 處理器面臨着內存瓶頸
目前的數據中心 GPU/TPU 依賴於高帶寬內存 (HBM),並將多個 HBM 堆棧連接到單個單芯片加速器 ASIC(圖 2 和表 1)。然而,內存帶寬的提升速度遠低於計算浮點運算能力 (FLOPS) 的提升速度。例如,NVIDIA 64 位 GPU 的浮點運算性能
從 2012 年到 2022 年增長了 80 倍,但帶寬僅增長了 17 倍。這種差距還將繼續擴大。

2.HBM 的成本日益高昂
以單個 HBM 堆棧為例,其容量(美元/GB)和帶寬(美元/GBps)的標準化價格均隨時間推移而上漲。圖 3(a) 顯示,從 2023 年到 2025 年,兩者的價格均增長了 1.35 倍。這一增長是由於隨着每個 HBM 堆棧芯片數量的增加以及 DRAM 密度的增長,製造和封裝難度也隨之增加。相比之下,圖 3(b) 顯示,標準 DDR4 DRAM 的等效成本隨時間推移而下降。從 2022 年到 2025 年,容量成本降至 0.54 倍,帶寬成本降至 0.45 倍。儘管由於意外的需求,所有內存和存儲設備的價格在 2026 年大幅上漲,但我們認為,從長遠來看,HBM 和 DRAM 價格走勢的分化趨勢將持續下去。
3.DRAM 密度增長正在放緩
對於單個 DRAM 芯片而言,其擴展性也令人擔憂。自 2014 年推出的 8Gb DRAM 芯片以來,實現四倍增長需要超過 10 年的時間。此前,四倍增長通常每 3-6 年發生一次。
4.僅使用 SRAM 的解決方案已不足以應對挑戰
Cerebras 和 Groq 曾嘗試使用填充 SRAM 的全光罩芯片來規避 DRAM 和 HBM 的挑戰。(Cerebras 甚至採用了晶圓級集成。)雖然在公司十年前成立時這種方案看似可行,但 LLM 很快就超過了芯片上 SRAM 的容量。兩家公司後來都不得不進行改造,加裝外部 DRAM。

解碼挑戰 2:端到端延遲
1.面向用户的推理意味着低延遲
與耗時數週的訓練不同,推理與實時請求緊密相關,需要在幾秒甚至更短的時間內得到響應。低延遲對於面向用户的推理至關重要。(批量或離線推理沒有低延遲要求。)根據應用場景的不同,延遲的衡量標準可以是所有輸出標記完成的時間,也可以是第一個標記的生成時間。兩者都存在挑戰:
- 完成時間挑戰。解碼過程一次生成一個標記,因此輸出序列越長,延遲就越長。較長的輸出序列會拉長延遲,但較長的輸入序列也會降低延遲,因為在解碼和預填充過程中訪問 V Cache 需要更多時間。每次解碼迭代都存在較高的內存訪問延遲,因為它受限於內存。
- 第一個標記的生成時間挑戰。較長的輸入序列和隨機數生成器(RAG)會增加生成標記之前的工作量,從而增加第一個標記的生成時間。推理模型也會增加這種延遲,因為它們在第一個用户可見的 tokens 之前會生成許多 “thought” tokens。
2.互連延遲比帶寬更重要
在 LLM 出現之前,數據中心的推理通常在單個芯片上運行,而訓練則需要超級計算機。超級計算機互連的目標顯然更側重於帶寬而非延遲。LLM 推理改變了這一切:
- 由於權重較大,LLM 推理現在需要一個多芯片系統,並採用軟件分片技術,這意味着需要頻繁通信。MoE 和長序列模型進一步增加了系統規模,以滿足更大的內存容量需求。
- 與訓練不同,考慮到 Decode 的批次大小較小,網絡消息的大小通常也較小。對於大型網絡中頻繁發送的小消息而言,延遲比帶寬更重要。
表 2 總結了 Decode 推理的主要挑戰。只有 Diffusion 需要增加計算能力——這相對容易實現——因為它與 Transformer Decode 的本質不同。因此,我們專注於改善內存和互連延遲的有前景的方向,而不是計算能力。最後四行是滿足這些需求的研究機會,接下來將進行介紹。

重新思考 LLM 推理硬件的四個研究機會
性能/成本指標衡量人工智能系統的效率。現代指標強調實際的性能歸一化、總擁有成本 (TCO)、平均功耗和二氧化碳當量排放量 (CO2e),這為系統設計提供了新的目標:
- 性能必須有意義。對於 LLM 解碼推理而言,在大芯片上實現高 FLOPS 並不一定意味着高性能。相反,我們需要高效地擴展內存帶寬和容量,並優化互連速度。
- 性能必須在數據中心容量範圍內實現,而數據中心容量通常受到功耗、空間和 CO2e 預算的限制。
- 功耗和 CO2e 是首要的優化目標。功耗影響 TCO 和數據中心容量。功耗和能源清潔度決定了運行 CO2e。製造良率和生命週期決定了隱含 CO2e。
接下來,我們將介紹四個有前景的研究方向,以應對解碼挑戰(表 2 底部)。儘管它們是獨立描述的,但它們是協同作用的;一種架構可以有效地結合其中的許多方向。全面提升性能/總擁有成本、性能/二氧化碳當量和性能/功率。

1、高帶寬閃存,容量提升 10 倍
高帶寬閃存 (HBF) 通過堆疊閃存芯片(類似於 HBM)的方式,將 HBM 的帶寬與閃存容量相結合(圖 4 (a))。HBF 可使每個節點的內存容量提升 10 倍,從而縮小系統尺寸,降低功耗、總擁有成本 (TCO)、二氧化碳排放量 (CO2e) 和網絡開銷。表 3 將 HBF 與 HBM 和 DDR DRAM 進行了比較。其他方案的缺點分別是:DDR5 的帶寬、HBM 的容量以及 HBF 的寫入限制和較高的讀取延遲。HBF 的另一個優勢是可持續的容量擴展;閃存容量每三年翻一番,而如上所述,DRAM 的增長速度正在放緩。
需要解決兩個眾所周知的閃存限制:
- 寫入耐久性有限。寫入/擦除週期會損耗閃存。因此,HBF 必須存儲更新頻率較低的數據,例如推理時的權重或變化緩慢的上下文。
- 基於頁面的讀取延遲較高。閃存讀取以頁為單位(數十 KB),延遲遠高於 DRAM(數十微秒)。小數據讀取會降低有效帶寬。
這些問題意味着 HBF 無法完全取代 HBM;系統仍然需要普通 DRAM 來存儲不適合 HBF 存儲的數據。
HBF 的加入為 LLM 推理帶來了令人興奮的新功能:
- 10 倍權重內存 (weight memory)。權重在推理過程中會被凍結,因此 HBF 10 倍的容量可以容納更多權重(例如巨型 MoE),從而支持比目前可承受的規模更大的模型。
- 10 倍上下文內存 (context memory)。由於寫入耐久性有限,HBF 不適用於每次查詢或生成標記都會更新的鍵值緩存數據。但是,它適用於變化緩慢的上下文。例如:
- LLM 搜索使用的 Web 語料庫,存儲了數十億篇互聯網文檔。
- AI 編碼使用的代碼數據庫,存儲了數十億行代碼。
- AI 輔導使用的論文語料庫,追蹤了數百萬篇研究論文。
- 更小的推理系統。內存容量決定了運行模型所需的最小硬件。HBF 可以縮小系統規模,從而提升通信、可靠性和資源分配效率。
- 更大的資源容量。 HBF 將降低對僅使用 HBM 架構的依賴,並緩解主流內存設備全球短缺的問題。
HBF 也引出了新的研究問題:
- 軟件如何應對有限的寫入耐久性和基於頁面的高延遲讀取?
- 系統中傳統內存與 HBF 的比例應該是多少?
- 我們能否降低 HBF 技術本身的限制?
- 移動設備和數據中心的 HBF 配置應該有何不同?
2、內存附近處理技術
(Processing-Near-Memory)實現高帶寬
內存內處理(Processing-in-Memory,PIM)技術誕生於 20 世紀 90 年代,它通過在內存芯片上添加小型低功耗處理器來增強內存容量,從而實現高帶寬。雖然 PIM 提供了卓越的帶寬,但其主要挑戰在於軟件分片和內存邏輯耦合。前者限制了能夠在 PIM 上良好運行的軟件內核數量,後者則降低了計算邏輯的功耗和麪積效率。相比之下,內存附近處理(Processing-Near-Memory,PNM)技術將內存和邏輯放置在附近,但仍然使用分離芯片。PNM 的一種形式是 3D 計算邏輯堆疊(參見③)。
遺憾的是,一些近期的論文模糊了 PIM 和 PNM 之間的區別。它們將 PIM 作為一個通用術語,而不管計算邏輯是否直接放置在內存芯片中。我們在此提出一個簡單而明確的區分:PIM 指的是處理器和內存位於同一芯片中的設計,而 PNM 指的是它們位於相鄰但獨立的芯片上。這種區別使得 PIM 和 PNM 的概念清晰明確。
如果軟件難以使用,硬件優勢就毫無意義,而這正是我們在 PIM 和數據中心 LLM 方面的經驗。表 4 列出了 PNM 在 LLM 推理方面優於 PIM 的原因,儘管 PNM 在帶寬和功耗方面存在不足。具體來説,PIM 需要軟件將 LLM 的內存結構分片成許多很少交互的小塊,才能裝入 32-64MB 的內存塊中;而 PNM 中的分片可以大 1000 倍,從而更容易地對 LLM 進行分區,且通信開銷極低。此外,考慮到 DRAM 技術工藝節點的功耗和散熱預算非常有限,PIM 的計算能力是否足夠也尚不明確。

雖然對於數據中心 LLM 而言,PNM 優於 PIM,但對於移動設備而言,兩者的比較並不那麼明顯。移動設備的能耗更為受限,並且由於單用户運行,其 LLM 的權重更少、上下文更短、數據類型更小、批處理大小也更小。這些差異簡化了分片,降低了計算和散熱需求,使得 PIM 的弱點不再那麼突出,因此 PIM 在移動設備上可能更具可行性。
3、用於高帶寬的 3D 內存邏輯堆疊
與內存 I/O 位於芯片邊緣的 2D 硬件不同,3D 堆疊(參見圖 4(b))採用垂直硅通孔 (TSV) 來實現寬而密的內存接口,從而在低功耗下實現高帶寬。
3D 內存邏輯堆疊有兩種版本:
1. 基於 HBM 芯片的計算方案:通過將計算邏輯插入 HBM 基片來複用 HBM 設計。由於內存接口保持不變,帶寬與 HBM 相同,而由於數據路徑縮短,功耗降低了 2-3 倍。
2. 定製 3D 解決方案:通過使用更寬更密的內存接口和更先進的封裝技術,實現比複用 HBM 更高的帶寬和每瓦帶寬。
儘管帶寬和功耗更低,3D 堆疊仍面臨以下挑戰:
1. 散熱。由於表面積較小,3D 設計的散熱難度高於 2D 設計。一種解決方案是通過降低時鐘頻率和電壓來限制計算邏輯的浮點運算次數(FLOPS),因為 LLM 解碼推理的運算強度本身就很低。
2. 內存邏輯耦合。3D 計算邏輯堆疊的內存接口可能需要一個行業標準。
3D 堆疊帶來了新的研究問題:
- 內存帶寬與容量或計算浮點運算次數的比值與現有系統顯著不同。軟件如何適應?
- 設想一個包含多種內存類型的系統。我們如何高效地映射 LLM?
- 如何與其他內存邏輯堆疊以及主 AI 處理器(如有必要)進行通信?
- 各種設計選擇(例如,計算芯片位於頂部還是底部、每個堆疊的內存芯片數量等)在帶寬、功耗、散熱和可靠性方面有哪些權衡?
- 這些機遇對於移動設備和數據中心 LLM 加速器有何不同?
4、低延遲互連
技術①-③有助於降低延遲和吞吐量:更高的內存帶寬可以減少每次解碼迭代的延遲,而每個加速芯片更高的內存容量可以減小系統尺寸,從而節省通信開銷。數據中心另一個有前景的降低延遲方向是重新思考網絡延遲與帶寬之間的權衡,因為推理對互連延遲更為敏感。例如:
- 高連通性拓撲。具有高連通性的拓撲結構(例如樹形、蜻蜓形和高維環面形)需要的跳數更少,從而降低延遲。這些拓撲結構可能會降低帶寬,但可以改善延遲。
- 網絡內處理。LLM(低延遲模型)使用的通信集合(例如廣播、全歸約、MoE 調度和收集)非常適合網絡內加速,可以同時改善帶寬和延遲。例如,具有網絡內聚合的樹形拓撲結構可以實現低延遲和高吞吐量的全歸約。
- AI 芯片優化。延遲問題會影響芯片設計,並帶來以下幾種可能的優化:
- 將到達的小數據包直接存儲到片上 SRAM 中,而不是片外 DRAM;
- 將計算引擎放置在靠近網絡接口的位置,以減少傳輸時間。
- 可靠性。可靠性和互連性的協同設計有助於:
- 本地備用節點可以減少系統故障,並降低在沒有備用節點的情況下將故障作業遷移到其他正常節點所帶來的延遲和吞吐量損失。
- 如果 LLM 推理不需要完美的通信,則可以通過在消息超時時使用偽數據或先前結果,而不是等待延遲到達的消息,來降低延遲並提供令人滿意的結果質量。
相關工作
高帶寬閃存 (HBF)。SanDisk 最初提出了 HBF,這是一種類似 HBM 的閃存架構,旨在克服其帶寬限制。(SK 海力士後來也加入了開發)微軟的研究人員提出了一種新型內存,該內存專注於讀取性能和高密度,而非寫入性能和保持時間,用於人工智能推理。雖然沒有明確提及,但 HBF 是這種新型人工智能內存的一個具體示例。另一篇研究論文提出將閃存集成到移動處理器中,用於設備端 LLM 推理,並採用 LPDDR 接口來滿足預填充的低帶寬需求,以及採用近閃存處理來滿足解碼的高帶寬需求。
近內存處理。3D 計算邏輯堆疊作為一種帶寬高於 HBM 的技術,越來越受到關注,例如基於 HBM 芯片的計算方案和 AMD 的概念。
在非 3D 領域,三星 AXDIMM9 和 Marvell Structera-A 將處理器連接到商用 DDR DRAM 上。前者將計算邏輯集成到 DIMM 緩衝芯片中。後者利用 CXL 接口提高了可編程性並簡化了系統集成。(一篇綜述文章提供了更多 PNM/PIM 的示例。)許多論文討論了在移動設備中使用 PIM/PNM,但這並非本文的重點。
低延遲互連。大量論文描述了低跳數網絡拓撲結構,包括樹形、蜻蜓形和高維環面形。(由於本刊參考文獻數量限制,無法引用。)商用網絡內處理 (PIN) 的示例包括支持交換機內縮減的 NVIDIA NVLink 和 Infiniband 交換機,以及通過 SHARP 實現的多播加速。以太網交換機最近也出現了類似的 AI 工作負載功能。
軟件創新。除了本文重點關注的硬件創新之外,還有豐富的軟硬件協同設計空間,可用於算法和軟件創新,以改進 LLM 推理。例如,Transformer 解碼的自迴歸特性是其根本原因之一。一種避免自迴歸生成的新算法(例如用於圖像生成的擴散算法)可以極大地簡化人工智能推理硬件。
結論
LLM 推理的重要性日益凸顯,難度也隨之增加,而 LLM 又迫切需要降低成本和延遲,因此,LLM 的推理正成為一個極具吸引力的研究方向。自迴歸解碼本身就對內存和互連延遲構成重大挑戰,而模態優化(MoE)、推理、多模態數據、RAG 以及長輸入/輸出序列等因素更會加劇這一挑戰。
計算機體系結構領域在擁有真實模擬器的情況下,曾為解決這些挑戰做出過巨大貢獻,例如之前在分支預測和緩存設計方面所做的貢獻。由於 LLM 推理的主要瓶頸在於內存和延遲,因此,基於屋頂線的性能模擬器可以有效地在許多場景下提供初步的性能估算。此外,此類框架還應跟蹤內存容量,探索對性能至關重要的各種分片技術,並使用現代的性能/成本指標。我們希望學術研究人員能夠抓住這一機遇,加速人工智能研究。
當前的人工智能硬件理念——採用高浮點運算性能(FLOPS)的全光罩芯片、多個 HBM 堆棧以及帶寬優化的互連——與 LLM 解碼推理並不匹配。儘管許多研究人員致力於數據中心的計算,但我們建議從四個方面改進內存和網絡:HBF、PNM、3D 堆疊和低延遲互連。此外,關注數據中心容量、系統功耗和碳足跡的新型性能/成本指標,相比傳統指標,提供了新的機遇。HBF、PNM、PIM 和 3D 堆疊的受限版本也可能適用於移動設備的 LLM。
這些進展將促進各方合作,共同推進世界亟需的重要創新,以實現經濟實惠的 AI 推理。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

