挑戰英偉達 H100 霸權！IBM 模擬人腦造神經網絡芯片，效率提升 14 倍

最近，IBM 推出一款 14nm 模擬 AI 芯片，能效已達最先進 GPU 的 14 倍。英偉達的芯片壟斷，或許有望被打破了？

最近，IBM 推出一款全新的 14nm 模擬 AI 芯片，效率達到了最領先 GPU 的 14 倍，可以讓 H100 物有所值。

論文地址：https://www.nature.com/articles/s41928-023-01010-1

目前，生成式 AI 發展道路上最大的攔路虎，就是它驚人的耗電量。AI 所需的資源，是不可持續增長的。

而 IBM，一直在研究重塑 AI 計算的方法。他們的一大成就，就是模擬內存計算/模擬人工智能方法，就可以藉助神經網絡在生物大腦中運行的關鍵特徵，來減少能耗。

這種方法，可以最大限度地減少我們在計算上花費的時間和精力。

英偉達的壟斷，要被顛覆了？

IBM AI 未來的最新藍圖：模擬 AI 芯片能效高出 14 倍

根據外媒 Insider 的報道，半導體研究公司 SemiAnalysis 的首席分析師 Dylan Patel 分析，ChatGPT 每天的運行成本超過了 70 萬美元。

ChatGPT 需要大量算力，才能根據用户的提示生成回答。絕大部分成本，都是在昂貴的服務器上產生的。

在往後，訓練模型和運行基礎設施的成本只會越來越飆升。

IBM 在 Nature 上發文表示，這款全新芯片能夠通過削減能耗，來緩解構建和運營 Midjourney 或 GPT-4 等生成式 AI 企業的壓力。

這些模擬芯片與數字芯片有不同的構建方式，數字芯片可以操作模擬信號，理解 0 到 1 之間的漸變，但只適用於不同的二進制信號。

模擬內存計算/模擬 AI

而 IBM 的全新方法，就是模擬內存計算，或簡稱模擬 AI。它藉助神經網絡在生物大腦中運行的關鍵特徵，來減輕了能耗。

在人類和其他動物的大腦中，突觸的強度（或「權重」）決定了神經元之間的交流。

對於模擬 AI 系統，IBM 將這些突觸權重存儲在納米級電阻存儲器器件（如相變存儲器 PCM）的電導值中，並利用電路定律，減少在存儲器和處理器之間不斷髮送數據的需求，執行乘法累加（MAC）運算——DNN 中的主要運算。

現在為很多生成式 AI 平台提供動力的，是英偉達的 H100 和 A100。

然而，如果 IBM 對芯片原型進行迭代，並且成功推向了大眾市場，這種新型芯片就很有可能取代英偉達，成為全新的支柱。

這款 14nm 模擬 AI 芯片，可以為每個組件編碼 3500 萬個相變存儲設備，可以模擬多達 1700 萬個參數。

並且，這款芯片模仿了人腦的運作方式，由微芯片直接在內存中執行計算。

這款芯片的系統能夠實現高效的語音識別和轉錄，準確性接近了數字硬件設施。

而這款芯片大約達到了 14 倍，而之前的模擬表明，這種硬件的能效甚至達到了當今最領先 GPU 的 40 倍到 140 倍。

這場生成式 AI 革命，才剛剛開始。而深度神經網絡（DNN）徹底改變了 AI 領域，隨着基礎模型和生成式 AI 的發展而日益突出。

然而，在傳統的數學計算架構上運行這些模型，會限制它們的性能和能源效率。

雖然在開發用於 AI 推理的硬件方面，也取得了不少進展，但其中許多架構，在物理上拆分了內存和處理單元。

這就意味着，AI 模型通常存儲在離散的內存位置，要完成計算任務，就需要在內存和處理單元之間不斷打亂數據。這個過程會大大減慢計算速度，限制可實現的最大能效。

PCM 設備的性能特點、使用相位配置和導納來存儲模擬式的突觸權重

IBM 的基於相變存儲器 (PCM) 的人工智能加速芯片，擺脱了這種限制。

相變存儲器（PCM）可以實現計算存儲融合，在存儲器內直接進行矩陣向量乘法，避免了數據傳輸的問題。

同時，IBM 的模擬 AI 芯片通過硬件級的計算存儲融合，實現了高效的人工智能推理加速，是這一領域的重要進展。

模擬 AI 的兩大關鍵挑戰

為了將模擬 AI 的概念變為現實，需要克服兩個關鍵挑戰：

1. 存儲器陣列的計算精度必須與現有數字系統相當

2. 存儲器陣列能與其他數字計算單元以及模擬人工智能芯片上的數字通信結構無縫對接

IBM 在 Albany Nano 的技術中心製造了着這種基於相變內存的人工智能加速芯片。

該芯片由 64 個模擬內存計算內核組成，每個內核包含 256×256 的交叉條陣突觸單元。

並且，每個芯片中都集成了緊湊的時基模數轉換器，用於在模擬和數字世界之間進行轉換。

而芯片中的輕量級數字處理單元，也可執行簡單的非線性神經元激活函數和縮放操作。

每個核心可看作一個 tile，可以進行與深度神經網絡 (DNN) 模型的一個層 (比如卷積層) 相關的矩陣向量乘法及其他運算。

權重矩陣被編碼成 PCM 器件的模擬電導值存於芯片上。

在芯片的核心陣列中間集成了一個全局數字處理單元，用來實現一些比矩陣向量乘法更復雜的運算，這對某些類型的神經網絡 (如 LSTM) 執行是關鍵的。

芯片上在所有核心以及全局數字處理單元之間集成了數字通信通路，用於核心之間以及核心與全局單元之間的數據傳輸。

用該芯片，IBM 對模擬內存計算的計算精度進行了全面的研究，並在 CIFAR-10 圖像數據集上獲得了 92.81% 的精確度。

這是目前所報道的使用類似技術的芯片中精度最高的。

IBM 還將模擬內存計算與多個數字處理單元和數字通信結構無縫結合。

該芯片 8 位輸入輸出矩陣乘法的單位面積吞吐量為 400 GOPS/mm2，比以前基於電阻式存儲器的多核內存計算芯片高出 15 倍以上，同時實現了相當的能效。

而在字符預測任務和圖像標註生成任務中，IBM 通過在硬件上測量的結果與其他方法的比較，展示了相關任務在模擬 AI 芯片上運行的網絡結構、權重編程以及測量結果的信息。

權重編程過程

英偉達的護城河深不見底？

英偉達的壟斷，有這麼容易打破嗎？

Naveen Rao 是一名神經科學出身的科技企業家，他曾試圖與全球領先的人工智能製造商英偉達競爭。

「每個人都是基於英偉達進行開發的。」Rao 説，「如果你想推出新的硬件，你就得趕上去和英偉達競爭。」

Rao 在英特爾收購的一家初創企業中致力開發旨在取代英偉達 GPU 的芯片，但在離開英特爾後，他在自己領導的軟件初創公司 MosaicML 裏使用了英偉達的芯片。

Rao 表示，英偉達不僅在芯片上與其他產品拉開了巨大的差距，還通過創建一個大型的 AI 程序員社區，實現了芯片之外的差異化——

AI 程序員一直在使用該公司的技術進行創新。

十多年來，英偉達在生產能夠執行復雜 AI 任務（如圖像、面部和語音識別）以及為 ChatGPT 等聊天機器人生成文本的芯片方面，建立了幾乎無法撼動的領先地位。

這家曾經的行業新貴之所以能夠取得 AI 芯片製造的主導地位，是因為它很早就認識到了 AI 發展的趨勢，為這些任務專門定製了芯片，並開發了促進 AI 開發的關鍵軟件。

從那時起，英偉達的聯合創始人兼 CEO 黃仁勳，就在不斷地提高英偉達標準。

這使得英偉達成為了人工智能開發的一站式供應商。

據研究公司 Omdia 調查，雖然谷歌、亞馬遜、Meta、IBM 和其他公司也生產人工智能芯片，但到目前，英偉達占人工智能芯片銷售額的 70% 以上。

今年 6 月，英偉達的市值已突破 1 萬億美元，成為全球市值最高的芯片製造商。

FuturumGroup 分析師表示：「客户會等 18 個月才購買英偉達系統，而不是從初創企業或其他競爭對手那裏購買現成的芯片。這太不可思議了。」

英偉達，重塑計算方式

1993 年，黃仁勳聯合創立了英偉達，主要的業務是製造在電子遊戲中渲染圖像的芯片。當時的標準微處理器擅長按順序執行復雜的計算，但英偉達生產的 GPU 可以同時處理多個簡單任務。

2006 年，黃仁勳進一步推進了這一進程。他發佈了名為 CUDA 的軟件技術，該技術可幫助 GPU 為新任務編程，使 GPU 從單一用途的芯片轉變為更通用的芯片，能承擔物理和化學模擬等領域的其他工作。

2012 年，研究人員利用 GPU 在識別圖像中的貓等任務中實現了與人類相似的準確度，這是一項重大突破，也是根據文本提示生成圖像等最新發展的先驅。

而據該英偉達估計，這項工作在十年間耗資超過 300 億美元，使英偉達不再僅僅是一個零部件供應商。除了與頂尖科學家和初創企業合作，公司還組建了一支團隊，直接參與人工智能活動，如創建和訓練語言模型。

此外，從業者的需要導致英偉達開發了 CUDA 以外的多層關鍵軟件，其中也包括數百條預構建代碼的庫。

在硬件方面，英偉達因每兩三年就能持續提供更快的芯片而贏得聲譽。2017 年英偉達開始調整 GPU 以處理特定的 AI 計算。

去年 9 月，英偉達宣佈生產名為 H100 的新型芯片，並對其進行了改進，以處理所謂的 Transformer 運算。這種運算被證明是 ChatGPT 等服務的基礎，黃仁勳稱之為生成式人工智能的「iPhone 時刻」。

如今，除非有其他廠家的產品能和英偉達的 GPU 形成正面競爭，才有可能打破目前英偉達對 AI 算力的壟斷格局。

IBM 的模擬 AI 芯片，有這個可能嗎？

本文來自新智元，原文標題：《挑戰英偉達 H100 霸權！IBM 模擬人腦造神經網絡芯片，效率提升 14 倍，破解 AI 模型耗電難題》

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。