HBM 4, about to be completed

華爾街見聞
2024.07.12 17:10
portai
I'm PortAI, I can summarize articles.

HBM4 是下一個版本的高帶寬存儲器 (DRAM) 標準,旨在進一步提高數據處理速率,同時保持基本特性,如更高的帶寬、更低功耗和更大的容量。HBM4 將每個堆棧的通道數增加一倍,物理佔用空間也更大。該標準支持設備兼容性,並指定了 24Gb 和 32Gb 層,並可選擇支持不同高度的 TSV 堆棧。JEDEC 指出,正在討論更高的頻率。HBM4 對於需要高效處理大數據集和複雜計算的應用非常重要,如人工智能、高性能計算、高端顯卡和服務器。

日前,JEDEC 固態技術協會宣佈,備受期待的高帶寬存儲器 (HBM) DRAM 標準的下一個版本:HBM4 即將完成。

據介紹,HBM4 是目前發佈的 HBM3 標準的進化版,旨在進一步提高數據處理速率,同時保持基本特性,例如更高的帶寬、更低功耗和更大的每個芯片和/或堆棧容量。這些進步對於需要高效處理大數據集和複雜計算的應用至關重要,包括生成人工智能 (AI)、高性能計算、高端顯卡和服務器。

與 HBM3 相比,HBM4 計劃將每個堆棧的通道數增加一倍,物理佔用空間也更大。為了支持設備兼容性,該標準確保單個控制器可以在需要時同時與 HBM3 和 HBM4 配合使用。不同的配置將需要不同的中介層來適應不同的佔用空間。HBM4 將指定 24 Gb 和 32 Gb 層,並可選擇支持 4 高、8 高、12 高和 16 高 TSV 堆棧。

JEDEC 指出,委員會已就高達 6.4 Gbps 的速度等級達成初步協議,目前正在討論更高的頻率。

HBM 4,有哪些更新?

高帶寬內存已存在約十年,在其持續發展過程中,其速度穩步提升,數據傳輸速率從 1 GT/s(最初的 HBM)開始,到現在 HBM3E 的 9 GT/s。這使得帶寬在不到 10 年的時間裏實現了令人矚目的飛躍,使 HBM 成為此後投放市場的全新 HPC 加速器的重要基石。

但隨着內存傳輸速率的提高,尤其是在 DRAM 單元的基本物理特性沒有改變的情況下,這種速度也越來越難以維持。因此,對於 HBM4,該規範背後的主要內存製造商正計劃對高帶寬內存技術進行更實質性的改變,從更寬的 2048 位內存接口開始。

HBM4 將把內存堆棧接口從 1024 位擴展至 2048 位,這將是自八年前推出這種內存類型以來 HBM 規範最重要的變化之一。將 I/O 引腳數量增加兩倍,同時保持相似的物理佔用空間,對於內存製造商、SoC 開發商、代工廠和外包組裝和測試 (OSAT) 公司來説極具挑戰性。

按照計劃,這將使 HBM4 在多個層面上實現重大技術飛躍。在 DRAM 堆疊方面,2048 位內存接口將需要顯著增加通過內存堆棧佈線的硅通孔數量。同時,外部芯片接口將需要將凸塊間距縮小到 55 微米以下,同時將微凸塊總數從 HBM3 的當前數量(約)3982 個凸塊大幅增加。

內存製造商表示,他們還將在一個模塊中堆疊多達 16 個內存芯片,即所謂的 16-Hi 堆疊,這為該技術增加了一些複雜性。(HBM3 在技術上也支持 16-Hi 堆疊,但到目前為止還沒有製造商真正使用它)這將允許內存供應商顯著增加其 HBM 堆棧的容量,但它帶來了新的複雜性,即在無缺陷的情況下連接更多數量的 DRAM 芯片,然後保持最終的 HBM 堆棧適當且一致地短。而所有這一切反過來又需要芯片製造商、內存製造商和芯片封裝公司之間更加緊密的合作,以使一切順利進行。

不過,隨着 DRAM 堆棧數量的增加,有人指出封裝技術面臨着侷限性。

現有的 HBM 採用了 TC(熱壓)鍵合技術,該技術在 DRAM 中創建 TSV 通道,並通過小突起形式的微凸塊進行電連接。三星電子和海力士的具體方法有所不同,但相似之處在於都使用了凸點。

最初,客户將 DRAM 堆疊至多達 16 層,並要求 HBM4 最終封裝厚度為 720 微米,與前幾代產品相同。普遍的觀點是,使用現有的接合實際上不可能在 720 微米處實現 16 層 DRAM 堆疊 HBM4。因此,業界關注的替代方案是混合鍵合。混合鍵合是一種在芯片和晶圓之間直接鍵合銅佈線的技術。由於 DRAM 之間不使用凸塊,因此更容易減小封裝厚度。

然而,據韓國媒體在三月的報道,在當時的討論中,相關公司決定將封裝厚度標準放寬至 775 微米(μm),比上一代的 720 微米(μm)更厚。國際半導體標準組織(JEDEC)的主要參與者也同意將 HBM4 產品的標準定為 775 微米。如果封裝厚度減少到 775 微米,即使使用現有的接合技術,也可以充分實現 16 層 DRAM 堆疊 HBM4。考慮到混合鍵合的投資成本巨大,存儲器公司很可能將重點放在升級現有鍵合技術上。

根據 Trendforce 去年年底分享的路線圖預計,首批 HBM4 樣品預計每堆棧容量高達 36 GB,完整規格預計將由 JEDEC 在 2024-2025 年下半年左右發佈。預計第一批客户樣品和供貨時間是 2026 年,因此我們還有很長一段時間才能看到新的高帶寬內存解決方案投入使用。

三大巨頭的最新佈局

目前,市場上有 SK Hynix、三星和美光這三大玩家,他們在 HBM 4 上也明爭暗鬥。

首先看 SK Hynix 方面,在五月的一次行業活動中表示,SK Hynix 表示,可能在 2025 年率先推出下一代 HBM4。SK Hynix 計劃在 HBM4 的基礎芯片中採用台積電的先進邏輯工藝,以便將額外的功能塞進有限的空間內,幫助 SK Hynix 定製 HBM,以滿足更廣泛的性能和能效要求。

與此同時,SK 海力士表示,雙方還計劃致力於優化其 HBM 和晶圓上芯片 (CoWoS,台積電的封裝技術) 技術的組合,並滿足客户的 HBM 需求。

在 SK 海力士看來,公司的 HBM 產品具備業界最佳的速度和性能。尤其是我們獨有的 MR-MUF 技術,為高性能提供了最穩定的散熱,為造就全球頂尖性能提供了保障。SK 海力士聲稱,大規模回流成型底部填充 (MR-MUF) 技術製造,比使用熱壓縮非導電膜 (TC-NCF) 製造的產品堅固 60%。此外,公司擁有快速量產優質產品的能力,我們對客户需求的響應速度也是首屈一指的。這些競爭優勢的結合使公司的 HBM 脱穎而出,躋身行業前列。

具體到 DRAM 方面,據報道,SK 海力士計劃將 1b DRAM 應用到 HBM4,並從 HBM4E 應用 1c DRAM。但據瞭解,SK 海力士仍留有根據市場情況靈活改變應用技術的空間。

來到三星方面,作為一個追趕者,三星也火力全開。

三星電子在其設備解決方案 (DS) 部門內成立了新的 “HBM 開發團隊”,以增強其在高帶寬內存 (HBM) 技術方面的競爭力。這一戰略舉措是在副董事長 Kyung-Hyun Kyung 就任 DS 部門負責人一個多月後採取的,反映了該公司致力於在快速發展的半導體市場中保持領先地位的決心。

新成立的 HBM 開發團隊將專注於推進 HBM3、HBM3E 和下一代 HBM4 技術。該計劃旨在滿足人工智能 (AI) 市場擴張帶來的對高性能內存解決方案的激增需求。今年早些時候,三星已經成立了一個工作組 (TF) 來增強其 HBM 競爭力,新團隊將整合和提升這些現有的努力。

三星電子同時強調,將加強其定於明年發佈的第六代高帶寬內存(HBM4)的定製服務。

該公司內存事業本部新業務規劃組副總裁 Choi Jang-seok 表示:“與 HBM3 相比,HBM4 的性能顯着提高”,並補充説:“我們正在擴大產能到 48GB(千兆字節)並以明年的生產目標進行開發。”

三星電子將 MOSFET 工藝應用到 HBM3E,並正在積極考慮從 HBM4 開始應用 FinFET 工藝。因此,與 MOSFET 應用相比,HBM4 的速度提高了 200%,面積縮小了 70%,性能提高了 50% 以上。這是三星電子首次公開 HBM4 規格。

Choi 副總裁表示:“HBM 架構將發生重大變化。許多客户的目標是定製優化,而不是現有的通用用途。” 他補充道,“例如,HBM DRAM 和定製邏輯芯片的 3D 堆疊顯著提高。” “由於通用 HBM 的中介層和大量輸入/輸出 (I/O),將有可能降低性能並消除性能擴展的障礙,” 他解釋道。

他繼續説道,“HBM 不僅不能忽視性能和容量,還不能忽視功耗和熱效率。為此,16 層 HBM4 不僅採用了 NCF 之外的 HCB(混合鍵合)技術等各種尖端封裝技術(非導電粘合膜)組裝技術,還有新工藝 “正確實施各種新技術至關重要,三星正在按照計劃進行準備,” 他補充道。

有報道指出,三星電子最近在內部制定了一項計劃,將原來計劃安裝在 HBM4 中 1b DRAM 改為 1c DRAM。並將量產目標日期從明年年底提前到明年中下旬,但因為良率必須得到支持,此傳言尚未得到證實。

另一家 HBM 參與者美光則預計在 2025 到 2026 年推出 12H 和 16H 的 HBM4,其容量為 36GB 到 48GB ,速度為 1.5TB/S 以上。據美光稱,HBM4 之後,HBM4E 將於 2028 年問世。HBM4 的擴展版本預計將獲得更高的時鐘頻率,並將帶寬提高到 2+ TB/s,容量提高到每個堆棧 48GB 到 64GB。

將高帶寬內存加速至光速

HBM 的出現是為了向 GPU 和其他處理器提供比標準 x86 插槽接口所能支持的更多的內存。但 GPU 的功能越來越強大,需要更快地從內存中訪問數據,以縮短應用程序處理時間——例如,大型語言模型 (LLM) 可能涉及在機器學習訓練運行中重複訪問數十億甚至數萬億個參數,而這可能需要數小時或數天才能完成。

當前的 HBM 遵循相當標準的設計:HBM 內存堆棧通過微凸塊連接到位於基礎封裝層上的中介層,微凸塊連接到 HBM 堆棧中的硅通孔 (TSV 或連接孔)。中介層上還安裝了一個處理器,並提供 HBM 到處理器的連接

HBM 供應商和 HBM 標準機構正在研究使用光子學等技術或直接將 HBM 安裝在處理器芯片上來加快 HBM 到處理器的訪問速度。供應商正在設定 HBM 帶寬和容量速度——似乎比 JEDEC 標準機構能夠跟上的速度更快。

三星正在研究在中介層中使用光子技術,光子在鏈路上的流動速度比編碼為電子的比特速度更快,而且功耗更低。光子鏈路可以以飛秒的速度運行。這意味着 10-15 單位時間——一千萬億分之一秒(十億分之一的百萬分之一)。

據韓國媒體報道,SK 海力士還在研究直接 HBM-邏輯連接概念。這一概念將 GPU 芯片與 HBM 芯片一起製造在混合用途半導體中。該芯片廠將此視為 HBM4 技術,並正在與 Nvidia 和其他邏輯半導體供應商進行談判。這個想法涉及內存和邏輯製造商共同設計芯片,然後由台積電等晶圓廠運營商製造。

這有點類似於內存處理(PIM)的想法,除非受到行業標準的保護,否則將是專有的,具有供應商鎖定的前景。

與三星和 SK 海力士不同,美光並未談論將 HBM 和邏輯集成到單個芯片中。它將告訴 GPU 供應商(AMD、英特爾和 Nvidia),他們可以使用組合的 HBM-GPU 芯片獲得更快的內存訪問速度,而 GPU 供應商將非常清楚專有鎖定和單一來源的危險。

隨着 ML 訓練模型越來越大,訓練時間越來越長,通過加快內存訪問速度和增加每個 GPU 內存容量來縮短運行時間的壓力也將同步增加。放棄標準化 DRAM 的競爭供應優勢,獲得鎖定的 HBM-GPU 組合芯片設計(儘管速度和容量更好)可能不是前進的正確方法。

本文來源:半導體行業觀察,原文標題:《HBM 4,即將完成》