Track Hyper | AMD AI PC Chip Zen 5 Architecture Reveals True Colors

華爾街見聞
2024.07.28 07:20
portai
I'm PortAI, I can summarize articles.

鋭龍 AI 300 系列筆電 7 月 28 日上市,Zen 5 架構(CPU)強在哪?

作者:周源/華爾街見聞

7 月 28 日,鋭龍 AI 300 筆記本上市。

這款機型之所以受到關注是因為搭載了 AMD 全新的 AI 處理器 “鋭龍 AI 300 系列”(4nm 工藝製程)。

這個系列的處理器,採用了 AMD 全新的 Zen 5 架構。AMD 曾在今年 6 月初的中國台北國際電腦展上發佈了鋭龍 AI 300 系列和鋭龍 9000 系列兩款桌面 AI 處理器,並對 Zen 5 架構做了簡要介紹。

在 7 月 28 日搭載了鋭龍 AI 300 系列桌面處理器的筆電上市之前,AMD 在美國舉辦的 Zen 5 Tech Day 技術活動上,披露了這款處理器的詳細技術信息。

Zen 5 架構的定製款被稱為 Zen 5c,特徵是更 “緊湊” 的內核,比標準全功能的 Zen 5 架構內核小約 25%。這兩種內核類型,在同一芯片上,具有不同數量的緩存。這是 AMD 首次做出這樣的設計。

AMD 在 2017 年推出 Zen 架構,取代了之前的 Bulldozer(推土機)架構:Zen 架構的 IPC(平均每週期指令)性能比 Bulldozer 架構提升了 52%,遠超預期的 40% 性能提升值。

在 Zen 架構推出七年以來,AMD 將之迭代了 5 次。AMD 宣稱,新推出的 Zen 5 架構,比前代 Zen 4 架構的 IPC 性能提升了 16%,“實現了性能的實質性飛躍”。

AMD 做了什麼努力?

簡單來説,AMD 做了多項架構改進,包括增加每時鐘週期指令數、拓展指令分派與執行帶寬、翻倍緩存數據帶寬和 AI 加速等等。比如,通過擴展管道和矢量大小,AMD 以此增強 Zen 5 架構的吞吐能力,這有助於同時處理更多數據並提高核心的並行處理能力。

CPU 誕生至今,在設計層面已形成一套成熟的體系。大致上,CPU 設計分為前端和後端兩個環節,物理模塊結構大致包括指令預取與解碼、整數執行、浮點執行、載入存儲和緩存等不同的單元。

Zen 5 架構提升了前端的部分模塊的規格,比如從 1 提升到 1.5:AMD 設計了雙預取、雙解碼流水線和提升一倍的指令帶寬等(前端)。

其中,前端帶寬指令翻番,有助於提高處理器處理複雜計算和數據密集型任務的效率。這個新設計,也體現在 L1 和 L2 緩存之間,以及增加了 L1 緩存到浮點(FP)單元的數據傳輸速率。

Zen 5 架構的浮點與矢量執行單元部分,在 Zen 4 架構引入 AVX-512 指令集的基礎上,從僅支持 256 位數據寬度,強化為支持完整的 512 位;L1 緩存容量也從 32KB 增大到 48KB,同時從 8 路增強為 12 路。

面對如今洶湧澎湃的 AI 算力和應用需求,Zen 5 架構大幅提升了數學加速單元的性能:單核執行數學學習提速最高至 32%,AES-XTS 指令提速最多至 35%。

正因為有了這些技術努力,故而 Zen 5 架構的 IPC 性能可提升 16%,在有些場景中,甚至能提升 35%。

AMD 稱 Zen 5 架構整體性能比前代提升幅度 “巨大”,是否誇張?

華爾街見聞查閲了 Zen 架構之前四次迭代的性能提升幅度後發現,這個措辭多少有些誇張。Zen+、Zen 2、Zen 3 和 Zen 4 各自比前代的性能提升幅度分別是 3%、15%、19% 和 13%。這次是 16%,不如 Zen 3 的性能升幅。

但這並沒有影響 Zen 5 架構的技術創新和由此帶來的 AI 性能表現。這是一款符合 AI 需求的桌面處理器,而採用 Zen 3 架構的處理器並未具備這些新的技術優勢。

7 月 28 日上市的搭載鋭龍 AI 300 系列處理器的筆記本電腦,有 Zen 5 和 Zen 5c 兩種規格。

這兩款處理器採用了完全相同的 CPU 架構,不同之處是什麼?Zen 5c 屬於定製款,相對來説,因為採用 “緊湊型” 設計,因此相對 Zen 5 架構,Zen 5c 架構的緩存更小,頻率也更低,但能效更高,更符合移動場景需求。

作為一款 AI PC 處理器,鋭龍 AI 300 系列也採用異構設計,即 CPU+GPU+NPU。其中,CPU 架構升級到了 Zen 5,GPU 則採用了 RDNA 3.5 架構,NPU 用了 XDNA 2 架構。其中,RDNA 3.5 架構主要提升了能效比、內存性能和電池續航。

NPU 部分,XDNA 2 架構將 AI 引擎單元從 20 個增加到 32 個(分四行八列)),每個單元內的 MAC 數量翻倍;疊加板載內存容量增加的 1.6 倍、支持 Block FP16 塊狀浮點格式、非線性增強支持和 8 條併發空間流(比前代架構實現翻倍),故而鋭龍 AI 300 系列的 NPU 算力,高達 50 TOPS。

這個指標,在全球範圍內,超越了頭部同類競品:Intel Lunar Lake(48 TOPS)、高通驍龍 X Elite(45 TOPS)、蘋果 M4(38 TOPS)。