
Amazon develops dedicated cooling equipment to tackle the high energy consumption challenges of GPUs in the AI era

亞馬遜雲計算部門開發了專門用於冷卻下一代英偉達 GPU 的硬件設備,以應對 AI 時代 GPU 高能耗的挑戰。新設備 “列間換熱器” 可插入現有及新建的數據中心,解決傳統冷卻方式的不足。客户可通過 AWS 的 P6e 計算實例使用這一服務,配合英偉達的高密度計算硬件,支持大型 AI 模型的訓練和運行。
智通財經 APP 獲悉,亞馬遜 (AMZN.US) 週三表示,其雲計算部門已開發出專門用於冷卻下一代英偉達 (NVDA.US) 圖形處理器 (GPU) 的硬件設備——這些 GPU 被廣泛用於人工智能相關的計算任務。英偉達的 GPU 為生成式人工智能的爆發提供了強大動力,但它們消耗的能源極為龐大。這意味着,使用這些處理器的公司必須配備額外的設備來進行冷卻。
亞馬遜曾考慮建設能夠廣泛部署液冷系統的數據中心,以充分發揮這些高功耗英偉達 GPU 的效能。但亞馬遜雲服務 (AWS) 計算與機器學習服務副總裁 Dave Brown 表示,這一過程耗時太久,而且市面上可用的設備也無法滿足需求。Dave Brown 表示:“它們要麼佔用過多的數據中心地面空間,要麼顯著增加用水量。雖然其中一些解決方案在其他服務提供商的小規模場景中可能有效,但它們根本沒有足夠的液冷能力來支持我們的規模。”
因此,亞馬遜工程師構思並開發了 “列間換熱器”(In-Row Heat Exchanger,簡稱 IRHX),這種設備可插入現有及新建的數據中心中。此前一代的英偉達芯片使用傳統空氣冷卻方式已足夠。
Dave Brown 表示,客户現在可以通過名為 P6e 的計算實例使用這一 AWS 服務。這些新系統配合英偉達設計的高密度計算硬件使用。英偉達的 GB200 NVL72 將 72 顆英偉達 Blackwell GPU 安裝於單個機架中,並通過互聯方式協同工作,以訓練和運行大型 AI 模型。
亞馬遜此前已推出多種自主研發的基礎設施硬件。該公司開發了用於通用計算和人工智能的定製芯片,並設計了自有的存儲服務器和網絡路由器。通過運行自主硬件,亞馬遜對第三方供應商的依賴減少,從而有助於提高盈利能力。在第一季度,AWS 交出了自 2014 年以來最佳運營利潤率的成績,該業務部門也貢獻了亞馬遜的大部分淨利潤。
