
Intensifying competition! Report: Amazon persuades cloud customers to stay away from NVIDIA and switch to its own chips

分析認為,如果亞馬遜能夠將客户支出轉移到其自研的服務器芯片上,由於這些芯片部分因為耗電量遠低於英偉達芯片而對雲客户更加便宜,這將提升亞馬遜的利潤率。此外,這也能阻止英偉達通過直接向企業出租其芯片服務器,搶佔更多雲市場份額。
與其他雲服務提供商一樣,亞馬遜租用給開發者和企業的服務器主要適用的是英偉達 AI 芯片。然而媒體報道,亞馬遜如今正試圖説服這些客户轉而使用由亞馬遜自研 AI 芯片驅動的服務器。
The Information 報道,亞馬遜芯片部門 Annapurna 的業務開發負責人 Gadi Hutt 表示,包括蘋果、Databricks、Adobe 和 Anthropic 在內的一些希望找到英偉達芯片替代方案的科技公司,已經在測試亞馬遜最新的 AI 芯片,並取得了令人鼓舞的結果。
Hutt 在亞馬遜 AWS 年度客户大會表示:“去年,人們開始意識到,‘嘿,亞馬遜在 AI 芯片上的投資是認真的。’ 本週,更多人相信這是一個真實且持續的投入。”
分析認為,如果亞馬遜能夠將客户支出轉移到其自研的服務器芯片上,由於這些芯片部分因為耗電量遠低於英偉達芯片而對雲客户更加便宜,這將提升亞馬遜的利潤率。此外,這也能阻止英偉達通過直接向企業出租其芯片服務器,搶佔更多雲市場份額。
英偉達在 AI 芯片領域的主導地位一直難以撼動,這部分歸因於其芯片比包括亞馬遜、微軟和谷歌在內的競爭對手生產的芯片更強大,同時,軟件開發者習慣於使用英偉達專有的 Cuda 編程語言為其芯片編寫軟件。
儘管如此,Hutt 和其他亞馬遜高管本週表示,大客户正在尋求更便宜的替代方案。AWS CEO Matt Garman 表示,使用亞馬遜的 AI 芯片成本比英偉達的旗艦 H100 芯片低 30% 到 40%,但能實現同等性能。
目前,亞馬遜已經在開發傳統服務器芯片方面建立了一定的影響力,併成功説服客户租用這些芯片。近年來,AWS 客户越來越多地使用亞馬遜的 Graviton 服務器芯片,而不是由英特爾和 AMD 提供芯片的服務器,因為 Graviton 通常性價比更高。
例如,企業軟件公司 Databricks 已經成為 Graviton 的重要客户,其高管 Naveen Rao 表示,計劃使用亞馬遜的新 AI 芯片以降低運行軟件的成本。
亞馬遜開發芯片(包括 AI 芯片 Trainium)的舉措是其更廣泛戰略的一部分,這一戰略旨在將計算的 “基本構件”——從服務器到雲軟件——轉變為廉價的通用商品。類似地,亞馬遜 CEO Andy Jassy 本週宣佈了一款由亞馬遜打造的新對話式 AI 模型,他表示,其性能與 Anthropic 和 OpenAI 的最新模型相當,但價格卻低了三倍以上。
Hutt 還談到了公司的新 Trainium 芯片,以及 AWS 正在為 Anthropic 建造的一套超級計算服務器集羣。Anthropic 是 OpenAI 的競爭對手,也是 AWS 近年來營收增長的重要貢獻者之一,目前是 AWS 上最多使用英偉達服務器的客户之一。
以下是媒體採訪 Gadi Hutt 的對話節選:
1. 使用 Trainium2(亞馬遜芯片的最新版本),為什麼你們要專注於把這款芯片賣給那些在英偉達芯片上花費巨大的公司?
Hutt:那些關注機器學習成本的客户,通常是花費較大的客户,包括蘋果、Adobe、Databricks 等,還有一些資金充裕的初創公司,比如 Poolside 和 Anthropic。
對他們來説,關鍵指標是 “每 1 美元能獲得多少性能”。還有許多其他客户,我們稱之為 “長期客户”,他們有各種項目非常適合我們的芯片。但也許他們每月的花費只有 1000 美元,這種情況下不值得工程師投入時間去探索這種選項。
實際上,在 Trainium2 生命週期的這個階段,我並不尋求吸引上百萬個客户。就機器學習而言,我們還處於非常早期的階段。人們還在嘗試攻克通用人工智能(AGI)和各種各樣的想法,這個領域還在不斷演變。
我們不能從第一天起就支持所有的用例。如果客户嘗試運行一些無法正常工作的東西,這會是一種非常糟糕的體驗。因此,我們專注於聽取最大客户的需求,“嘿,這是我們需要的”,而這往往是對整個市場未來需求的一個很好的預測。
2. Trainium2 在明年的目標是什麼?
Hutt:當我們部署大量芯片時,我們的目標是確保它們被充分利用。所以我們首先需要與這些大客户合作,然後再擴展到我所説的 “長期客户”。對我們這些製造芯片的人來説,成功的衡量標準是確保所有芯片都被充分利用。不管是 10 個客户還是 1000 個客户,數量是次要的。
這是場馬拉松,而不是短跑。隨着時間的推移,我們希望看到越來越多的客户。我不會在內部制定目標,規定要啓用多少客户。我們更關注的是確保為客户提供合適的工具和性能,採用率自然會隨之提高。
3. 為什麼第一代 Trainium 芯片沒有成功推廣?第二代有什麼不同?
Hutt:首先,這是我們的第一款訓練芯片。你可以看看 Trainium1(2022 年發佈)與 Graviton1(2019 年發佈)的對比,同樣的故事。Graviton1 實際上是為了啓用整個生態系統,包括軟件生態系統,並確保我們為客户構建了正確的產品。
Trainium1 的客户(包括亞馬遜內部的團隊)幫助我們強化了軟件,但工作仍未完成。在支持更多工作負載方面,我們還有很多工作要做。不過,現在我們可以説,我們對 Trainium2 能夠支持的工作負載感到非常滿意,包括大型語言模型(LLM)、專家模型、多模態模型以及計算機視覺模型。
這需要時間,而且很複雜。如果很容易,更多人早就做到了。
3. AWS 的客户是否在考慮明年選擇租用 Trainium2 還是英偉達的 Blackwell 芯片?
Hutt:客户喜歡有選擇的餘地。我們的工作是確保我們的芯片即使與英偉達的最新芯片相比,也依然具有吸引力,目前確實如此。
順便説一句,我們還沒有見到 72 芯片的 Blackwell 系統投入使用,但假設英偉達能夠交付,Trainium2 依然會更具成本效益。
Trainium3(預計 2025 年底發佈)的計算能力是 Trainium2 的四倍,因此客户瞭解我們的發汗路線圖。他們有信心認為,這是一個值得投資的方向,否則他們不會選擇它。
4. 你認為英偉達 GPU 的需求是否會發生變化?
Hutt:有很多客户想使用英偉達芯片,不願瞭解 Trainium 芯片。如果你是小型 GPU 消費者,每次穩定使用 10、20、30 甚至 100 個 GPU,沒有動力去改變現狀。即使每月能省下幾千美元,你可能也更願意讓工程師去做別的事情。
當客户關心成本問題時,通常是在他們開始擴大規模時,但大規模的客户並不多。所以對我們來説,這些芯片是長期投資,以確保我們為客户提供選擇。如果客户選擇使用它們很好,但如果不選擇,我們依然是運行 GPU 的最佳平台。
我們的軟件成熟度會隨着時間的推移而提高,希望屆時會有更多客户選擇使用 Trainium。但 GPU 對我們來説也是一項好業務,我們在賣很多。所以,如果客户希望我們為他們提供 GPU,我們會永遠這麼做。
5. 使用 Trainium 芯片是否會提高 AWS 的利潤率?
Hutt:我們不會披露利潤率的具體情況,但我們在這些芯片上並沒有虧損。業務必須有存在的意義,否則我們不會在這裏投資。
6. 客户何時開始對 Trainium2 感興趣?
Hutt:我記得與 Poolside(一家 AI 編碼助手初創公司)的第一次會議。當我們向他們展示 Trainium2 的規格時,他們説,“好吧,這正是我們需要的。”
7. Anthropic 的超級計算機集羣項目 Rainier 的耗電量是多少?
Hutt:我們沒有披露具體數據。但我可以告訴你,它比等效的 GPU 效率高 50%。
8. 超級計算機何時能在 Anthropic 投入使用?
Hutt:Rainier 項目很快就會完成,我們已經在建造中。他們可以逐步開始使用部分集羣,而不需要等到最後一顆芯片上線後再使用。隨着集羣擴展,他們可以逐步增加使用量。
9. Anthropic 是否是唯一可以使用 Rainier 項目的公司?
Hutt:是的,僅供 Anthropic 使用。
我們正在建設更多的產能,以滿足其他客户使用 Trainium 的需求。目前,短期內需求大於供應。所以第一季度將非常緊張,隨着產能增加,情況會有所改善。
