Nvidia H100 GPU Supply and Demand Situation: Conservative estimate, still short of 430,000 units!

華爾街見聞
2023.08.04 11:08
portai
I'm PortAI, I can summarize articles.

以每塊約 3.5 萬美元計算,GPU 的價值約為「150 億美元」。

最近,GPU Utils 更新了關於英偉達 H100 顯卡供需現狀的分析文章,裏面主要透露、總結了當前影響 GPU 的主流廠商擁有顯卡的數量以及對顯卡的需求量。

作者表示,考慮到訓練和推理性能,以及推理方面性價比,H100 是當下最受歡迎的 GPU(具體為 8-GPU HGX H100 SXM)。

GPU Utils 認為,保守估計,H100 的供給缺口達到 43 萬張。

本文簡要總結了一下文章核心數據供大家參考:

● OpenAI、特斯拉等廠商對 GPU 的需求量

● OpenAI、特斯拉等廠商擁有的 GPU 數量

● 供應瓶頸、其他核心數據

01「誰需要?」

需要 1000 張以上的 H100 或 A100 的公司:

1、訓練 LLM 的創業公司:

OpenAI (通過 Azure)、Anthropic、Inflection (通過 Azure 和 CoreWeave)、 Mistral AI;

2、雲服務提供商:

三大雲巨頭:Azure、Google Cloud、AWS;

另一個公有云:Oracle;

更大的私有云:例如 CoreWeave、Lambda;

3、其他大公司:

特斯拉;

需要 100 張以上的 H100 或 A100 的公司:

對開源模型進行大量微調的初創公司。

02「要多少?」

1、OpenAI 可能需要 5 萬張,Inflection 要 2.2 萬張,Meta 需要 2.5 萬張(也有人説 Meta 想要 10 萬張或更多)

2、大型雲廠商,每家可能需要 3 萬張(Azure、Google Cloud、AWS、Oracle)

3、Lambda 和 CoreWeave 以及其他私有云可能總共需要 10 萬張

4、Anthropic、Helsing、Mistral、Character,每家可能要 1 萬張;

到這裏,需求量就已經達到了約「43.2 萬張」H100,以每塊約 3.5 萬美元計算,GPU 的價值約為「150 億美元」。

而這,還不包括像字節(TikTok)、百度、騰訊這樣需要大量 H800 的中國公司,以及一些需求正盛的金融公司:

如 Jane Street、JP Morgan、Two Sigma、Citadel 等金融巨頭,正從數百台 A100 或 H100 開始部署,逐步增加至數千張 A/H100。

03「有多少?」

OpenAI、特斯拉等廠商擁有的 GPU 數量。

大公司

1、GPT-4 可能在 1w-2.5w 張 A100 上進行的訓練,根據馬斯克的説法,GPT-5 可能需要 3w-5w 張 H100;

2、Meta 約有 2.1 萬張 A100;

3、Tesla 約有 7000 張 A100;

4、Stability AI 約有 5000 張 A100;

雲廠商

1、GPC 約有 2.5 萬塊 H100;Azure 可能有 1-4 萬塊 H100,Oracle 可能類似;(其中,Azure 的大部分 GPU 都將流向 OpenAI。)

2、CoreWeavw 有 3.5-4 萬塊 H100——不是現貨,而是預定的;

其他數據

1、Falcon-40B,在 384 個 A100 上進行訓練;

2、Inflection,在其 GPT-3.5 等效模型中使用了 3500 個 H100;

04「誰供應?」

1、瓶頸在哪?

供應;

2、誰在製造 H100?

台積電;

3、三星、英特爾可以代工嗎?

至少現在不行。目前,H100s 和其他 5nm 英偉達 GPU 均由台積電代工。

過去,英偉達曾嘗試讓三星代工,但後來換掉。未來,英偉達當然有可能與英特爾、三星合作,但短期無法緩解供給緊張。

05「其他核心數據」

1、人們需要哪些 GPU?

主要是 H100,具體來説,是 8-GPU HGX H100 SXM,因其在訓練和推理最快,且在推理方面性價比最高。

訓練方面,企業主要關注內存帶寬、FLOPS、緩存和緩存延遲、FP8 計算等附加功能、計算性能(與 Cuda 核心數量相關)、互連速度(如 InfiniBand)等,H100 比 A100 更受青睞,部分原因是緩存延遲較低和 FP8 計算等。

2、H100 比 A100 快多少?

16-bit 推理速度提高約 3.5 倍,16-bit 訓練速度提高約 2.3 倍。

3、為啥不買 AMD?

某私有云 CEO:

從理論上講,一家公司可以購買一堆 AMD 的 GPU,但要讓一切正常運轉需要時間。

開發時間 (即使只要 2 個月),也可能就意味着比競爭對手更晚進入市場。所以,現在英偉達的護城河是 CUDA。

另一傢俬有云 CEO:

沒有人願意冒險部署 10,000 個 AMD GPU,這幾乎是 3 億美元的投資。

4、目前大家在使用什麼雲?

a. OpenAI: Azure

b. Inflection: Azure and CoreWeave

c. Anthropic: AWS and Google Cloud

d. Cohere: AWS

e. Hugging Face: AWS

f. Stability AI: AWS

g. Character.ai: Google Cloud

h. X.ai: Oracle

i. Nvidia: Azure

來源:硬 AI,原文標題:《Nvidia H100 GPU 供需現狀:保守估計,還差 43 萬張!》

本文主要參考(原文鏈接):

https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/#which-gpus-do-people-need