In the era of large models, are small companies sidelined?

華爾街見聞
2024.04.20 11:52
portai
I'm PortAI, I can summarize articles.

大模型新時代,小公司可能被邊緣化,但小模型將為它們創造新機會。摩根士丹利認為,英偉達是未來算力增長的關鍵。谷歌、Meta、亞馬遜和微軟將是大模型發展中的受益者。摩根士丹利對這些大型科技公司給予了增持評級。大模型的發展將需要前所未有的算力,對於小公司來説將面臨巨大挑戰。摩根士丹利的報告指出,開發大模型所需成本高昂,芯片技術和人工智能技術壁壘增加,構成了進入大模型領域的重大障礙。未來算力將實現指數級增長,英偉達的芯片技術是推動算力增長的關鍵之一。

作者:卜淑情

來源:硬 AI

Meta 旗下第三代大模型 Llama 3 終於在本週正式亮相:最大參數規模超 4000 億,訓練 token 超 15 萬億,對比 GPT-3.5 多種人類評估測評勝率超六成,官方號稱 “地表最強開源模型”。

在各大科技巨頭的 “內卷” 中,大模型終於來到了一個關鍵的轉折點。摩根士丹利指出,世界正在進入一個由硬件和軟件共同推動的大模型能力快速增長的新時代,大模型在創造力、戰略思維和處理複雜多維任務方面的能力將顯著提升。

報告強調,未來大模型的訓練將需要前所未有的算力,這將導致開發成本顯著增加。摩根士丹利 Stephen C Byrd 分析師團隊在本週公佈的報告預計,訓練下一代大模型所需的超級計算機成本之高企,即使對於科技巨頭來説也是一個巨大的挑戰,更別提小公司了。

報告進一步指出,除了高昂的資本支出外,芯片電力供應和人工智能技術的壁壘也在增加。這些因素共同構成了進入大模型領域的重大障礙,可能會使得小公司難以與強大的巨頭企業競爭。

因此,摩根士丹利對谷歌、Meta、亞馬遜和微軟等大型科技公司給予了增持評級,這些公司憑藉其在技術、資本和市場上的優勢,有望在大模型的發展中佔據領先地位。與此同時,小公司雖然可能在大模型的世界被邊緣化,但成本更低的小模型將為它們創造新的機會。

未來算力指數級增長,英偉達是關鍵?

摩根士丹利指出,在不久的將來,開發大模型所需的算力將實現指數級的增長,這一增長與芯片技術的進步緊密相關,英偉達 “史上最強芯片” Blackwel 是推動算力增長的關鍵技術之一。

以 OpenAI 訓練 GPT 模型為例。

摩根士丹利指出,目前訓練 GPT-4 需要大約 100 天的時間,使用 2.5 萬個英偉達 A100 GPU,處理 13 萬億個 token,並且涉及大約 1.76 萬億個參數。

這些 A100 的總算力(以 FP8 teraFLOPs 衡量)大約是 1600 萬。teraFLOPs 是衡量浮點運算性能的單位,表示每秒可以執行多少萬億次浮點運算。GPT-4 訓練所需的總浮點運算次數約為 137 萬億次。

對於即將亮相的 GPT-5,摩根士丹利預計,該模型的訓練需要部署 20 萬-30 萬個 H100 GPU,耗時 130-200 天。

超級計算機將使指數級的增長預期更加容易實現。摩根士丹利模型顯示,本十年晚些時候超級計算機為開發大模型提供的算力比當前水平高 1000 倍以上。

使用 Blackwell 的超級計算機,只需要 150-200 天的訓練時間,就能開發出一個全新的大模型,與當前大模型(如 GPT-4)相比,其提供的算力,比當前模型所需高出 1400-1900 倍。

報告還提到,未來 GPT-6 所需的年度算力,將佔英偉達芯片年銷售額的相當大的百分比。預計使用 B100 或 H100 GPU 的 100 兆瓦數據中心的成本可能為 15 億美元。

摩根士丹利將英偉達視為算力增長的關鍵驅動力。

根據預測,從 2024 年到 2026 年英偉達算力將以 70% 的複合年增長率增長。這個增長率是基於 SXM(可能是 NVIDIA 的某個產品或服務的代號)和 FP8 Tensor Core(一種性能指標)來計算的。

大模型時代,科技巨頭是最大受益者?

然而,開發超強大模型及其訓練所需的超級計算機涉及到一系列複雜的挑戰,包括資本投入、芯片供應、電力需求和軟件開發能力。這些因素構成了進入這一領域的主要壁壘,將使那些資本雄厚、技術領先的科技巨頭獲得更多機會。

資本投入方面,摩根士丹利將谷歌、Meta、亞馬遜和微軟在 2024 年的數據中心資本支出進行了比較,對象是一系列不同規模的超級計算機,其中 1 吉瓦的超級計算機設施的估算成本約為 300 億美元,而更大規模的超級計算機的成本可能高達 1000 億美元。

摩根士丹利預計,這四家美國超大規模計算公司在 2024 年和 2025 年的數據中心資本支出將分別達到約 1550 億美元和超過 1750 億美元。這些鉅額數字將使小企業望而卻步。

該機構還認為谷歌、Meta、亞馬遜和微軟將是算力增長的直接受益者,給予四家公司增持評級。

小公司的機會在哪裏?

儘管小公司可能在更加複雜的大模型的開發中被邊緣化,但小模型的發展將為它們創造新的機會。

摩根士丹利表示,小模型的開發成本較低,未來可能在特定的行業領域中實現顯著的好處,並推動通用人工智能技術的快速普及。

我們最新的通用人工智能模型包括一個可以計算訓練小模型相關數據中心成本的工具,我們認為這是評估特定領域小模型可能擴散的回報率(ROIC)的一個有益起點。

我們認為小模型成本的下降和能力的提高,加強了我們對通用人工智能技術在許多領域採用的評估。

軟件加持下,未來的大模型能做什麼?

值得注意的是,除了芯片等硬件方面的進步之外,軟件架構的創新也將在推動大模型能力提升方面發揮關鍵作用,特別是 Tree of Thoughts 架構。

該架構由谷歌 DeepMind 和普林斯頓大學的研究人員在 2023 年 12 月提出,設計靈感來源於人類意識的工作方式,特別是所謂的 “系統 2” 思維。“系統 2” 是一種長期的、高度深思熟慮的認知過程,與快速、無意識的 “系統 1” 思維相對,後者更類似於當前大模型的工作方式。

這一轉變將使大模型能夠以一種更類似於人類思考過程的方式來工作,突出了 AI 更強的創造力、戰略思維和複雜、多維任務的能力。

計算成本大幅下降

摩根士丹利的專有數據中心模型預測,大模型算力的快速上升,意味着計算成本將快速降低。從單一芯片代的進化(從英偉達 Hopper 到 Blackwell)來看,計算成本下降了大約 50%。

OpenAI 首席執行官 Sam Altman 此前強調了計算成本下降的重要性,並將其視為未來的關鍵資源,他認為算力可能成為世界上最寶貴的商品,重要性堪比貨幣。

此外,報告預測,將建造少數幾台非常大的超級計算機,最有可能建在現有的核電站附近。

在美國,摩根士丹利預計賓夕法尼亞州和伊利諾伊州是開發超級計算機的最佳地點,因為這些地區有多個核電站,能夠支持多千兆瓦的超級計算機的能源需求。