
Sora 將創造多少算力需求?

Sora 的算力需求初步測算結果顯示,訓練端需要 231 片 A100,推理端則對應 1846 萬個 A100 需求。根據 Sora 技術報告,Sora 採用 Transformer+Diffusion 架構用於視頻生成,同時利用低維潛在空間和 patch 分解來統一不同類型的視覺數據。Sora 的算力需求測算基於已有的論文模型參數,訓練一張 1024x768 分辨率圖片需要 324Gflops 的算力。這些算力需求數據對於瞭解 Sora 的技術和發展具有重要意義。
1.1 Sora 訓練與推理算力需求初步測算
Sora 發佈表現亮眼,Transformer+Diffusion 架構或成為文生視頻大模型新範式。據 Sora 技術報告,類似於 LLM 將不同文本數據統一為 token,Sora 可將不同類型的視頻和圖像等視覺數據統一為 patches,具體而言,Sora 首先將視頻壓縮為低維潛在空間,然後再將其分解為 patch;同時,OpenAI 將 Transformer 架構用於視頻生成,隨着訓練計算量的提高,生成視頻質量也明顯提高。
Sora 的作者之一 Peebles 曾發佈論文《Scalable Diffusion Models with Transformers》構造成熟的 Transformer+Diffusion 架構模型用於圖像生成;後續中國人民大學等機構發佈《VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANSFORMERS VIA MASK MODELING》進一步實現該架構用於視頻生成,我們藉助上述論文中的模型參數,對 Sora 的算力需求進行測算:
1、訓練端,由於模型架構較新,本文對《Scalable Diffusion Models with Transformers》論文中 DiT-XL/4 模型進行逆向工程,使得輸入對應參數量後能夠得到 29.05Gflops,得到訓練一張 1024x768 分辨率圖片需要算力 324Gflops,根據《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning(Pablo 等著,2022 年)》披露數據,Youtube 上每分鐘上傳約 500 小時視頻,假設視頻都為 60 幀每秒;假設全採用英偉達 A100(FP16 算力 312Tflops)且芯片利用率為 80%;得到一個月內訓練完 Youtube 全部新增視頻約需要 231 片 A100,考慮到文中模型都是經過多次訓練得到,算力需求仍有較大程度提高的可能性。
2、推理端,推理端算力約等於交互 Patches 數量 *2* 參數量,假設抖音 8 億日活,平均每人每天使用時長 2h,對應每天 16 個小時視頻播放時長。假設每個 Patch 尺寸為 60*80,一幀 1920*1280 分辨率的畫面有 512 個 Patch,一秒鐘 30 幀,對應一分鐘生成的視頻有 92.16 萬個 Patches,假設 Sora 模型參數為 30 億,則對應 1846 萬個 A100 需求。
1.2 合成數據:從數據增強走向訓練主體
合成數據指的是基於生成式人工智能技術的計算算法和模擬創建而成的數據。據天翼智庫,合成數據依賴少部分的高質量真實數據用於初始創建,將大幅減少算法訓練所需的真實數據量,提供了一種更快捷高效的方式來獲取所需數據;目前主要通過以下四種技術路徑來獲取合成數據:基於深度學習生成、基於模擬生成、基於語義規則生成以及基於蒙特卡羅方法生成。
合成數據主要分為結構化數據和非結構化數據兩類,數據廣泛覆蓋金融、醫療、零售甚至運營商領域。據天翼智庫,合成數據的產業佈局可分為結構化數據(表格數據)、非結構化數據(視頻、圖像等)、測試數據等,合成數據的應用領域十分廣泛,早期主要應用於計算機視覺領域,現在正向金融、醫療、零售甚至運營商領域拓展。
以多模態為代表的非結構化數據真正快速發展,英偉達、遊戲引擎廠商紛紛入局。據《MatrixCity:面向城市規模的神經渲染數據集》,論文已經實現利用虛幻引擎 5 城市樣本項目,作者開發了一個作業流程,以方便地收集空中和街道城市視圖,伴隨着地面真實的相機姿勢和一系列額外的數據模式;論文的方法還提供對光線、天氣、人類和汽車人羣等環境因素的靈活控制,以支持涵蓋城市規模的神經渲染等各種任務的需求。英偉達旗下 Omniverse 持續推動合成數據業務發展,並支持使用本地部署和 NVIDIA Omniverse™ Cloud 解決方案使用合成數據來創建應用。
合成數據訓練效果不斷提升,到 2030 年 AI 訓練中合成數據用量有望超過真實數據。據谷歌《Learning Vision from Models Rivals Learning Vision from Data》論文,儘管沒有直接採用任何真實數據訓練,SynCLR 在 ImageNet 數據集上訓練的線性傳遞性能仍可與傳統訓練方法相媲美。由於合成數據也能填補真實數據集中可能存在的數據缺失、數據不足、數據不均衡等問題,提高機器學習算法的魯棒性和泛化能力,據 Gartner 預測,到 2030 年合成數據將完全蓋過 AI 模型中的真實數據,成為 AI 模型訓練使用數據的主要來源。
風險提示
1)行業競爭加劇:目前國產軟硬件尚未呈現出清晰的格局,芯片、數據庫、操作系統等行業仍處於高度競爭狀態,若後續行業競爭加劇,可能會影響公司的毛利率水平,進而影響相關公司的盈利能力。
2)公司技術發展不及預期:目前國內 AI 產業還在起步階段,相關公司的技術路徑、商業化能力仍有不確定性,若後續公司技術發展不及預期,或影響公司業績增長前景。
民生計算機,分析師呂偉,執業證書:S0100521110003 詳見報告《計算機週報:Sora 將創造多少算力需求?》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
