3D version of SORA is here! DreamTech launches the world's first native 3D-DiT large model Direct3D

華爾街見聞
2024.06.17 05:32
portai
I'm PortAI, I can summarize articles.

DreamTech 宣佈推出全球首個原生 3D-DiT 大模型 Direct3D,通過 3D Diffusion Transformer (3D-DiT) 解決了高質量三維內容生成難題。該技術路線避開了 2D 升維的缺陷,展現了獲取高質量、無畸形、無殘缺、可商用的 3D 內容的潛力。這是一項重要的商業創新,將滿足各類商業場景對高質量三維內容的需求。

2024 年 5 月,DreamTech 官宣了其高質量 3D 生成大模型 Direct3D,並公開了相關學術論文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。

這是首個公開發布的原生三維生成路線的 3D 大模型,通過採用 3D Diffusion Transformer (3D-DiT),解決了長期以來困擾行業的高質量三維內容生成難題。

堅持原生 3D 技術路線並取得突破

此前,3D AIGC 通常採用的技術路線是 2D-to-3D lifting,即通過 2D 圖像模型升維得到 3D 模型,代表性方案包括早期以 Google 公司提出的 DreamFusion 為代表的 Score Distillation Sampling (SDS) ,以及以 Adobe 公司提出的 Instant3D 為代表的 Large Reconstruction Model (LRM)。雖然 3D 數據被逐步引入模型訓練過程以提升質量,但 2D 升維技術存在多頭多面、空腔、遮擋等固有問題,現有解決方案難以滿足商業應用對通用三維生成的要求。

去年初,業內部分人員開始嘗試原生 3D 路線,即不經過中間的多視角 2D 圖片或者多視角迭代優化直接獲得 3D 模型,這條技術路線可以避開 2D 升維的缺陷,展現了獲取高質量、無畸形、無殘缺、可商用 3D 內容的潛力。原生 3D 路線在原理上相較 2D 升維方法具有顯著的優勢,然而,其模型訓練及算法開發一直存在諸多挑戰,其中最關鍵的問題有:

高效的 3D 模型表徵:圖像和視頻可以直接通過 2D/2.5D 的矩陣表徵壓縮獲得 latent feature,相比之下, 3D 數據拓撲復雜、表徵維度更高。如何對三維數據進行高效壓縮,進而對 3D latent space 進行三維數據分佈的分析與學習,是一直困擾行業人員的難題。

高效的 3D 訓練架構: DiT 架構最先應用在圖像生成領域並取得了巨大成功,包括 Stable Diffusion 3 (SD3)、Hunyuan-DiT 都採用了 DiT 架構;在視頻生成領域,OpenAI SORA 採用 DiT 架構成功實現遠超 Runway 和 Pika 的視頻生成效果;而在 3D 生成領域,受限於複雜拓撲與三維表徵方法,原始的 DiT 架構無法直接應用於 3D mesh 生成。

高質量大規模 3D 訓練數據: 3D 訓練數據的質量和規模直接決定了生成模型的質量及泛化能力,行業內普遍認為至少需要千萬規模的高質量 3D 訓練數據才可以達到 3D 大模型的訓練要求。然而 3D 數據在全世界範圍內都極其缺乏,儘管有諸如 ObjaverseXL 這樣千萬規模級別的 3D 訓練數據集,但其中絕大多數都是低質量的簡單結構,可用的高質量 3D 數據佔比不足 5%。如何獲得足夠數量的高質量的 3D 數據是一個世界性的難題。

針對以上核心難題,DreamTech 提出了全球首個原生 3D-DiT 大模型 Direct3D。通過廣泛的實驗驗證,Direct3D 的三維模型生成質量顯著超越了目前主流的 2D 升維方法,這主要得益於以下三點:

D3D-VAE: Direct3D 提出了類似 OpenAI SORA 的 3D VAE (Variational Auto-Encoder) 來提取 3D 數據的 latent feature,將 3D 數據的表徵複雜度從原本的 N^3 降低到了 n^2 (n<<N) 的緊湊 3D latent space,並通過 decoder 網絡實現了對原始 3D mesh 近乎無損的恢復。通過使用 3D latent feature,Direct3D 將原本訓練 3D-DiT 的運算和內存需求量降低了超過兩個數量級,使得大規模 3D-DiT 模型訓練成為了可能。

D3D-DiT: Direct3D 採用了 DiT 架構並對原始 DiT 進行了改進優化,引入了針對輸入圖像的語義級與像素級對齊模塊,可實現輸出模型與任意輸入圖像的高度對齊。

DreamTech 3D 數據引擎: Direct3D 在訓練中使用了大量高質量 3D 數據,這些數據絕大部分由 DreamTech 自研的數據合成引擎製作而成。DreamTech 合成引擎建立了數據清洗、標註等全自動數據處理流程,已積累生產了超過 2000 萬的高質量 3D 數據,補全了原生 3D 算法落地的最後一塊拼圖。值得一提的是,OpenAI 在 2023 年 Shap-E 和 Point-E 的訓練過程中嘗試使用了百萬規模的 3D 合成數據,而對比 OpenAI 的數據合成方案,DreamTech 合成的 3D 數據規模更大,且質量更高。

採用 DiT 架構,3D 領域再次驗證 Scaling Law

技術架構上,Direct3D 採用與 OpenAI SORA 相似的 Diffusion Transformer (DiT)。DiT 架構是當前最先進的 AIGC 大模型架構,結合了 Diffusion 與 Transformer 兩大架構的優勢,滿足可擴展(Scalable)的要求,即提供給模型更多的數據量及更多的大模型參數量,DiT 可達到甚至超越人類的生成質量。目前 DiT 技術的實踐項目包括圖像生成方向上的 Stable Diffusion 3 (Stablility AI,2024 年 2 月)、Hunyuan-DiT (騰訊,2024 年 5 月),視頻生成方向上的 SORA (OpenAI, 2024 年 2 月),DreamTech 的 Direct3D 則是全球首個公開的 3D 內容生成方向上的 DiT 實踐。

DiT 架構符合並多次驗證了 Scaling Law。

在大語言模型上,Scaling Law 已經充分證明了有效性,隨着參數量和訓練數據的增加,大模型的智能程度將極大提高;在圖像生成領域上,從 SD1 的參數量 0.8B 到 SD3 的 8B, Dall-E 3 參數量 12B,都展示了 Scaling Law 的有效性;在視頻生成領域,SORA 相比 Runway、Pika 等,據推測其技術實現上主要是將模型架構換成了 DiT,以及在模型參數量與訓練數據上都提升了一個數量級,展示了震驚世界的生成效果,無論是視頻分辨率、視頻時長還是視頻生成質量都得到了極大提升。

3D 領域也是如此,Direct3D-1B 向行業展示了首個可行的原生 3D-DiT 架構,利用自研的高質量數據合成引擎,增加訓練數據量及增大模型參數量,生成結果穩步提升,未來 3D 生成領域將由 Direct3D (或其衍生架構) 完全取代現有的 LRM 或 SDS 方案。目前,DreamTech 團隊正在穩步推進 Direct3D 的 scale up,計劃年底前推出 15B 參數的 Direct3D-XL,同時將訓練模型的高質量 3D 數據增加 5 倍以上,3D 生成屆時將迎來里程碑時刻。

3D 內容生成質量達到商用級別

隨着 Direct3D 的推出,3D 生成領域大步跨越進入了商用時代。以 3D 打印為例,使用 SDS、LRM 等技術方案生成的模型都會存在如下問題:

模型幾何結構扭曲,容易出現多頭多尾;

模型存在很多尖鋭的毛刺;

表面過度平滑,缺少細節;

mesh 面片數少,精細結構無法保證。

這些問題的存在導致此前各類方案生成的模型無法在 3D 打印機中正常打印,還需要人工進行調整修補。Direct3D 因為採取的是原生 3D 技術路線,訓練集中僅使用 3D 數據,其所生成的 3D 模型質量也更接近原始質量,完美解決了幾何結構、模型精度、表面細節、mesh 面片數量等核心問題。Direct3D 所生成的模型質量已經超出了家用打印機的精度上限,只有更高規格的商用及工業打印機才能充分還原所生成模型的精細度。

此前, SDS、LRM 等技術方案受限於 3D 模型特徵表達形式,一般生成的模型 mesh 面片數都在 5-20 萬左右,且很難再提高,然而在商業使用中,3D 模型的 mesh 面片數量往往需要達到 100-500 萬以上。Direct3D 提出了更精細的 3D 特徵表達範式,使得所生成的模型 mesh 面片數沒有上限,可以達到並超過 1000 萬,滿足各類商業場景需要。

隨着 Direct3D 模型參數量及訓練數據量的增加,3D 生成可以應用到的行業會越來越多,包括萬億級別的遊戲、動漫行業,預計在 2025 年底之前,3D 生成將實現大部分遊戲、動畫、影視建模的替代工作,在各行業大規模投入使用。

Direct3D 實踐

基於 Direct3D 大模型,DreamTech 推出了兩款嚐鮮產品,目前已經開放申請測試。

其一是面向 C 端用户的 Animeit!,Animeit! 可將用户輸入的任意圖片 / 文字對象轉換為二次元風格的高質量 3D 人物形象,並且 3D 人物具備骨骼節點以用於動作綁定,在 Animeit! 上用户可以與個性化的 3D AI 夥伴直接對話並進行動作交互。

Animeit! 所生成的二次元角色精細度極高,臉部輪廓細節清晰可辨,手部細節凸顯、手指粒粒分明,這是此前的 3D 生成技術路線無法達到的質量水平,已可用於二次元社區 MMD 製作。

另一款產品則為面向創作者的 3D 內容創作平台,用户可以像使用 Midjourney 這類平台一樣,通過文本描述在 1 分鐘之內獲得高質量 3D 模型,不需要等待長時間的 refinement;用户也可以僅上傳單張圖片,稍作等待即可獲得高質量且還原精準的 3D 模型。

關於 DreamTech

DreamTech 深耕於 3D AI 技術領域,致力於用創新的產品和服務提升全球 AIGC 創作者及消費者的使用體驗,公司的願景是利用先進的 AI 技術打造與真實世界無縫對接、實時互動的 4D 時空體驗,並通過模擬真實世界的複雜性和多樣性實現通用人工智能 (AGI)。

DreamTech 彙集了全球頂尖的 AI 人才,其創始團隊由英國兩院院士、國家級青年人才以及多位深圳市高層次人才組成。公司的核心成員畢業於牛津大學、香港中文大學、香港科技大學等世界知名學府,並曾在蘋果、騰訊、百度等行業領先企業任職,創始團隊成員曾成功創立多家成為 3D 領域標杆的公司,這些公司後被蘋果、谷歌、博世等業界巨頭收購。