
Top funds in Silicon Valley collectively bet! Morgan Stanley provides a detailed analysis of the next frontier of AI - "World Models"
摩根士丹利最新報告表示,大模型的語言紅利正在觸頂,下一場 AI 軍備競賽的戰場是” 世界模型”——讓機器真正理解三維空間、物理規律與時間演化。從 Waymo 數十億英里虛擬路測,到微軟 AI 渲染可玩《Quake II》,應用已不止於機器人,遊戲、影視、設計產業均面臨重塑。
大模型把 “語言” 這條路走到今天,邊界越來越清晰:它們擅長寫、搜、改、編程,但一旦問題落到三維空間、時間演化和物理約束,現成的範式就開始吃力。摩根士丹利把下一段增長押在 “世界模型” 上——讓 AI 學會理解、模擬並在環境裏做決策,應用不只在機器人和自動駕駛,也會重塑遊戲、設計、影視製作等數字內容工業。
據追風交易台,摩根士丹利北美團隊的股票分析師 Adam Jonas 在最新報告中直白寫道:“AI is moving beyond language toward models that understand, simulate and navigate the physical world。” 這句話的潛台詞是:下一輪競爭,不是誰的聊天更像人,而是誰能把現實世界的規律壓縮進一個可用的內部表徵,再把它變成可交互的 “想象引擎”。
報告給出的證據並不靠遠景敍事,而是一些已經發生的工程實踐:Waymo 藉助基於 DeepMind Genie 3 的世界模型做了 “數十億英里” 的虛擬路測;微軟用 Muse 把 1997 年的《Quake II》做成 “全 AI 渲染、可玩” 的版本;Roblox 也公開了用自研世界模型生成沉浸式環境、用自然語言迭代遊戲的研究方向。大廠在做(DeepMind、Meta、微軟、特斯拉、英偉達),新公司也在搶人搶錢。
更值得注意的是,摩根士丹利在這份材料裏把鏡頭對準兩家新鋭:李飛飛的 World Labs 偏 “生成可導航 3D 世界”,楊立昆的 AMI Labs 偏 “學習高效的隱空間表示去做預測與推理”。兩條路線背後,是同一個問題:AI 到底要以什麼形式 “理解世界”,以及這種理解何時能從 demo 變成生產力。
從語言到物理:世界模型要補的,是 LLM 的硬短板
報告把 “物理世界” 描述為一個更難的戰場:受物質、熱力學、流體、光照等規律約束,在不斷變化的三維空間裏運行。LLM 的訓練對象主要是文本及其變體,做白領任務(編碼、搜索、寫作)很強,但對 “下一秒會發生什麼、我做這個動作會造成什麼後果” 這種問題,缺的不是語料,而是能長期保持一致性的環境表徵與推演能力。
因此,世界模型被定義成一種 “內部可用的環境表示”:它不僅要復現眼前看到的,還要能把狀態往前滾動,並在 “動作條件” 改變時給出不同的未來分支——也就是報告反覆使用的比喻:AI 的 “imagination engine”。
世界模型不是一個東西:五條主流路線在並行
摩根士丹利把當前做法粗分成幾類(並強調邊界會逐漸模糊):
-
交互式、動作條件世界模型:像 “學出來的遊戲引擎”,環境會隨智能體動作實時變化(例:DeepMind Genie)。
-
一致性 3D 世界生成器:強調空間幾何一致與可從多視角探索(例:World Labs Marble)。
-
抽象表示/非生成模型:不追求生成像素級畫面,而是預測更高層的隱空間結構與動態,偏效率與推理(例:Meta V-JEPA、AMI Labs)。
-
預測型生成世界模型:更像 “預測下一幀/下一狀態”,用於規劃、預測與駕駛推理(例:Wayve GAIA、NVIDIA Cosmos 的 Predict)。
-
物理約束的模擬數據引擎:把世界模型與仿真/物理引擎、數據管線結合,為機器人訓練產出更 “物理一致” 的合成數據(例:NVIDIA Cosmos 的 Transfer)。

這套劃分有一個現實意義:同樣叫世界模型,有的在追求 “生成一個能逛的世界”,有的在追求 “把世界壓縮成可計算的狀態”,產品形態、算力結構、商業化路徑都不一樣。
先落在遊戲與內容生產:替代引擎很誘人,但沒那麼快
遊戲是報告裏最 “直觀” 的用例:世界模型可以從少量提示生成可交互環境,內容生產速度可能被拉到另一個量級。微軟用 Muse 做出的可玩《Quake II》,就是一個強對照——不再依賴傳統引擎去逐幀渲染,而是模型根據玩家輸入預測每一幀。
但摩根士丹利的視頻遊戲分析師團隊(材料中引用了 Matt Cost 的框架)給出的判斷並不浪漫:長期看有兩種情景——現有巨頭把 AI 塞進工具鏈完成 “適配”,或者被新範式替代/嚴重擾動。替代看起來更簡單,因為今天的模型已經能 “用自然語言生成可玩世界”;
難點在後面:算力速度與成本也許有路可解,但 “meta 系統、延遲” 會更難,而 “確定性(determinism)、記憶、更新” 這類問題,可能在世界模型範式下就是硬骨頭。這意味着短期約束給了老玩家窗口期,長期威脅依舊真實存在。
自動駕駛與機器人更務實:虛擬世界先用來 “補數據” 和 “先想後做”
自動駕駛的抓手更明確:把現實中危險、稀有、昂貴的 “邊緣場景”,搬到虛擬裏成規模地跑。報告提到 Waymo 使用基於 DeepMind Genie 3 的世界模型,進行了 “數十億英里” 的虛擬駕駛測試,用來訓練和驗證系統在罕見邊緣情形下的表現——這類場景在真實道路上要麼難遇到,要麼風險不可控。
機器人端的邏輯也更像工程:世界模型可能解決兩件事——訓練數據量與執行前推理。報告提到有研究顯示:用世界模型生成的數據訓練機器人,效果可以與用真實交互數據訓練的機器人 “相當”。但摩根士丹利也把邊界劃清:短期內,世界模型與仿真數據更可能是現實數據管線的補充,而不是替代。

真正卡人的細節,來自 “接觸與摩擦”:報告舉例強調,外界容易忽略的微小物理量往往最關鍵——手指施加的細微力、執行器新舊狀態差異、表面摩擦與材料屬性的微變,甚至關節的靜摩擦,都可能讓 “仿真到現實” 的遷移出現巨大落差。
最難的是 “長時穩定” 和 “可控”:離可用還有幾道坎
報告把挑戰列得很具體,也很不客氣:
-
誤差累積與時間漂移:互動越久,物體漂移、幾何形變、物理規則跑偏的概率越高。被認為很先進的 Genie 3,目前也只能支持 “幾分鐘” 的連續交互。
-
可控性不足:畫面再美,動作空間如果只有基礎移動,產品價值會受限。
-
多智能體與社會動態:多人/多車/多機器人同時互動,比單相機穿行難得多,DeepMind 也點名這是 Genie 3 的難點之一。
-
數據規模與多樣性:尤其在機器人領域,真實傳感器數據採集昂貴且慢。
-
缺少統一基準:長時交互質量怎麼量化,沒有公認標準,進展常靠 demo 與任務測試支撐。
這些約束決定了一個現實節奏:世界模型很可能先在 “容錯高、迭代快” 的數字內容領域擴散,再逐步向需要嚴格物理一致性的行業滲透。
李飛飛的賭注:讓 AI"看懂"三維空間
摩根士丹利把 World Labs 放在 “生成一致性 3D 世界” 的代表位置。公司由李飛飛與團隊在 2023 年創立,2024 年走出隱身;其旗艦產品Marble在 2025 年 11 月公開發布,目標是從文本、圖片、短視頻或粗糙 3D 輸入生成 “持久、可探索” 的三維環境,並支持編輯與擴展。
報告列出的功能更像一套面向創作與生產的工作台:生成後可刪改物體、用 “Chisel” 先搭粗模再上細節、選區外擴生成、把多個世界 Compose 成更大場景、導出到外部 3D 軟件/引擎,以及提供 API 給開發者集成。
它也強調與產業工具鏈的接口:可導出到 Unreal Engine 與 Unity;與 NVIDIA Isaac Sim 等仿真平台對接;還展示了在建築設計、機器人仿真等場景的使用方式。
資本熱度同樣被寫進報告:PitchBook 估算 World Labs 累計融資約 12.9 億美元,2026 年 2 月一輪融資後投後估值約 54 億美元。
楊立昆的另一條路:不渲染畫面,只預測結構
AMI Labs 的故事線更 “研究範式”:公司在 2026 年 3 月走出隱身,由 Yann LeCun 參與創立,路徑偏向 JEPA 框架——不去重建每個像素,而是預測被遮擋/未來部分的潛在表示(latent embeddings),用更抽象的結構學習世界的演化規律。摩根士丹利把它歸入 “抽象表示/非生成模型” 一側,強調其潛在價值在推理、規劃與物理 AI 系統(尤其機器人)。
材料中對 AMI 的具體產品披露很有限,只能列出可能的應用方向:機器人、自動駕駛、視頻理解/分析,以及帶攝像頭的 AR/VR 與智能助手等。融資方面,報告提到 AMI Labs 以超過 10 億美元的種子輪融資亮相,PitchBook 口徑投後估值在 45 億美元以上。
資本和人才已經在聚攏:空間智能的競賽開始 “提速”
這份摩根士丹利材料最重要的信號,可能不是某個模型參數或某次 demo,而是它描述的格局變化:從 DeepMind、Meta、微軟、特斯拉、英偉達到一批新創,世界模型正在變成 “下一階段的共同語言”。它既能解釋為什麼遊戲、影視、設計會出現生產力躍遷,也能解釋為什麼自動駕駛與機器人會把訓練、驗證和規劃越來越多地搬到虛擬世界裏。
世界模型不是一個即插即用的萬能件。報告給出的結論更像路線圖:能跑起來的場景已經出現,真正的難點也擺在枱面上——長時穩定、可控、多智能體、物理細節與評測體系。接下來是誰能把這些硬問題做成工程閉環,才是 “數字到物理” 這段旅程能走多遠的分水嶺。
