Top funds in Silicon Valley collectively bet! Morgan Stanley provides a detailed analysis of the next frontier of AI

摩根士丹利最新報告表示，大模型的語言紅利正在觸頂，下一場 AI 軍備競賽的戰場是” 世界模型”——讓機器真正理解三維空間、物理規律與時間演化。從 Waymo 數十億英里虛擬路測，到微軟 AI 渲染可玩《Quake II》，應用已不止於機器人，遊戲、影視、設計產業均面臨重塑。

大模型把 “語言” 這條路走到今天，邊界越來越清晰：它們擅長寫、搜、改、編程，但一旦問題落到三維空間、時間演化和物理約束，現成的範式就開始吃力。摩根士丹利把下一段增長押在 “世界模型” 上——讓 AI 學會理解、模擬並在環境裏做決策，應用不只在機器人和自動駕駛，也會重塑遊戲、設計、影視製作等數字內容工業。

據追風交易台，摩根士丹利北美團隊的股票分析師 Adam Jonas 在最新報告中直白寫道：“AI is moving beyond language toward models that understand, simulate and navigate the physical world。” 這句話的潛台詞是：下一輪競爭，不是誰的聊天更像人，而是誰能把現實世界的規律壓縮進一個可用的內部表徵，再把它變成可交互的 “想象引擎”。

報告給出的證據並不靠遠景敍事，而是一些已經發生的工程實踐：Waymo 藉助基於 DeepMind Genie 3 的世界模型做了 “數十億英里” 的虛擬路測；微軟用 Muse 把 1997 年的《Quake II》做成 “全 AI 渲染、可玩” 的版本；Roblox 也公開了用自研世界模型生成沉浸式環境、用自然語言迭代遊戲的研究方向。大廠在做（DeepMind、Meta、微軟、特斯拉、英偉達），新公司也在搶人搶錢。

更值得注意的是，摩根士丹利在這份材料裏把鏡頭對準兩家新鋭：李飛飛的 World Labs 偏 “生成可導航 3D 世界”，楊立昆的 AMI Labs 偏 “學習高效的隱空間表示去做預測與推理”。兩條路線背後，是同一個問題：AI 到底要以什麼形式 “理解世界”，以及這種理解何時能從 demo 變成生產力。

從語言到物理：世界模型要補的，是 LLM 的硬短板

報告把 “物理世界” 描述為一個更難的戰場：受物質、熱力學、流體、光照等規律約束，在不斷變化的三維空間裏運行。LLM 的訓練對象主要是文本及其變體，做白領任務（編碼、搜索、寫作）很強，但對 “下一秒會發生什麼、我做這個動作會造成什麼後果” 這種問題，缺的不是語料，而是能長期保持一致性的環境表徵與推演能力。

因此，世界模型被定義成一種 “內部可用的環境表示”：它不僅要復現眼前看到的，還要能把狀態往前滾動，並在 “動作條件” 改變時給出不同的未來分支——也就是報告反覆使用的比喻：AI 的 “imagination engine”。

世界模型不是一個東西：五條主流路線在並行

摩根士丹利把當前做法粗分成幾類（並強調邊界會逐漸模糊）：

交互式、動作條件世界模型：像 “學出來的遊戲引擎”，環境會隨智能體動作實時變化（例：DeepMind Genie）。
一致性 3D 世界生成器：強調空間幾何一致與可從多視角探索（例：World Labs Marble）。
抽象表示/非生成模型：不追求生成像素級畫面，而是預測更高層的隱空間結構與動態，偏效率與推理（例：Meta V-JEPA、AMI Labs）。
預測型生成世界模型：更像 “預測下一幀/下一狀態”，用於規劃、預測與駕駛推理（例：Wayve GAIA、NVIDIA Cosmos 的 Predict）。
物理約束的模擬數據引擎：把世界模型與仿真/物理引擎、數據管線結合，為機器人訓練產出更 “物理一致” 的合成數據（例：NVIDIA Cosmos 的 Transfer）。

這套劃分有一個現實意義：同樣叫世界模型，有的在追求 “生成一個能逛的世界”，有的在追求 “把世界壓縮成可計算的狀態”，產品形態、算力結構、商業化路徑都不一樣。

先落在遊戲與內容生產：替代引擎很誘人，但沒那麼快

遊戲是報告裏最 “直觀” 的用例：世界模型可以從少量提示生成可交互環境，內容生產速度可能被拉到另一個量級。微軟用 Muse 做出的可玩《Quake II》，就是一個強對照——不再依賴傳統引擎去逐幀渲染，而是模型根據玩家輸入預測每一幀。

但摩根士丹利的視頻遊戲分析師團隊（材料中引用了 Matt Cost 的框架）給出的判斷並不浪漫：長期看有兩種情景——現有巨頭把 AI 塞進工具鏈完成 “適配”，或者被新範式替代/嚴重擾動。替代看起來更簡單，因為今天的模型已經能 “用自然語言生成可玩世界”；

難點在後面：算力速度與成本也許有路可解，但 “meta 系統、延遲” 會更難，而 “確定性（determinism）、記憶、更新” 這類問題，可能在世界模型範式下就是硬骨頭。這意味着短期約束給了老玩家窗口期，長期威脅依舊真實存在。

自動駕駛與機器人更務實：虛擬世界先用來 “補數據” 和 “先想後做”

自動駕駛的抓手更明確：把現實中危險、稀有、昂貴的 “邊緣場景”，搬到虛擬裏成規模地跑。報告提到 Waymo 使用基於 DeepMind Genie 3 的世界模型，進行了 “數十億英里” 的虛擬駕駛測試，用來訓練和驗證系統在罕見邊緣情形下的表現——這類場景在真實道路上要麼難遇到，要麼風險不可控。

機器人端的邏輯也更像工程：世界模型可能解決兩件事——訓練數據量與執行前推理。報告提到有研究顯示：用世界模型生成的數據訓練機器人，效果可以與用真實交互數據訓練的機器人 “相當”。但摩根士丹利也把邊界劃清：短期內，世界模型與仿真數據更可能是現實數據管線的補充，而不是替代。

真正卡人的細節，來自 “接觸與摩擦”：報告舉例強調，外界容易忽略的微小物理量往往最關鍵——手指施加的細微力、執行器新舊狀態差異、表面摩擦與材料屬性的微變，甚至關節的靜摩擦，都可能讓 “仿真到現實” 的遷移出現巨大落差。

最難的是 “長時穩定” 和 “可控”：離可用還有幾道坎

報告把挑戰列得很具體，也很不客氣：

誤差累積與時間漂移：互動越久，物體漂移、幾何形變、物理規則跑偏的概率越高。被認為很先進的 Genie 3，目前也只能支持 “幾分鐘” 的連續交互。
可控性不足：畫面再美，動作空間如果只有基礎移動，產品價值會受限。
多智能體與社會動態：多人/多車/多機器人同時互動，比單相機穿行難得多，DeepMind 也點名這是 Genie 3 的難點之一。
數據規模與多樣性：尤其在機器人領域，真實傳感器數據採集昂貴且慢。
缺少統一基準：長時交互質量怎麼量化，沒有公認標準，進展常靠 demo 與任務測試支撐。

這些約束決定了一個現實節奏：世界模型很可能先在 “容錯高、迭代快” 的數字內容領域擴散，再逐步向需要嚴格物理一致性的行業滲透。

李飛飛的賭注：讓 AI"看懂"三維空間

摩根士丹利把 World Labs 放在 “生成一致性 3D 世界” 的代表位置。公司由李飛飛與團隊在 2023 年創立，2024 年走出隱身；其旗艦產品Marble在 2025 年 11 月公開發布，目標是從文本、圖片、短視頻或粗糙 3D 輸入生成 “持久、可探索” 的三維環境，並支持編輯與擴展。

報告列出的功能更像一套面向創作與生產的工作台：生成後可刪改物體、用 “Chisel” 先搭粗模再上細節、選區外擴生成、把多個世界 Compose 成更大場景、導出到外部 3D 軟件/引擎，以及提供 API 給開發者集成。

它也強調與產業工具鏈的接口：可導出到 Unreal Engine 與 Unity；與 NVIDIA Isaac Sim 等仿真平台對接；還展示了在建築設計、機器人仿真等場景的使用方式。

資本熱度同樣被寫進報告：PitchBook 估算 World Labs 累計融資約 12.9 億美元，2026 年 2 月一輪融資後投後估值約 54 億美元。

楊立昆的另一條路：不渲染畫面，只預測結構

AMI Labs 的故事線更 “研究範式”：公司在 2026 年 3 月走出隱身，由 Yann LeCun 參與創立，路徑偏向 JEPA 框架——不去重建每個像素，而是預測被遮擋/未來部分的潛在表示（latent embeddings），用更抽象的結構學習世界的演化規律。摩根士丹利把它歸入 “抽象表示/非生成模型” 一側，強調其潛在價值在推理、規劃與物理 AI 系統（尤其機器人）。

材料中對 AMI 的具體產品披露很有限，只能列出可能的應用方向：機器人、自動駕駛、視頻理解/分析，以及帶攝像頭的 AR/VR 與智能助手等。融資方面，報告提到 AMI Labs 以超過 10 億美元的種子輪融資亮相，PitchBook 口徑投後估值在 45 億美元以上。

資本和人才已經在聚攏：空間智能的競賽開始 “提速”

這份摩根士丹利材料最重要的信號，可能不是某個模型參數或某次 demo，而是它描述的格局變化：從 DeepMind、Meta、微軟、特斯拉、英偉達到一批新創，世界模型正在變成 “下一階段的共同語言”。它既能解釋為什麼遊戲、影視、設計會出現生產力躍遷，也能解釋為什麼自動駕駛與機器人會把訓練、驗證和規劃越來越多地搬到虛擬世界裏。

世界模型不是一個即插即用的萬能件。報告給出的結論更像路線圖：能跑起來的場景已經出現，真正的難點也擺在枱面上——長時穩定、可控、多智能體、物理細節與評測體系。接下來是誰能把這些硬問題做成工程閉環，才是 “數字到物理” 這段旅程能走多遠的分水嶺。

Top funds in Silicon Valley collectively bet! Morgan Stanley provides a detailed analysis of the next frontier of AI - "World Models"

從語言到物理：世界模型要補的，是 LLM 的硬短板

世界模型不是一個東西：五條主流路線在並行

先落在遊戲與內容生產：替代引擎很誘人，但沒那麼快

自動駕駛與機器人更務實：虛擬世界先用來 “補數據” 和 “先想後做”

最難的是 “長時穩定” 和 “可控”：離可用還有幾道坎

李飛飛的賭注：讓 AI"看懂"三維空間

楊立昆的另一條路：不渲染畫面，只預測結構

資本和人才已經在聚攏：空間智能的競賽開始 “提速”