
Elon Musk's xAI joins the "World Model" competition. Will "visual models" be the next "large language models"?

AI 競賽的下一個戰場已然清晰:從文本世界走向物理世界。在這場名為 “世界模型” 的競賽中,馬斯克旗下 xAI 已攜英偉達專家悄然入局,與谷歌、Meta 等巨頭同台競技。xAI 計劃率先將該技術應用於 AI 遊戲生成,並探索其在機器人系統的應用。谷歌推斷,未來的視頻模型將變得和語言模型一樣智能。
本文作者:龍玥
來源:硬 AI
人工智能領域的戰火正在從大語言模型蔓延至一個更前沿的領域——能夠理解並模擬真實物理世界的 “世界模型”(World Models)。而 xAI 已悄然加入這場競賽,與谷歌和 Meta 等科技巨頭同台競技。
據英國《金融時報》10 月 12 日報道,馬斯克的初創公司 xAI 在今年夏天從芯片巨頭英偉達聘請了人工智能專家,專門從事世界模型的研發。與依賴文本的大語言模型不同,世界模型通過對海量的視頻和機器人數據進行訓練,旨在掌握真實世界的物理規律。
“未來的視頻模型將變得和語言模型一樣智能”,谷歌研究人員在論文中説道。英偉達上月也曾表示,世界模型的潛在市場規模可能接近當前全球經濟的總量。
兵馬先行:xAI 的遊戲 “奇襲” 與機器人野望
為了在這場競賽中佔據一席之地,xAI 正在積極招兵買馬。
公司已聘請了來自英偉達的兩位 AI 研究員 Zeeshan Patel 和 Ethan He,他們在世界模型領域擁有豐富經驗。英偉達憑藉其用於創建和運行模擬的 Omniverse 平台,一直是該技術的領導者。
知情人士透露,xAI 為世界模型規劃的第一個商業化落點是遊戲領域,用於生成可交互的 3D 環境。這一動態迅速引發市場關注,因為它不僅是 xAI 商業化路徑的明確信號,也凸顯了世界模型作為下一代 AI 技術的巨大潛力。
馬斯克本人也在社交平台 X 上確認,xAI 將在 “明年年底前發佈一款出色的 AI 生成遊戲”。長遠來看,這些技術最終可能應用於機器人的人工智能系統。

xAI 的招聘信息也印證了其發展方向。公司正在為其 “omni 團隊” 招聘圖像和視頻生成領域的技術人員,薪資範圍高達 18 萬至 44 萬美元,該團隊致力於 “創造超越文本的神奇 AI 體驗”。
此外,公司還在以時薪 45 至 100 美元招聘 “視頻遊戲導師”,以訓練其 AI 模型 Grok 製作視頻遊戲。
範式轉移:視覺模型的 “GPT 時刻”
xAI 的高調入局,恰逢一個關鍵的行業預判浮出水面:未來的視頻模型將變得和語言模型一樣智能。谷歌最近的一篇論文指出,其視頻模型 Veo 3 正展現出與大語言模型(LLM)相似的 “湧現能力”。
正如 LLM 通過 “下一詞元預測” 的簡單任務,最終學會了數學和創意寫作等額外技能,視頻模型通過 “下一幀預測”,也開始零樣本(zero-shot)地解鎖一系列令人驚訝的能力,例如物體分割、邊緣檢測和模擬工具使用等,而這些都未經專門訓練。

谷歌的研究人員 Jack Clark 在論文中寫道:“我們認為,正如自然語言處理(NLP)從特定任務模型轉向通用模型一樣,機器視覺領域也可能通過視頻模型發生同樣的轉變——一個 ‘視覺領域的 GPT-3 時刻’。”
他們將視頻逐幀生成的過程類比為語言模型中的 “思維鏈”(chain-of-thought),並稱之為 “幀鏈”(chain-of-frames),認為這使得視頻模型能夠跨越時空進行推理。
這一發現意義深遠,它暗示着通過發展更智能的視頻模型,人們或許能夠獲得能力極強的機器人 “代理”(agent)。
前景與現實:高昂的成本與 “願景” 的缺失
儘管前景誘人,但通往世界模型的道路並非坦途。目前,該技術仍面臨巨大的技術挑戰,其中最主要的是為模擬真實世界尋找和處理足夠訓練數據的成本極其高昂。
與此同時,業界也存在對 AI 作用的冷靜審視。熱門遊戲《博德之門 3》的開發商 Larian Studios 的發行主管 Michael Douse 本週在 X 上表示,AI 無法解決遊戲行業的 “大問題”,即 “領導力和願景”。
他補充説,行業需要的不是 “更多由數學方式生產、經過心理學訓練的遊戲循環”,而是對世界更多樣化的表達。這代表了一種普遍的觀點:純粹的技術突破本身,並不能保證創造出能夠真正打動人心的商業產品。
儘管挑戰重重,但 xAI 的入局無疑為世界模型的競賽再添一把火。
AI 的焦點正不可逆轉地從純粹的數字信息處理,轉向對複雜物理現實的模擬與交互。視覺模型是否能復刻大語言模型的輝煌,迎來屬於自己的 “GPT 時刻”,不僅將決定下一代 AI 霸主的歸屬,更可能重塑我們與數字及物理世界的根本關係。
本文來自微信公眾號 “硬 AI”,關注更多 AI 前沿資訊請移步這裏

