
吐槽完 Sora,Google 自己做的 “基礎世界模型” 來了

Google 的 DeepMind 推出了人工智能模型 “Genie”,它可以生成交互式視頻遊戲的 AI。用户可以通過 Genie 將圖像、照片、草圖或想法轉換成可互動、可控制動作的虛擬世界。團隊稱其為一種全新的 “生成式交互環境”,並認為它是真正的 “基礎世界模型”。Genie 可以生成無限可玩的世界,並且不僅可以操控虛擬物體,還可以根據孩子們的繪畫進行創造。該模型經過 20 萬小時的視頻訓練,能夠學習控制而無需行動標籤。
曾通過 Gemini 1.5 Pro 指出 Sora 生成視頻不合理,質疑它擔不起 “世界模型” 稱號的 Google,G 字輩模型喜添新成員。
昨天,Google DeepMind 推出人工智能模型 “Genie”,一個能夠生成交互式視頻遊戲的 AI。它可以根據用户提示,將合成圖像、真實照片、手繪草圖或想法轉換成無盡多樣的,可互動、可控制動作的虛擬世界。
Google 認為,現在市面上許多優秀模型都能帶來新穎豐富的內容。但如果給定一個來自互聯網的大量視頻語料庫,不僅能訓練模型生成圖像或視頻,還可以創造完整的互動體驗呢?
團隊將其概括為一種全新 GenAI 範式:“生成式交互環境”,並稱由於 Genie 實現了人們與想象世界的自由互動,本質上它才是真正的 “基礎世界模型”。
一鍵生成無限可玩世界
在成果演示中,研究人員將 Imagen2 生成的圖像作為起始幀,通過 Genie 賦予生命:
不僅如此,真實世界中的物體也可以自由操控:
甚至小朋友充滿童真的草圖,也變成了想象力無限的遊戲:
Genie 為生成和步入虛擬世界開啓了更多新的方式,也能夠啓迪更廣泛的內容創作者。DeepMind 高級研究顧問 Jeff Clune 在 X 興奮地分享道:
“這裏實現的一個驚人之處是,任何人包括孩子們都可以繪製一個世界,然後進入其中探索它。這有多酷啊?我們用我孩子的畫作測試了 Genie。他們畫了兩隻鷹,然後就可以操控着鷹到處飛。簡直魔法!”
20 萬小時視頻訓練,無需行動標籤即可學習控制
在《一千零一夜》裏,僅需摩擦神燈,精靈就會出來為人們實現願望。而喚醒 AI 世界裏的 Genie,首先必須把知識和能力填充進燈裏。
項目負責人 Tim Rocktäschel 在 X 上寫道,與 “inductive biases(歸納偏見)” 不同,團隊專注於規模,使用了一個包含超過 20 萬小時的 2D 平台遊戲視頻數據集,來訓練這個 110 億參數的世界模型。
作為首個從未標記的互聯網視頻中以無監督方式訓練的生成式交互環境, Genie 學會了控制角色的各種潛在動作,並且保持一致性。
實現這種精細控制是一個挑戰,也正是 Genie 的獨特之處。因為互聯網視頻通常沒有關於哪個動作正在執行,甚至哪個圖像部分應該被控制的標籤。但 Genie 卻可以確定誰是主角,並使用户能夠在生成的世界中逐幀控制該角色。
並且,Genie 通過學習產生的這個既豐富多樣又一致性強的潛在動作空間,對於人類來説是可解釋的。換句話説,即使是未經訓練的用户,在與 Genie 生成的遊戲世界互動幾次之後,也能自然理解並做出向左、向右或跳躍等常見動作,形成多樣化的運動軌跡。
項目組也解釋了 Genie 模型背後的三個關鍵組件:
•一個潛在動作模型(LAM),用於推斷每對幀之間的潛在動作。
•一個視頻分詞器(Video tokenizer),具有時間感知能力,與 OpenAI 在 Sora 中的 “patches” 概念類似,能將原始視頻壓縮為離散令牌。
•一個動力學模型(Dynamics model),能夠在給定潛在動作和過去幀令牌的條件下,預測視頻下一幀。
整個運行過程如上圖所示:將幀視頻作為輸入,通過視頻分詞器將它們轉換成離散的令牌,並由潛在動作模型在每幀之間推斷潛在動作。之後這兩者都傳遞給動力學模型,以迭代方式生成下一幀的預測。
關於 “世界模型” 的較勁
在整個 Genie 的介紹中,“動作” 成了出現頻率最高的詞彙。這也正是 Google 對於 “世界模型” 的理解。
這個近期被 OpenAI 的 Sora 點燃的課題曾引發一場業界大辯論。Meta 首席科學家 Yann LeCun 就首當其衝質疑了 Sora 的技術路徑。他認為,僅從語言提示生成看起來逼真的視頻,並不意味着系統真正理解了物理世界,“內容生成” 實則與世界模型中進行的因果預測非常不同。
Tim Rocktäschel 此處轉發表示贊同,先是肯定 Sora 在視覺效果上確實令人印象深刻。接着表示 “正如 LeCun 所説,一個世界模型需要動作”,Genie 才是那個可以控制動作的世界模型。
曾表揚 Sora 是一個 “數據驅動的物理引擎”,一個 “可學習的模擬器或世界模型” 的英偉達高級研究科學家 Jim Fan,也再次開啓誇誇模式:
“Tim 是我所知道的最有想象力的研究者之一,而 Genie 是他最具想象力的作品。不同於 Sora,Genie 實際上是一個以推斷合適動作為驅動的世界模型。
2024 年也將是基礎世界模型的一年!”
怎麼條條大路通 AGI?
Google 還進一步表示,“Genie 有朝一日會成為訓練多任務智能體的基礎世界模型,是生成式虛擬世界的未來”。
以往許多成果已經表明,遊戲環境可以作為開發 AI Agent 的有效試驗場。雖然目前的 Genie 只是基於遊戲數據訓練的,但它是一種通用方法。不僅限於二維環境或應用程序,還適用於多種類型的數據和場景,而無需任何額外專業知識。
為證明這一點,團隊專門拿一些沒有動作標籤的機器人視頻訓練了一個 25 億參數的 Genie 模型。結果它不僅學會了機器人手臂的控制,還學會了各種物體的互動和薯片包這樣可變形物體的物理屬性。
由此看出,Genie 能夠從機器人視頻數據創建一個動作模擬器。換句話説,就算它沒有被明確教導那些動作是什麼,也能夠看視頻學會複製和預測各種動作。
Genie 團隊認為,世界模型應該是一個能夠理解和與環境交互的系統,這種交互不是預先編程的,也不限於特定任務。Genie 的核心是利用未標記視頻數據進行無監督學習,並創建 “生成式互動環境”,正是為實現 AGI 而邁出的重要一步。
當然,Genie 還沒有發佈日期,目前只是作為一個研究項目,是否會成為真正的產品也還不清楚。除此以外,Tim 也開誠佈公地説,“Genie 運行速度是每秒 1 幀,因此現在距離實時可玩還有很遠的距離。” 難怪乎有網友形容,這看起來像個來自 80 年代的 “馬里奧 GPT”。
不過多數人還是報以肯定,認為短期到中期它將革新生成式遊戲,長期則有可能解鎖訓練更多領域的 AI 智能體。項目團隊也非常振奮,DeepMind 研究總監 Edward Grefenstette 激動感慨道:
“今天的 Genie 可能看起來只是像素塊的跳躍和奔跑,但它實現了可控視頻生成從 0 到 1 的巨大飛躍。幾年以後,面對更逼真的可控視頻生成,我們也許會把這看作是 ‘威爾·史密斯吃意大利麪’ 時刻。”
畢竟,“This is the worst it will ever be.”
本文作者:張瀟雪,來源:硅星 GenAI,原文標題:《吐槽完 Sora,Google 自己做的 “基礎世界模型” 來了》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
