Sora's rival! Meta's most powerful immersive AI media model is here, a 300 billion parameter model supporting Movie Gen videos

Meta 稱，Movie Gen 是 “最先進、沉浸式效果最佳的故事講述模型套件”，基於授權和公開可用數據訓練，以每秒 16 幀的速度文生視頻最長 16 秒；130 億參數模型支持音頻生成；人工評測時，Movie Gen 的視頻生成能力對 Sora 淨勝率 8.2。Meta 未明確何時發佈，扎克伯格稱明年上線 Instagram。

本文作者：李丹

來源：硬 AI

OpenAI 的 Sora 迎來勁敵，Meta 推出號稱最先進的媒體基礎模型 Movie Gen。

Meta 稱，Movie Gen 是公司 “針對媒體的突破性生成式 AI 研究”，它囊括了圖像、視頻和音頻等模態，用户只需輸入文本，就可以製作自定義的視頻和聲音、編輯現有視頻，以及將個人圖像轉換為獨特的視頻。Movie Gen 執行這些任務的表現在人類評估中優於業內類似模型。

Meta 介紹，Movie Gen 是 “最先進、沉浸式效果最佳的故事講述模型套件”，綜合了公司第一波生成式 AI 媒體研究的 Make-A-Scene 系列模型，即可創建圖像、音頻、視頻和 3D 動畫的模型，以及隨着擴散模型出現而針對 Llama Image 基礎模型進行的第二波研究模型，即可實現更高質量圖像和視頻生成以及圖像編輯的模型。

文生視頻最長 16 秒 130 億參數音頻生成模型人工評測視頻生成對 Sora 淨勝率 8.2

Meta 概括，Movie Gen 具有四種功能：視頻生成、個性化視頻生成、精確視頻編輯、音頻生成。

對於視頻生成，Meta 介紹，用户只要提供一個文本的提示詞，Movie Gen 就可以利用針對文本轉圖像和文本轉視頻進行了優化的聯合模型，創建高清的高質量圖像和視頻。Movie Gen 的視頻模型有 300 億參數，這個轉換模型能以每秒 16 幀的速度生成最長 16 秒的視頻。

Meta 稱，發現這些模型可以推理物體的運動、拍攝主體與物體之間的相互作用，以及相機的運動，並且可以學習各種概念瞭解有哪些合理的運動，因此，它們成為同類中最先進的模型。在介紹該功能時，Meta 展示了多個 10 秒長度的視頻短片，包括一隻像萌翻網絡的彈跳豬 “Moo Deng” 那樣的小河馬游來游去。

華爾街見聞注意到，單從生成視頻的最大長度看，Movie Gen 還不敵今年 2 月 OpenAI 發佈的 Sora。Sora 令業界震撼的一點是，可以創建長達 60 秒的文生視頻。不過，相比 Meta 去年 11 月官宣的視頻模型 Emu Video，Movie Gen 確實進步不小。Emu Video 只能以每秒 16 幀的速度生成最長 4 秒的視頻。

除了直接文生視頻，Movie Gen 還有出色的個性化視頻製作能力。Meta 介紹，其擴展了前述基礎模型，支持生成個性化視頻。用户可以提供某個人的圖像，配合文本的提示詞，讓 Move Gen 生成的視頻包含參考圖像中的人物，以及符合文本提示的視覺細節。Meta 稱，在創建保留人類身份和動作的個性化視頻方面，其模型取得了最先進的成果。

Meta 展示的一個視頻顯示，用户可以提供一個女孩的照片，輸入文字 “一名身穿粉色馬甲的女 DJ 播放唱片，她身旁有一隻獵豹”，然後就生成了以照片中女孩為形象的 DJ 打碟，以及一隻獵豹陪伴。

在精確視頻編輯方面，Meta 稱，Movie Gen 採用了同一基礎模型的編輯變體模型，在用户輸入視頻和文本提示詞後，精確執行任務，生成所需的輸出。它將視頻生成與高級圖像編輯相結合，執行局部編輯，例如添加、刪除或替換元素，以及諸如背景或樣式修改的全局更改。與需要專業技能或缺乏生成精確度的傳統工具不同，Movie Gen 保留了原始內容，僅針對相關像素編輯。

Meta 提供的示例之一是，用户輸入，讓企鵝穿上有英國女王維多利亞在位時期服飾風格的服裝，Movie Gen 生成的企鵝穿上了帶蕾絲的紅色女裙。

對於音頻生成，Meta 稱，訓練了一個 130 億參數的音頻生成模型，該模型可以接受視頻和可選的文本提示詞，生成長達 45 秒的高質量高保真音頻，包括環境音、擬聲音效（Foley）和樂器背景音樂，所有這些都與視頻內容同步。此外，Meta 引入了一種音頻擴展技術，可以為任意長度的視頻生成連貫的音頻，在音頻質量、視頻到音頻對齊和文本到音頻對齊方面總體上實現了最先進的性能。

Meta 提供的一個例子是，生成在吉他音樂的伴奏下，全地形車（ATV）引擎轟鳴加速的聲音，還有一個例子是，管絃樂聲中有樹葉沙沙作響和樹枝折斷的聲音。

Meta 還展示了針對以上四種能力進行的 A/B 對比測試人工評估結果，下圖顯示的淨正值勝率代表，相比 Sora 等競品模型，人類評估者更青睞 Movie Gen 模型生成的結果。在直接生成視頻這個功能方面，Movie Gen 相比 Sora 的淨勝率達到 8.2。

基於授權和公開可用數據訓練未明確何時發佈扎克伯格稱明年上線 Instagram

Movie Gen 是基於哪些信息進行訓練的？Meta 的聲明沒有説明具體細節，只是説：“我們基於授權和公開可用的數據集對這些模型進行了訓練。”

有評論指出，對生成式 AI 工具而言，訓練數據的來源以及從網上抓取哪些數據合理仍然是有爭議的問題，而且公眾很少知道使用哪些文本、視頻或音頻片段創建了任何大模型。

還有評論稱，Meta 説訓練用的數據集是 “專有/商業敏感” 的，未提供細節，那麼只能猜測，數據包括很多 Instagram 和 Facebook 平台的視頻，加上一些 Meta 合作伙伴的內容，以及其他很多未得到充分保護的內容、也就是所謂的 “公開可用” 內容。

對於發佈時間，Meta 本週五並未明確 Movie Gen 何時面向大眾推出，只是含糊地説 “可能未來發布”。今年 2 月 OpenAI 官宣 Sora 後迄今還未真正向公眾開放使用，也並未透露任何計劃將要發佈的日期。

不過，Meta CEO 扎克伯格稱，Movie Gen 明年會上線 Meta 旗下的社交媒體 Instagram。他在個人 Instagram 賬號發佈了一段 Movie Gen 生成的視頻，顯示他在用腿部推舉機，隨着他開始鍛鍊，背景發生了變化。先是顯示，他在一家霓虹燈照耀的未來風格健身房鍛鍊，然後變為，他穿着角鬥士盔甲鍛鍊，接着變為他推動一台燃燒的純金機器，最後變為，他用腿部推舉一盒雞塊，周圍是一片薯條。

扎克伯格配上文字稱，Meta 新的 MovieGen AI 模型可以製作和編輯視頻，每天都是煉腿的日子。該模型將於明年登陸 Instagram。

在社交媒體 X，Meta 官宣並演示 Movie Gen 的帖子下面，一些點贊高的評論顯示，網友已經在催促 Meta 正式發佈該模型，有網友問，不知道大家有沒有機會來試試它。

Sora's rival! Meta's most powerful immersive AI media model is here, a 300 billion parameter model supporting Movie Gen videos

文生視頻最長 16 秒 130 億參數音頻生成模型 人工評測視頻生成對 Sora 淨勝率 8.2

基於授權和公開可用數據訓練 未明確何時發佈 扎克伯格稱明年上線 Instagram

文生視頻最長 16 秒 130 億參數音頻生成模型人工評測視頻生成對 Sora 淨勝率 8.2

基於授權和公開可用數據訓練未明確何時發佈扎克伯格稱明年上線 Instagram