
Meituan's video generation model is here! It is an open-source SOTA right out of the gate

美團推出了名為 LongCat-Video 的開源視頻生成模型,參數為 13.6B,支持文生和圖生視頻,時長可達數分鐘。該模型在生成視頻的真實感和物理理解能力上有顯著提升,表現優於其他開源模型,並與谷歌的閉源模型 Veo3 相媲美。LongCat-Video 採用 MIT 協議,具備 720p、30fps 的視頻生成能力,強調對真實世界的理解。
美團,你是跨界上癮了是吧!(doge)
沒錯,最新開源 SOTA 視頻模型,又是來自這家 “送外賣” 的公司。
模型名為LongCat-Video,參數 13.6B,支持文生/圖生視頻,視頻時長可達數分鐘。

從官方釋出的 demo 來看,模型生成的視頻不僅更加真實自然,而且懂物理的能力又雙叒增強了。
無論是空中滑板:
還是一秒特效變身:
抑或是第一視角下,全程需要保持畫面一致的騎車視頻(時長整整有 4 分多種):
仔細看,視頻的 AI 味兒濃度確實降低不少。
而且從測評成績來看,其表現也相當亮眼——文生視頻能力在開源模型中處於頂尖水平,整體質量優於 PixVerse-V5 和 Wan2.2-T2V-A14B,部分核心維度甚至可與谷歌最新、最強閉源模型 Veo3 媲美。


而且由於採用的是允許商用的MIT 協議,連 Hugging Face 高級主管也用三連問來表示驚歎。
中國團隊竟然發佈了一個 MIT 協議的基礎視頻模型???

以及其長視頻生成能力(穩定輸出 5 分鐘)也被視為,“我們離視頻 AI 的終極形態又更進一步”。

so,一家外賣公司出品的視頻模型究竟如何?來看更多案例。
文生/圖生視頻開源 SOTA,還能像製作連續劇一樣生成長視頻!
整體而言,美團這次發佈並開源的 LongCat-Video 具備以下功能:
- 文生視頻:可生成 720p、30fps 高清視頻,語義理解與視覺呈現能力達開源 SOTA 級別;
- 圖生視頻:能夠保留參考圖像的主體屬性、背景關係與整體風格等;
- 視頻延長:核心差異化能力,可基於多幀條件幀續接視頻內容。
文生視頻方面,從官方提供的案例來看,這個模型尤為強調對真實世界的理解能力。
一眼看去,主頁上一溜的足球、體操、跳舞等視頻:

僅以其中的 “水上芭蕾” 來看,模型面臨的挑戰不可謂不艱難——既需要具備高度的細節捕捉能力,還需要能夠處理複雜的光影效果、環境模擬和動態場景。
而 LongCat-Video 幾乎都考慮到了,整體完成度 be like:
圖生視頻方面,這不雙十一到了,所以各大商家也能拿來做一些更實用的宣傳視頻了:
當然,由於提供了原始參考圖,所以圖生視頻上通常我們更看重模型是否能保持前後一致。
而當給了 LongCat-Video 一張機器人正在工作的圖片後,它直接立馬生成了機器人 “居家辦公” 的日常 vlog。
一會兒拿桌上的小熊、一會兒拿水杯、甚至下班關電腦……不同動作下,桌面及周圍的環境均未發生 “異變”,扛住了一致性挑戰。
當搞定了一致性這個 “老大難” 後,LongCat-Video 的玩法也就更多了。
白天當壁畫,晚上出來打遊戲可還行(誰説不是真·破壁呢?)。
還能製作動畫大電影:
此外,LongCat-Video 最核心的能力還在於視頻延長,它能像製作連續劇一樣生成分鐘級長視頻。
一個視頻搞定後,只需接着續寫提示詞,最終就能生成一個完整情節或片段。
比如下面這個接近半分鐘的視頻,就是通過以下提示詞一步步實現的(中譯版):
1、廚房明亮通風,白色櫥櫃和木質枱面交相輝映。一塊新鮮出爐的麪包放在砧板上,旁邊放着一個玻璃杯和一盒牛奶。一位身着碎花圍裙的女士站在木質枱面旁,熟練地用鋒利的刀切着一塊金黃色的麪包。麪包放在砧板上,她切的時候,麪包屑四處飛濺。
2、鏡頭拉遠,女人放下手中的刀,伸手去拿牛奶盒,然後將其倒入桌上的玻璃杯中。
3、女人放下牛奶盒。
4、女人拿起牛奶杯,抿了一口。
怎麼樣?是不是有拍電影電視劇的感 jio 了~
敲黑板,由於 LongCat-Video 本身就經過視頻連續任務的預訓練,所以它能夠製作長達數分鐘的視頻,而不會出現顏色漂移或質量下降的情況(一般可穩定輸出 5 分鐘級別的長視頻,且無質量損失)。
美團表示,之所以推出 LongCat-Video,核心瞄準的還是世界模型這一前沿領域:
作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型賦予 AI“看見” 世界運行本質的能力。而視頻生成模型有望成為構建世界模型的關鍵路徑——通過視頻生成任務壓縮幾何、語義、物理等多種形式的知識,AI 得以在數字空間中模擬、推演乃至預演真實世界的運行。
而為了構建視頻模型 LongCat-Video,美團這次在技術方面也是進行了一系列創新和突破。
背後技術原理
LongCat-Video 只有13.6B,但集成了文生視頻、圖生視頻和視頻續生三大任務於一體。

具體來説,整個模型以Diffusion Transformer (DiT)為框架設計,其中每個 Transformer 塊都由 3D 自注意力層、交叉注意力層,以及採用 SwiGLU 激活函數的前饋網絡組成。
並使用 AdaLN-Zero 調製機制,將每個 Transformer 塊均集成為專用的調製多層感知機,再在自注意力和交叉注意力模塊中,採用 RMSNorm 歸一化以提升訓練穩定性,另外還對視覺 token 的位置編碼使用 3D RoPE。

然後將所有任務都定義為視頻續生任務,通過條件幀數量進行區分:
- 文本到視頻:0 幀條件。
- 圖像到視頻:1 幀條件。
- 視頻續生:多幀條件。
統一混合輸入後,將無噪聲的條件幀和待去噪的噪聲幀沿着時間軸拼接,結合時序步配置,以實現單模型原生支持多任務。
而為了適配這類輸入,研究團隊還在架構中設計了一種帶鍵值緩存(KVCache)的塊注意力機制,該設計可以確保條件 token 不受噪聲 token 的影響,且後續可以緩存並複用條件 token 的 KV 特徵,提升長視頻生成效率。
其中最矚目的長視頻生成能力,主要通過原生預訓練設計和交互式生成支持兩大核心特性實現。
首先 LongCat-Video 摒棄了傳統的 “先訓練基礎視頻生成能力,再針對長視頻任務微調” 的訓練路徑,而是直接在視頻續生任務上預訓練。
這樣做可以直接從源頭解決長視頻生成中的累積誤差問題,在生成分鐘級視頻的同時,避免色彩漂移和質量下降。
另外 LongCat-Video 還支持交互式長視頻生成,允許用户為不同片段設置獨立指令,進一步擴展了長視頻創作的靈活性。

為了提高視頻生成的推理效率,團隊提出了一種從粗到精的生成範式,先是讓模型生成 480p、15fps 的低分辨率低幀率視頻,再通過三線性插值將分辨率升級至 720p、30fps,同時由一個 LoRA 訓練的精煉專家模型進行細節優化。
再引入塊稀疏注意力,將注意力計算量降至原始的 10% 以下,配合上下文並行的環形塊稀疏注意力,進一步優化高分辨率生成效率。

結合 CFG 蒸餾和一致性模型(CM)蒸餾,將採樣步數從 50 步縮減至 16 步,實現在單 H800 GPU 上,單個 720p、30fps 視頻生成可在分鐘內完成,效率提升超 10 倍。
另外針對視頻生成場景,使用組相對策略優化 (GRPO)算法,提升 GRPO 在視頻生成任務中的收斂速度與生成質量。

在訓練過程中,分別採用三類專用獎勵模型:
- 視覺質量(VQ):結合 HPSv3-general 和 HPSv3-percentile 進行評估。
- 運動質量(MQ):基於 VideoAlign 模型微調,並使用灰度視頻訓練避免色彩偏好。
- 文本 - 視頻對齊度(TA):同樣基於 VideoAlign 模型微調,但保留原始的彩色輸入。
然後進行多獎勵加權融合訓練,避免單一獎勵的過擬合和獎勵欺騙問題,實現視覺、運動、對齊能力的均衡提升。

在完成數據構建和模型訓練後,研究團隊首先對其進行內部基準測試,主要評估文生視頻和圖生視頻性能。
其中文生視頻,包含文本對齊、視覺質量、運動質量、整體質量四個維度。
實驗結果表明,LongCat-Video在整體質量得分中超越 PixVerse-V5 和 Wan2.2-T2V-A14B,視覺質量接近 Wan2.2-T2V-A14B,僅略遜於閉源模型Veo3。
圖生視頻則在此基礎上,新增圖像對齊維度評估,最終結果中 LongCat-Video 的視覺質量得分最高(3.27),説明整體質量具有競爭力,但圖像對齊與運動質量仍有提升空間。

另外研究團隊還進行了VBench 2.0的公開基準測試,LongCat-Video 總得分位列第三(62.11%),僅次於 Veo3(66.72%)和 Vidu Q1(62.7%)。

值得注意的是,LongCat-Video 在常識性維度(運動合理性、物理定律遵循)上處於第一的領先優勢,凸顯出該模型優秀的物理世界建模能力。
One More Thing
而這已經不是這家外賣公司第一次 “不務正業” 了……
從八月底開始,美團龍貓大模型就在不停地發發發,先是端出來了最經典的開源基礎模型LongCat-Flash-Chat。
總參數 560B,可以在僅激活少量參數的前提下,實現性能比肩市面上的主流模型,尤其是在複雜的 Agent 任務中表現突出。
而且現已登陸 API 平台使用~

一個月不到,又上新了LongCat-Flash-Thinking,在邏輯、數學、編碼、Agent 多任務中均達成 SOTA 水平,是國內首個同時具備 “深度思考 + 工具調用” 和 “非形式化 + 形式化” 推理能力的 LLM,可以實現更低成本、更優性能。

隨後又專為語音 LLM 推出了LongCat-Audio-Codec,可以同時對語義和聲學 token 以低幀速率(16.7Hz/60ms)並行提取,實現高效離散化,並能夠在極低的比特率中保持高清晰度。
以及專為複雜現實生活場景(外賣送餐、餐廳點餐、旅遊出行)打造的 Agent 評測基準——VitaBench,可以系統性衡量 Agent 在推理、工具使用和自適應交互方面的能力。(淚目,終於迴歸老本行.jpg)
……
最後再到今天的視頻生成模型,毫無疑問,“跨界” AI 正在成為這家外賣公司的新常態。
本文作者:一水 鷺羽,來源:量子位,原文標題:《美團視頻生成模型來了!一出手就是開源 SOTA》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
