ByteDance and KUAISHOU face a crucial showdown

AI 視頻大戰升級。

作者 | 劉寶丹

編輯 | 周智宇

AI 競賽焦點已經開始轉向多模態，字節和快手在 AI 視頻賽道的競爭也日趨激烈。

近日，快手正式發佈可靈 2.0 視頻生成模型及可圖 2.0 圖像生成模型，將視頻及圖像創作的精準度帶上一個新高度。同期，字節 Seed 團隊正式發佈 Seedream 3.0 技術報告，據第三方榜單 Artificial Analysis，Seedream 3.0 綜合性能已追平文生圖 SOTA 模型 GPT-4o，進入全球第一梯隊。

作為短視頻平台，字節和快手被認為是 AI 多模態領域的有力競爭者。經過一年多的技術追趕，雙方在 AI 視頻生成領域都取得了不錯的進展。

根據 AI 產品榜 3 月數據，在全球 AI 產品增速榜（僅 APP）上，即夢 AI 以 173.57% 的月活增速位居第 5，是增速最快的 AI 視頻應用，其月活規模約 2037 萬，而可靈 AI 的增速僅為 36.44%，排名第 14。根據快手公佈的數據，截至目前，可靈 AI 全球用户規模突破 2200 萬。

不過，AI 視頻生成領域尚未湧現類似 DeepSeek 在大型語言模型（LLM）領域的標杆性產品。一位業內人士對華爾街見聞表示，當前，AI 視頻生成賽道仍處於 “技術突破期”，這也意味着，字節和快手的競爭仍處於早期階段。

過去十年，快手和抖音相繼崛起，共同開創了中國的短視頻時代。如今，AI 時代加速到來，這一次，快手和字節誰的勝算更大一點？

追趕

AI 視頻生成領域還處於產品應用爆發前的階段，業內玩家都在試圖通過持續的技術迭代，來實現產品的不斷破圈。

進入 2025 年，快手和字節都開始推出重大技術迭代成果。

4 月 15 日，快手正式發佈可靈 AI 2.0 視頻生成模型及可圖 2.0 圖像生成模型。可靈 AI 2.0 的最大亮點在於以技術革新重新定義 AI 視頻生成標準：從 “能生成” 到 “精準生成”，從 “工具輔助” 到 “創意夥伴”。

發佈會上，快手發佈了 AI 視頻生成的全新交互理念 Multi-modal Visual Language（MVL），MVL 由 TXT（Pure Text，語義骨架）和 MMW（Multi-modal-document as a Word，多模態描述子）組成，能從視頻生成設定的基礎方向以及精細控制這兩個層面，精準實現 AI 創作者們的創意表達。

基於 MVL，快手發佈了全新的可靈 AI 2.0 大師版，它全面升級視頻及圖像創作可控生成與編輯能力，上線全新的多模態視頻編輯功能，支持二次編輯和處理。

當前，圖生視頻約佔到可靈 AI 視頻創作量的 85%，快手發佈的可圖 2.0 擁有多項核心優勢，比如，強大的複雜語義理解能力、電影級的畫面質感等。快手副總裁、可靈 AI 負責人張迪介紹，可圖 2.0 文生圖能力迎來全面升級，模型出圖創意和想象力實現大幅躍升。

在快手召開發佈會的次日，字節旋即披露了其文生圖模型 Seedream 3.0 的技術白皮書。

4 月 16 日，字節發佈 Seedream 3.0 技術報告，距離字節公佈 Seedream 2.0 技術報告僅過去一個月有餘。Seedream 3.0 的最大亮點包括原生 2K 直出，而且時間僅用 3 秒，大幅提升創作效率。Seedream 3.0 目前已在即夢 AI 等平台全量開放。

華爾街見聞獲悉，Seedream 3.0 的研發始於 2024 年末，通過調研設計師等羣體的實際需求，Seedream 團隊將圖文匹配、美感等行業共識性指標納入攻堅方向，同時，也將挑戰 2K 高清直出、快速圖片生成等業界難題作為核心目標。

無論是可靈 AI 的二次編輯功能，還是即夢 AI 的原生 2K 畫質，都是通往產業級應用的必經之路。事實上，也只有達到產業級應用狀態，AI 視頻生成的價值也才有望體現。

如此緊追不捨的競爭態勢背後，快手和字節過去一年持續對 AI 視頻生成賽道進行佈局。

2024 年初，Open AI 通過 Sora 正式入局視頻生成領域，引發全世界關注。彼時，快手在攻克文生視頻的關鍵技術，4 個月後，快手就發佈了視頻生成大模型可靈，成為國內首個對標 Sora 的產品。

字節 2023 年才開始在內部會議上討論 GPT，但追趕速度較快，去年底，字節的視頻生成模型和產品正式推向了市場。

去年 9 月，字節一舉發布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed 兩款大模型，正式宣告進軍 AI 視頻生成。11 月，原抖音集團 CEO 張楠轉戰剪映近一年後正式亮相，即夢 AI 推出了 “一句話 P 圖” 等能力，大幅提升了圖片中文字生成的準確率。

即夢 AI 在字節內部的重要性顯著提升。華爾街見聞獲悉，即夢 AI 所代表的視覺化產品被看好，字節試圖將即夢打造成 AI 時代的 “抖音”。2 月，原零一萬物 PopAI 產品負責人曹大鵬加入即夢 AI，負責移動端產品。他此前用一年時間將 PopAI 做到了千萬用户，且投資回報率（ROI）接近收支平衡點，是一名得力干將。

如今，快手和字節再次交戰，他們都在試圖將模型技術帶入生產級賽道。

押注

對於 AI 視頻生成賽道，字節和快手無疑是國內反應最快速的科技公司。

原因也很容易理解，他們都依靠短視頻起家，天然更懂視頻創作。更重要的是，字節和快手都有 FOMO（Fear of Missing Out）心理。當年，快手和字節因為降低了普通人制作視頻的門檻，從而構建了視頻生態，如今，AI 會進一步降低視頻生成門檻，更具顛覆性。

本質上，字節和快手想要在 AI 時代複製出一個新的 “抖音” 和 “快手”，從而成功跨過新一輪 AI 技術週期。

就當下而言，字節和快手對 AI 視頻賽道的策略各有側重。

對快手來説，AI 是破解公司增長曲線難題的最大抓手。除了 C 端訂閲用户，可靈 AI 也面向 B 端商家提供 API 接入等服務，可靈 AI 已與包括小米、亞馬遜雲科技等企業建立了合作關係。蓋坤披露，來自世界各地的超 1.5 萬開發者，已將可靈 AI 的 API 應用於不同的行業場景中。

3 月 25 日，快手科技創始人兼首席執行官程一笑在電話會上透露，自商業化以來截至 2025 年 2 月底，可靈 AI 的累計營業收入超 1 億元人民幣。他表示，快手將會在 ROI 可控的前提下，不斷擴大可靈 AI 的用户宣傳和品牌影響力。“我們有信心在 2025 年實現可靈 AI 營收規模的跨越式增長。”

對字節來説，即夢 AI 是整個 AI 戰略的核心版圖，也是公司通往 AGI 所必須攻克的難題。

年初，字節豆包大模型團隊已在內部組建 AGI 長期研究團隊，代號 “Seed Edge”，鼓勵項目成員探索更長週期、不確定的和大膽的 AGI 研究課題，Seed Edge 的目標是探索 AGI 的新方法，鼓勵跨模態、跨團隊合作。

去年底，張楠曾表示，抖音，是一個 “真實世界” 的相機，藉助 GenAI 技術，即夢希望成為想象力世界的相機，記錄每個人的奇思妙想，幫助每個有想法的人輕鬆表達、自由創作。

隨着快手發佈全新 2.0 模型，業內都在期待字節的下一步動作，尤其是豆包視頻生成模型 1.5 版何時會推出，雙方之間的技術追趕還是持續進行。

不過，對於 AI 視頻生成賽道的前景，目前仍處於探索階段。

百億私募和諧匯 TMT 軟件組凌晨對華爾街見聞表示，產業界對 Sora 為代表的 AI 視頻生成產品分歧點主要在於，如果把 Sora 當成 AIGC 的視頻生產工具，它的價值量不會特別大，可能就顛覆一下創意軟件這些工具，如果 Sora 是一個通用的視頻武器的話，它的想象力很大，比如，跟機器人進行結合。

近日，生數科技產品副總裁、Vidu 產品負責人廖謙表示，當多模態可以做到實時可控、可交互的時候，它可以是完全個性化的，屆時一定會誕生出帶來新體驗的內容平台，這個技術將應用在社交、遊戲、VR、AR 等多個領域，會對所有的行業帶來非常深遠的影響。

整體來看，相較於大語言模型，AI 視頻生成賽道面臨的挑戰會更大，無論是 Scaling law 還是算力需求消耗，乃至商業模式的探索，複雜程度都在上升。

這注定是一個難度更高的賽道，字節和快手雖然具備視頻平台基因，但要想跑到最後，還需要持續創新，才有可能在 Veo2 、Runway、Pika 等一眾全球競爭對手中佔有一席之地。