Differentiation among major companies in the multi-modal "Deepseek Moment": ByteDance focuses on "efficiency," Kuaishou targets "professionalism," and Alibaba concentrates on "e-commerce"!

華創證券表示，年初國產多模態模型密集更新，可靈 3.0 與 Seedance 2.0 等顯著提升了 “可控性”，標誌着 AI 視頻從娛樂向工業化生產跨越。通過壓低 “抽卡” 廢片率，視頻生產邊際成本向算力成本收斂。字節側重效率基建，快手深耕專業敍事，阿里發力垂直電商，共同推動內容供給側革命及 IP 價值重估。

年初這一波多模態更新來得很密：1 月 31 日快手把可靈（Kling）推到 3.0，2 月 7 日字節發佈 Seedance 2.0，2 月 10 日字節的 Seedream 5.0 和阿里的 Qwen-Image-2.0 又把 “文生圖/圖像編輯” 底座補了一刀。

華創證券研究所的姚蕾 12 日在報告裏的判斷很直接——視頻生成不再只是炫技，而是在往能進工作流的工具演化：“AI 視頻生成正在從盲盒式娛樂向精準工業化生產跨越。” 商業化遲遲起不來的癥結，歸到 “抽卡” 導致的邊際成本不可控：同樣的需求要反覆生成、反覆返工，廢片率吞掉時間和預算。

這次可靈 3.0 和 Seedance 2.0 的升級重點，不是單純拼畫質，而是把可控性抬到優先級更高的位置：跨鏡頭主體一致性、複雜指令的語義遵循、以及 “生成後還能改” 的編輯能力，合在一起去壓低廢片率。研報的結論是：技術跨越讓 AI 視頻具備進入規模化 B 端工作流的基礎，電商廣告、短劇/漫劇製作會更早感受到衝擊。

往下推，報告把影響拆成兩層：一層是產品路線分化——字節更像在做 “效率基建”，快手更偏 “專業敍事”；另一層是供給側革命重算成本結構——內容生產的邊際成本越來越像算力成本。對應到投資線索，研報把受益方向落到內容 IP、內容版權、AI 視頻工具/模型，以及雲與平台的推理側需求上。

真正被解決的，是 “抽卡” 帶來的不可控成本

報告反覆強調一個邏輯鏈：過去 AI 視頻難以商用，不是 “做不出來”，而是 “做出來太不穩”。同樣的腳本、同樣的素材和提示詞，成片質量波動大，逼着創作者用更多輪生成去賭結果，邊際成本就失控了。

報告認為新一代模型的意義在於把 “生成能力” 往後放了一位，把 “可控性” 放到前台：通過原生多模態架構、指令對齊，以及對主體一致性/語義遵循的強化，把廢片率壓下去，整體視頻生產成本才會跟着掉下來。商業化的門檻因此被重新劃線——從 “能不能做” 變成 “能不能穩定交付”。

可靈 3.0 押注 “大片感”：物理擬真與長邏輯敍事更優先

研報把可靈 3.0 的關鍵詞歸為兩件事：基礎能力的系統升級，以及生成與編輯的一體化（Omni）。

在視頻側，可靈 3.0 的升級點主要落在：多鏡頭/連續動作場景下的主體一致性更強；複雜文本指令解析更細；多人同框時的指代混亂被緩解，並強調了 “文本與視覺角色精準映射”（包括多語種、方言口音演繹與口型神態自然）。

Omni 模式是另一個被重點拿出來講的變化：在已生成內容基礎上做局部可控修改，減少 “推倒重來”。報告還提到兩項更偏專業創作的能力：一是可創建視頻主體（提取角色特徵與原聲音色，做精準口型匹配與驅動）；二是原生自定義分鏡能力，並把單次生成時長提升至 15 秒，允許在鏡頭級別指定時長、景別、視角、敍事內容和運鏡方式。

圖片側，可靈圖片 3.0 也被當作 “工作流補全” 的一環：最多支持 10 張參考圖以鎖定主體輪廓、核心元素與色調基調；多參考圖可自由指定元素並做增刪改；支持批量組圖輸出，用於故事板/素材包製作；同時強化高清輸出與細節表現。

Seedance 2.0 把視頻做成 “可編排” 的工業工具

報告對 Seedance 2.0 的定位更像 “工業化標準”：基礎層面更強調物理規律合理、動作自然、指令理解精準、風格保持穩定；並突出三類能力——一致性優化（從人臉到服裝、字體細節、場景跳變等）；高難度運鏡與動作的可控復刻；創意模板/複雜特效的精準復刻。

更關鍵的是交互範式。研報認為 Seedance 2.0 用 “@素材名” 指定圖片/視頻/音頻用途，實質是在把黑盒式生成拆解成可控的生產流程：模型可以分別提取 @視頻的運鏡、@圖片的細節、@音頻的節奏，從而顯著降低 “廢片率”。

報告給出的使用與限制也更貼近 “生產約束”：支持圖片輸入≤9 張；視頻輸入≤3 個且總時長不超過 15 秒；音頻支持 MP3 上傳≤3 個且總時長不超過 15 秒；混合輸入總上限 12 個文件；生成時長≤15 秒（可選 4-15 秒）；並提供自帶音效/配樂輸出。入口上，“首尾幀” 和 “全能參考” 對應不同的素材組織方式。

字節走 “效率基建”，快手走 “專業敍事”，阿里更偏電商垂直

研報對競爭格局的判斷不太看 “跑分排名”，更在意廠商戰略分野。

報告把字節的路線概括為低門檻、低成本的工具化、泛化能力，類似 “剪映” 的高級形態，目標是降低全網內容生產成本並反哺生態；快手可靈則押注物理模擬、複雜場景真實感與角色一致性，更適合影視 Demo、電影劇情等對連貫性要求高的專業內容；阿里千問在圖像模型高保真更新的方向上更偏垂直場景（電商），強化商品數字化相關能力。

這三條路指向的不是同一種商業模式：一條追求規模化吞吐，一條追求高質量敍事交付，一條追求垂直行業的 “可用即生產”。

內容供給側革命：邊際成本向算力成本收斂，IP 反而更稀缺

商業化推演裏，報告把 “供給側革命” 講得很激進：圖像與視頻基座能力雙重提升後，內容生產的邊際成本會越來越趨向算力成本。

短期它更看好兩類變化：營銷/電商服務商的素材產出效率提高，帶來毛利改善；漫劇、短劇行業可能出現產能爆發。中長期則把矛盾推向 IP 端——當內容更容易被生產，稀缺性的定價會更集中到 IP 上：頭部 IP 及衍生品價值更高，腰部 IP 也可能通過 AI 視頻化實現價值重估。與此同時，擁有強算力基礎設施（雲）和閉環流量場景（平台）的巨頭，會更直接吃到推理側頻繁調用帶來的紅利。