Differentiation among major companies in the multi-modal "Deepseek Moment": ByteDance focuses on "efficiency," Kuaishou targets "professionalism," and Alibaba concentrates on "e-commerce"!

華爾街見聞
2026.02.12 06:35
portai
I'm PortAI, I can summarize articles.

華創證券表示,年初國產多模態模型密集更新,可靈 3.0 與 Seedance 2.0 等顯著提升了 “可控性”,標誌着 AI 視頻從娛樂向工業化生產跨越。通過壓低 “抽卡” 廢片率,視頻生產邊際成本向算力成本收斂。字節側重效率基建,快手深耕專業敍事,阿里發力垂直電商,共同推動內容供給側革命及 IP 價值重估。

年初這一波多模態更新來得很密:1 月 31 日快手把可靈(Kling)推到 3.0,2 月 7 日字節發佈 Seedance 2.0,2 月 10 日字節的 Seedream 5.0 和阿里的 Qwen-Image-2.0 又把 “文生圖/圖像編輯” 底座補了一刀。

華創證券研究所的姚蕾 12 日在報告裏的判斷很直接——視頻生成不再只是炫技,而是在往能進工作流的工具演化:“AI 視頻生成正在從盲盒式娛樂向精準工業化生產跨越。” 商業化遲遲起不來的癥結,歸到 “抽卡” 導致的邊際成本不可控:同樣的需求要反覆生成、反覆返工,廢片率吞掉時間和預算。

這次可靈 3.0 和 Seedance 2.0 的升級重點,不是單純拼畫質,而是把可控性抬到優先級更高的位置:跨鏡頭主體一致性、複雜指令的語義遵循、以及 “生成後還能改” 的編輯能力,合在一起去壓低廢片率。研報的結論是:技術跨越讓 AI 視頻具備進入規模化 B 端工作流的基礎,電商廣告、短劇/漫劇製作會更早感受到衝擊。

往下推,報告把影響拆成兩層:一層是產品路線分化——字節更像在做 “效率基建”,快手更偏 “專業敍事”;另一層是供給側革命重算成本結構——內容生產的邊際成本越來越像算力成本。對應到投資線索,研報把受益方向落到內容 IP、內容版權、AI 視頻工具/模型,以及雲與平台的推理側需求上。

真正被解決的,是 “抽卡” 帶來的不可控成本

報告反覆強調一個邏輯鏈:過去 AI 視頻難以商用,不是 “做不出來”,而是 “做出來太不穩”。同樣的腳本、同樣的素材和提示詞,成片質量波動大,逼着創作者用更多輪生成去賭結果,邊際成本就失控了。

報告認為新一代模型的意義在於把 “生成能力” 往後放了一位,把 “可控性” 放到前台:通過原生多模態架構、指令對齊,以及對主體一致性/語義遵循的強化,把廢片率壓下去,整體視頻生產成本才會跟着掉下來。商業化的門檻因此被重新劃線——從 “能不能做” 變成 “能不能穩定交付”。

可靈 3.0 押注 “大片感”:物理擬真與長邏輯敍事更優先

研報把可靈 3.0 的關鍵詞歸為兩件事:基礎能力的系統升級,以及生成與編輯的一體化(Omni)。

在視頻側,可靈 3.0 的升級點主要落在:多鏡頭/連續動作場景下的主體一致性更強;複雜文本指令解析更細;多人同框時的指代混亂被緩解,並強調了 “文本與視覺角色精準映射”(包括多語種、方言口音演繹與口型神態自然)。

Omni 模式是另一個被重點拿出來講的變化:在已生成內容基礎上做局部可控修改,減少 “推倒重來”。報告還提到兩項更偏專業創作的能力:一是可創建視頻主體(提取角色特徵與原聲音色,做精準口型匹配與驅動);二是原生自定義分鏡能力,並把單次生成時長提升至 15 秒,允許在鏡頭級別指定時長、景別、視角、敍事內容和運鏡方式。

圖片側,可靈圖片 3.0 也被當作 “工作流補全” 的一環:最多支持 10 張參考圖以鎖定主體輪廓、核心元素與色調基調;多參考圖可自由指定元素並做增刪改;支持批量組圖輸出,用於故事板/素材包製作;同時強化高清輸出與細節表現。

Seedance 2.0 把視頻做成 “可編排” 的工業工具

報告對 Seedance 2.0 的定位更像 “工業化標準”:基礎層面更強調物理規律合理、動作自然、指令理解精準、風格保持穩定;並突出三類能力——一致性優化(從人臉到服裝、字體細節、場景跳變等);高難度運鏡與動作的可控復刻;創意模板/複雜特效的精準復刻。

更關鍵的是交互範式。研報認為 Seedance 2.0 用 “@素材名” 指定圖片/視頻/音頻用途,實質是在把黑盒式生成拆解成可控的生產流程:模型可以分別提取 @視頻的運鏡、@圖片的細節、@音頻的節奏,從而顯著降低 “廢片率”。

報告給出的使用與限制也更貼近 “生產約束”:支持圖片輸入≤9 張;視頻輸入≤3 個且總時長不超過 15 秒;音頻支持 MP3 上傳≤3 個且總時長不超過 15 秒;混合輸入總上限 12 個文件;生成時長≤15 秒(可選 4-15 秒);並提供自帶音效/配樂輸出。入口上,“首尾幀” 和 “全能參考” 對應不同的素材組織方式。

字節走 “效率基建”,快手走 “專業敍事”,阿里更偏電商垂直

研報對競爭格局的判斷不太看 “跑分排名”,更在意廠商戰略分野。

報告把字節的路線概括為低門檻、低成本的工具化、泛化能力,類似 “剪映” 的高級形態,目標是降低全網內容生產成本並反哺生態;快手可靈則押注物理模擬、複雜場景真實感與角色一致性,更適合影視 Demo、電影劇情等對連貫性要求高的專業內容;阿里千問在圖像模型高保真更新的方向上更偏垂直場景(電商),強化商品數字化相關能力。

這三條路指向的不是同一種商業模式:一條追求規模化吞吐,一條追求高質量敍事交付,一條追求垂直行業的 “可用即生產”。

內容供給側革命:邊際成本向算力成本收斂,IP 反而更稀缺

商業化推演裏,報告把 “供給側革命” 講得很激進:圖像與視頻基座能力雙重提升後,內容生產的邊際成本會越來越趨向算力成本。

短期它更看好兩類變化:營銷/電商服務商的素材產出效率提高,帶來毛利改善;漫劇、短劇行業可能出現產能爆發。中長期則把矛盾推向 IP 端——當內容更容易被生產,稀缺性的定價會更集中到 IP 上:頭部 IP 及衍生品價值更高,腰部 IP 也可能通過 AI 視頻化實現價值重估。與此同時,擁有強算力基礎設施(雲)和閉環流量場景(平台)的巨頭,會更直接吃到推理側頻繁調用帶來的紅利。