
From GPT-5 to DeepSeek V3.1, a new direction for top AI large models has emerged!

隨着推理模式日益複雜,完成任務所需的 token 數量正在暴漲,導致實際成本不降反升。業界正從單純追求模型能力上限轉向追求計算效率。目前,“混合推理” 已成為行業共識,目的是要讓模型學會判斷何時需要 “深度思考”,何時只需 “快速響應”。
在 AI 大模型的激烈競賽中,衡量標準正悄然改變。
從美團最新開源的龍貓大模型,到 OpenAI 下一代旗艦 GPT-5 和明星創業公司 DeepSeek 的新品,頂尖玩家們不約而同地將目光投向了 “混合推理” 與 “自適應計算”,標誌着 AI 行業的發展重點正從 “更高、更強” 轉向 “更聰明、更經濟”。
美團近日開源的 “龍貓”(LongCat-Flash)憑藉創新的架構,在性能比肩業界頂尖水平的同時,實現了驚人的算力節省。
華爾街見聞此前提及,LongCat-Flash 最具創新性的設計之一是 “零計算” 專家機制,該機制能智能識別輸入內容中的非關鍵部分,如常見的詞語和標點符號,並將其交由一個不進行復雜運算的特殊 “專家” 處理,從而直接返回輸入,極大地節省了算力。
此舉並非孤立的技術炫技,而是對當前行業痛點的精準回應——隨着推理模式變得更加複雜,AI 應用的成本正在快速上升。
業界的應對策略正在聚焦到一個共同方向:混合推理模式。這種模式讓 AI 系統能夠根據問題複雜度自動選擇合適的計算資源配置,避免在簡單任務上浪費昂貴的算力。
AI 越 “聰明”,成本越昂貴
美團對效率的極致追求,恰恰反映了整個 AI 行業正面臨的嚴峻挑戰。
據機器之心,前段時間,TextQL 聯合創始人兼 CEO 丁一帆(Ethan Ding)就指出了一個反直覺的現象 —— 明明 Token 的成本一直在下降,但各家模型公司的訂閲費卻在飛漲。
丁一帆認為,問題的癥結在於,那些降價的模型大部分不是 SOTA 模型,而人類在認知上的貪婪決定了,大部分人只想要 “最強大腦”,所以 99% 的需求會轉向 SOTA。而最強模型的價格始終差不多。
簡單來説就是,雖然單個 token 的價格在下降,但完成複雜任務所需的 token 數量正在以前所未有的速度增長。
例如,一次基礎的聊天問答可能僅消耗幾百個 token,但一項複雜的代碼編寫或法律文件分析任務,可能需要消耗數十萬甚至上百萬個 token。
AI 初創公司 T3 Chat 的首席執行官 Theo Browne 也曾表示:
“爭奪最智能模型的競賽,已經演變成了爭奪最昂貴模型的競賽。”
這種成本壓力已傳導至應用層公司。據媒體報道,生產力軟件公司 Notion 的利潤率因此下降了約 10 個百分點。一些 AI 編程輔助工具的初創公司,如 Cursor 和 Replit,也不得不調整定價策略,引發了部分用户的抱怨。
頂尖模型的共同答案:混合推理
為破解成本困局,“混合推理” 或稱 “自適應計算” 已成為行業共識。
各大模型廠商雖然路徑不一,但目標高度一致:讓模型學會判斷何時需要 “深度思考”,何時只需 “快速響應”。
OpenAI 的 GPT-5 採用 “路由器” 機制,根據問題複雜程度自動選擇合適的模型處理。舉例來説,對於如 “天空為什麼是藍色” 的簡單問題,GPT-5 會直接將其交給輕量級模型,複雜任務則調用高算力模型。
根據 OpenAI 內部評測,GPT-5 使用思考模式能以比前代模型少 50-80% 的輸出 token 完成任務,達到相同或更好的效果。該系統通過用户行為、偏好反饋和正確率等真實信號持續訓練路由機制,隨時間不斷改進。
DeepSeek 的 V3.1 版本則更進一步,將對話和推理能力合併到單一模型中,推出了單模型雙模式架構。開發者和用户可以通過特定標記或按鈕,在 “思考” 與 “非思考” 模式間切換。
官方數據顯示,其思考模式能在消耗減少 25-50% token 的情況下,達到與前代模型相當的答案質量,為企業提供了一個高性價比的開源選擇。
目前,這一趨勢已成為行業主流。從 Anthropic 的 Claude 系列、Google 的 Gemini 系列,到國內的阿里 Qwen、快手 KwaiCoder、字節豆包以及智譜 GLM 等,幾乎所有頭部玩家都在探索自己的混合推理方案,試圖在性能與成本之間找到最佳平衡點。
有分析指出,混合推理的下一個前沿將是更智能的 “自我調節”——讓 AI 模型能夠精準地自我評估任務難度,並在無人干預的情況下,以最低的計算代價,在最恰當的時機啓動深度思考。
