From GPT-5 to DeepSeek V3.1, a new direction for top AI large models has emerged!

隨着推理模式日益複雜，完成任務所需的 token 數量正在暴漲，導致實際成本不降反升。業界正從單純追求模型能力上限轉向追求計算效率。目前，“混合推理” 已成為行業共識，目的是要讓模型學會判斷何時需要 “深度思考”，何時只需 “快速響應”。

在 AI 大模型的激烈競賽中，衡量標準正悄然改變。

從美團最新開源的龍貓大模型，到 OpenAI 下一代旗艦 GPT-5 和明星創業公司 DeepSeek 的新品，頂尖玩家們不約而同地將目光投向了 “混合推理” 與 “自適應計算”，標誌着 AI 行業的發展重點正從 “更高、更強” 轉向 “更聰明、更經濟”。

美團近日開源的 “龍貓”（LongCat-Flash）憑藉創新的架構，在性能比肩業界頂尖水平的同時，實現了驚人的算力節省。

華爾街見聞此前提及，LongCat-Flash 最具創新性的設計之一是 “零計算” 專家機制，該機制能智能識別輸入內容中的非關鍵部分，如常見的詞語和標點符號，並將其交由一個不進行復雜運算的特殊 “專家” 處理，從而直接返回輸入，極大地節省了算力。

此舉並非孤立的技術炫技，而是對當前行業痛點的精準回應——隨着推理模式變得更加複雜，AI 應用的成本正在快速上升。

業界的應對策略正在聚焦到一個共同方向：混合推理模式。這種模式讓 AI 系統能夠根據問題複雜度自動選擇合適的計算資源配置，避免在簡單任務上浪費昂貴的算力。

AI 越 “聰明”，成本越昂貴

美團對效率的極致追求，恰恰反映了整個 AI 行業正面臨的嚴峻挑戰。

據機器之心，前段時間，TextQL 聯合創始人兼 CEO 丁一帆（Ethan Ding）就指出了一個反直覺的現象 —— 明明 Token 的成本一直在下降，但各家模型公司的訂閲費卻在飛漲。

丁一帆認為，問題的癥結在於，那些降價的模型大部分不是 SOTA 模型，而人類在認知上的貪婪決定了，大部分人只想要 “最強大腦”，所以 99% 的需求會轉向 SOTA。而最強模型的價格始終差不多。

簡單來説就是，雖然單個 token 的價格在下降，但完成複雜任務所需的 token 數量正在以前所未有的速度增長。

例如，一次基礎的聊天問答可能僅消耗幾百個 token，但一項複雜的代碼編寫或法律文件分析任務，可能需要消耗數十萬甚至上百萬個 token。

AI 初創公司 T3 Chat 的首席執行官 Theo Browne 也曾表示：

“爭奪最智能模型的競賽，已經演變成了爭奪最昂貴模型的競賽。”

這種成本壓力已傳導至應用層公司。據媒體報道，生產力軟件公司 Notion 的利潤率因此下降了約 10 個百分點。一些 AI 編程輔助工具的初創公司，如 Cursor 和 Replit，也不得不調整定價策略，引發了部分用户的抱怨。

為破解成本困局，“混合推理” 或稱 “自適應計算” 已成為行業共識。

各大模型廠商雖然路徑不一，但目標高度一致：讓模型學會判斷何時需要 “深度思考”，何時只需 “快速響應”。

OpenAI 的 GPT-5 採用 “路由器” 機制，根據問題複雜程度自動選擇合適的模型處理。舉例來説，對於如 “天空為什麼是藍色” 的簡單問題，GPT-5 會直接將其交給輕量級模型，複雜任務則調用高算力模型。

根據 OpenAI 內部評測，GPT-5 使用思考模式能以比前代模型少 50-80% 的輸出 token 完成任務，達到相同或更好的效果。該系統通過用户行為、偏好反饋和正確率等真實信號持續訓練路由機制，隨時間不斷改進。

DeepSeek 的 V3.1 版本則更進一步，將對話和推理能力合併到單一模型中，推出了單模型雙模式架構。開發者和用户可以通過特定標記或按鈕，在 “思考” 與 “非思考” 模式間切換。

官方數據顯示，其思考模式能在消耗減少 25-50% token 的情況下，達到與前代模型相當的答案質量，為企業提供了一個高性價比的開源選擇。

目前，這一趨勢已成為行業主流。從 Anthropic 的 Claude 系列、Google 的 Gemini 系列，到國內的阿里 Qwen、快手 KwaiCoder、字節豆包以及智譜 GLM 等，幾乎所有頭部玩家都在探索自己的混合推理方案，試圖在性能與成本之間找到最佳平衡點。

有分析指出，混合推理的下一個前沿將是更智能的 “自我調節”——讓 AI 模型能夠精準地自我評估任務難度，並在無人干預的情況下，以最低的計算代價，在最恰當的時機啓動深度思考。