
Alibaba open-sources QwQ-32B! With a 1/21 small parameter, it rivals the performance of DeepSeek R1, with a cost of only 1/10

阿里推出新推理模型 QwQ-32B,參數僅 320 億,卻在性能上媲美 6710 億參數的 DeepSeek-R1,甚至在某些測試中超越對方。該模型集成了 Agent 相關能力,能夠進行批判性思考並調整推理過程。QwQ-32B 在多項評測中表現卓越,成本僅為 DeepSeek-R1 的十分之一,顯示出其在性能與成本之間的優勢。
阿里 AI 又有新動作!最新推理模型 QwQ-32B 證明了小參數也能實現大模型級別的性能。
3 月 6 日,阿里通義千問 Qwen 團隊推出推理模型——QwQ-32B 大語言模型。據官方介紹,這款僅有 320 億參數的模型在性能上不僅能夠媲美擁有 6710 億參數的 DeepSeek-R1(其中 370 億被激活),更在某些測試中超越了對方。
阿里 Qwen 團隊表示,這一成果突顯了將強化學習應用於經過大規模預訓練的強大基礎模型的有效性,希望以此證明強大的基礎模型疊加大規模強化學習也許是一條通往通用人工智能的可行之路。
除了基礎推理能力外,QwQ-32B 還集成了與 Agent 相關的能力,使其能夠在使用工具的同時進行批判性思考,並根據環境反饋調整推理過程。
參數精簡,性能不減,成本僅 1/10
根據官方披露的測試結果,QwQ-32B 在多項關鍵評測中表現卓越:
在測試數學能力的 AIME24 評測集上,QwQ-32B 與 DeepSeek-R1 表現相當,遠超 o1-mini 及同尺寸的 R1 蒸餾模型
在評估代碼能力的 LiveCodeBench 中,表現同樣與 DeepSeek-R1 相當
在 Meta 首席科學家楊立昆領銜的"最難 LLMs 評測榜"LiveBench 上,QwQ-32B 得分超越 DeepSeek-R1
在谷歌等提出的指令遵循能力 IFEval 評測集中,成績優於 DeepSeek-R1
在加州大學伯克利分校等提出的評估準確調用函數或工具的 BFCL 測試中,同樣超越 DeepSeek-R1
有海外網友展示了不同推理模型在 LiveBench 評分中的表現,以及它們的輸出令牌成本。QwQ 32B 模型的評分位於 R1 和 o3-mini 之間,但其成本僅為它們的十分之一。這表明 QwQ 32B 在性能和成本之間取得了很好的平衡:
QwQ 32B 的 LiveBench 評分約為 72.5 分,成本約為$0.25。
R1 的評分約為 70 分,成本約為$2.50。
o3-mini 的評分約為 75 分,成本約為$5.00。
強化學習:QwQ-32B 的 “秘密武器”
QwQ-32B 的卓越性能主要歸功於其採用的大規模強化學習方法。阿里團隊在冷啓動基礎上開展了分階段強化學習訓練策略:
初始階段:重點針對數學和編程任務進行 RL 訓練。團隊摒棄了傳統的獎勵模型 (reward model),轉而採用更直接的驗證方式,通過校驗生成答案的正確性來為數學問題提供反饋,並通過代碼執行服務器評估生成的代碼是否成功通過測試用例來提供代碼的反饋。
擴擴展階段:增加了針對通用能力的 RL 訓練。這一階段使用通用獎勵模型和基於規則的驗證器,幫助模型在保持數學和編程能力的同時,提升其他通用能力。
研究表明,隨着 RL 訓練輪次的增加,模型在數學和編程領域的性能均呈現持續提升趨勢,印證了這種方法的有效性。
QwQ-32B 已開源,推動大模型從"大力出奇跡"向"精巧出智慧"的範式轉變
目前,QwQ-32B 已在 Hugging Face 和 ModelScope 平台開源,採用 Apache 2.0 開源協議。同時,用户也可以通過 Qwen Chat 直接體驗這款強大的推理模型。
阿里 Qwen 團隊表示,QwQ-32B 只是他們在大規模強化學習增強推理能力方面的第一步。未來,他們將致力於將更強大的基礎模型與依託規模化計算資源的 RL 相結合,並積極探索將智能體與 RL 集成,以實現長時推理,目標是通過推理時間擴展釋放更高的智能。
隨着模型參數規模的增長已經進入瓶頸期,如何在現有參數規模下進一步提升模型能力成為業界關注焦點。QwQ-32B 的突破或將引領新一輪 AI 技術發展方向,進一步推動從"大力出奇跡"向"精巧出智慧"的範式轉變。
對此,科技自媒體數字生命卡茲克感嘆道:
這波 QwQ-32B 開源的意義,還是非常強的。
它用實力證明 RLHF 路線還能玩出花,打破了一些人對 GPT4.5 撞牆後的過度悲觀。
用中等規模卻拿到高級性能,給開源界注入了強大信心,你也不必搞那種天價設備和超大規模,也有機會跟國際巨頭同場競技。
QwQ-32B 的發佈與阿里近期宣佈的 AI 戰略高度一致。據報道,阿里集團計劃在未來三年投入超過 3800 億元建設雲和 AI 硬件基礎設施,總投入將超過過去十年總和。
此前,阿里自研的"深度思考"推理模型已在夸克 AI 搜索平台上線,成為國內少數沒有接入 DeepSeek 的大體量 C 端 AI 應用。
在基礎模型層面,阿里通義大模型家族已躋身全球頂尖開源模型行列。有知情人士透露,"更大規模的模型也將陸續接入夸克"。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。


