
Track Hyper | Catching up with the world's top: Qianwen 3 reasoning model open-sourced

近期阿里 AI 斬獲驚人,連奪三項全球開源冠軍。
作者:周源/華爾街見聞
7 月 25 日,阿里巴巴開源千問 3 推理模型。
這是千問系列中首個採用混合專家 MoE(Mixture of Experts)架構的代碼模型,總參數達 480B(4800 億),原生支持 256K token 的上下文,可擴展至 1M 長度,能幫助程序員完美完成寫代碼、補全代碼等基礎編程任務,大幅提升編程工作效率。
混合專家模型(MoE)是一種高效的神經網絡架構設計,核心思想是通過分工協作提升模型性能,同時控制計算成本,尤其在大模型參數規模突破千億、萬億級後,成為平衡性能與效率的關鍵技術。
簡單説,MoE 架構就像一個智能團隊:有很多專業分工的成員(專家),但每次任務只讓最適合的幾個人幹活(門控調度),既保證了效率,又能應對更復雜的需求。
據公開消息稱,該模型性能提升顯著,在知識儲備、編程能力、數學運算等關鍵維度,與 Gemini-2.5 pro、o4-mini 等全球頂級閉源模型水平相當。
在 7 月 21 日至 7 月 25 日期間,阿里連續開源 3 款重要模型,成就斐然,在基礎模型、編程模型、推理模型領域均獲全球開源冠軍。
這一系列動作不僅讓技術開發者投入研究,也讓企業決策者關注這些技術成果在實際業務中的應用,其落地可能對 AI 領域技術應用格局產生積極影響。
通義千問 3 旗艦模型發佈後,通義團隊持續優化推理能力。
新開源的千問 3 推理模型支持 256K 上下文長度,這一特性使其能輕鬆處理長篇文檔和多輪對話,避免關鍵信息丟失。
在知識測評((SuperGPQA)、編程能力測評(LiveCodeBench v6)等測試中,表現接近頂尖閉源模型,在開源模型中處於前列。
相比前代模型,該模型的複雜問題拆解分析、流暢度和精準度均有明顯提升:比如在處理多步驟邏輯推理題時,能更清晰地呈現推理過程。
在此期間開源的 Qwen3-235B-A22B-Instruct-2507(非思考版)性能提升明顯,在 GPQA 知識測評、AIME25 數學測評等涵蓋多能力維度的測試中,成績超過 Claude4(Non-thinking)等閉源模型。
這些測試從知識覆蓋範圍、數學邏輯運算、代碼編寫準確性等多個角度,全面衡量模型的綜合能力。
AI 研究機構 Artificial Analysis 經測試數據對比,評價新開源的千問 3 模型 “在非思考基礎模型中表現突出”,這一評價基於模型在各項指標上的具體表現得出。
AI 編程領域的 Qwen3-Coder,在多語言 SWE-bench 等測試中表現超過 GPT4.1 和 Claude4,成功登頂 HuggingFace 模型總榜。
該榜單綜合模型下載量、使用頻率、用户評分等多方面數據排名,在行業內認可度較高。
從實際應用來看,程序員藉助它生成基礎品牌官網最快僅需 5 分鐘,剛入行的程序員一天就能完成資深程序員一週的工作。
截至目前,阿里巴巴已開源 300 餘款通義大模型,衍生模型數量超過 14 萬個,超過 Meta 的 Llama 系列,成為規模巨大的開源模型家族,在開發者和企業中被廣泛使用。
這些衍生模型經全球開發者根據不同場景微調,應用於教育、金融、醫療等多個行業,比如教育領域的衍生模型可輔助教師生成個性化習題,金融領域的模型能做簡單的風險評估。
據海外知名模型 API 聚合平台 OpenRouter 數據顯示,阿里千問 API 調用量暴漲,截至 7 月 25 日,在過去數天內調用 API 規模已突破 1000 億 Tokens,在 OpenRouter 趨勢榜上包攬全球前三,是當下最熱門的模型。
這一數據反映出模型的受歡迎程度,尤其受到中小型開發團隊青睞,因為其開源屬性降低了使用成本,同時性能能滿足項目需求。
阿里開源模型允許中國企業免費商用,這一政策降低了中小企業應用 AI 技術的門檻,讓更多企業能享受到技術紅利;同時向美國、法國、德國等國家的企業開放,助力欠發達國家獲得本土衍生模型,豐富了 AI 開源社區的多樣性,推動技術在全球範圍內普及。
華爾街見聞注意到,企業落地 AI 時,往往將模型與雲產品打包採購。
比如電商企業使用通義千問模型做客户服務智能回覆時,會配套採購阿里雲的數據庫存儲客户信息,以及阿里雲的安全服務保障數據安全,形成生態閉環。
這種模式提升了阿里雲產品的使用深度與客户關聯度,增強了客户粘性。
當前,部分組織將 AI 工作負載遷移至雲端,已部署雲架構的企業也在積極將 AI 能力融入自身系統,這帶來了對 GPU 資源、IaaS 服務(基礎設施即服務:Infrastructure as a Service)的持續需求。
千問 3 系列模型的良好表現,將助力阿里雲吸引更多客户,促進公有云業務發展,尤其是在需要強大 AI 算力支持的領域。
千問 3 推理模型在開源模型中表現突出,源於通義團隊對技術架構和算法的持續優化。
256K 上下文長度使其在處理長文本任務時優勢明顯:在法律行業,能輔助審查長篇合同,精準提煉條款、權責劃分與風險點,減少人工審查的疏漏;在科研領域,可快速抓取學術論文的研究背景、實驗方法和核心結論,幫助研究人員節省閲讀時間;在知識問答、代碼生成等場景,其表現接近頂尖閉源模型。
Qwen3-235B-A22B-Instruct-2507(非思考版)的性能提升,得益於訓練技術的改進。
關於這個模型的名稱:“Qwen” 是阿里千問的英文標識,“3” 代表該模型屬於千問系列的第 3 代版本,用於區分早期的 Qwen1 和 Qwen2 版本;“235B” 即參數規模為 2350 億;“A22B” 通常與模型架構、訓練配置或硬件適配相關(不同廠商的命名規則可能有差異)。
“Instruct” 表示模型類型是 “指令微調模型”(Instruct-tuned Model)。這類模型在預訓練後,會通過人類指令數據進一步微調,更擅長理解和執行用户的自然語言指令(如 “寫一段代碼” 或 “總結文檔”),而非單純的文本續寫,實用性更強。
“2507” 應該是版本日期或迭代編號,這裏可能指 “2025 年 7 月”(或類似的內部版本時間),用於區分同一基礎模型的不同迭代版本(比如修復了某些問題、優化了特定任務性能的更新版)。
這個模型在預訓練階段使用的 36T tokens 數據集,涵蓋書籍、代碼庫等多種類型,保障了知識的廣度與深度,使模型能應對不同領域的知識查詢;後訓練通過多輪強化學習,整合非思考與思考模型,優化了綜合性能,讓模型在處理不同類型任務時更靈活。
Qwen3-Coder 在代碼能力上的突破,來自改進的 Transformer 架構和優化的 Agent 調用流程。
其中,改進的 Transformer 架構提升了編程需求理解精度,當開發者輸入 “編寫一個用户註冊的後端接口” 指令時,能準確把握接口需要實現的功能和參數要求;優化的 Agent 調用流程提高了工具調用效率,在需要調用外部代碼庫時,能更快速地完成匹配與調用,使其在多語言測試中領先,登頂 HuggingFace 榜單。
從生態角度看,Qwen3-Coder 吸引了大量二次開發:開發者為其添加特定行業代碼庫,使其在金融科技領域能生成更符合行業規範的代碼;還有開發者優化其響應速度,讓它更適用於實時性要求高的在線編程場景。
目前,300 餘款通義大模型及 14 萬個衍生模型,在科研、教育等行業廣泛應用,推動 AI 技術從實驗室走向實際生產生活,為各行業更高的效率提升。
