Track Hyper | Catching up with the world's top: Qianwen 3 reasoning model open-sourced

近期阿里 AI 斬獲驚人，連奪三項全球開源冠軍。

作者：周源/華爾街見聞

7 月 25 日，阿里巴巴開源千問 3 推理模型。

這是千問系列中首個採用混合專家 MoE（Mixture of Experts）架構的代碼模型，總參數達 480B（4800 億），原生支持 256K token 的上下文，可擴展至 1M 長度，能幫助程序員完美完成寫代碼、補全代碼等基礎編程任務，大幅提升編程工作效率。

混合專家模型（MoE）是一種高效的神經網絡架構設計，核心思想是通過分工協作提升模型性能，同時控制計算成本，尤其在大模型參數規模突破千億、萬億級後，成為平衡性能與效率的關鍵技術。

簡單説，MoE 架構就像一個智能團隊：有很多專業分工的成員（專家），但每次任務只讓最適合的幾個人幹活（門控調度），既保證了效率，又能應對更復雜的需求。

據公開消息稱，該模型性能提升顯著，在知識儲備、編程能力、數學運算等關鍵維度，與 Gemini-2.5 pro、o4-mini 等全球頂級閉源模型水平相當。

在 7 月 21 日至 7 月 25 日期間，阿里連續開源 3 款重要模型，成就斐然，在基礎模型、編程模型、推理模型領域均獲全球開源冠軍。

這一系列動作不僅讓技術開發者投入研究，也讓企業決策者關注這些技術成果在實際業務中的應用，其落地可能對 AI 領域技術應用格局產生積極影響。

通義千問 3 旗艦模型發佈後，通義團隊持續優化推理能力。

新開源的千問 3 推理模型支持 256K 上下文長度，這一特性使其能輕鬆處理長篇文檔和多輪對話，避免關鍵信息丟失。

在知識測評（(SuperGPQA）、編程能力測評（LiveCodeBench v6）等測試中，表現接近頂尖閉源模型，在開源模型中處於前列。

相比前代模型，該模型的複雜問題拆解分析、流暢度和精準度均有明顯提升：比如在處理多步驟邏輯推理題時，能更清晰地呈現推理過程。

在此期間開源的 Qwen3-235B-A22B-Instruct-2507（非思考版）性能提升明顯，在 GPQA 知識測評、AIME25 數學測評等涵蓋多能力維度的測試中，成績超過 Claude4（Non-thinking）等閉源模型。

這些測試從知識覆蓋範圍、數學邏輯運算、代碼編寫準確性等多個角度，全面衡量模型的綜合能力。

AI 研究機構 Artificial Analysis 經測試數據對比，評價新開源的千問 3 模型 “在非思考基礎模型中表現突出”，這一評價基於模型在各項指標上的具體表現得出。

AI 編程領域的 Qwen3-Coder，在多語言 SWE-bench 等測試中表現超過 GPT4.1 和 Claude4，成功登頂 HuggingFace 模型總榜。

該榜單綜合模型下載量、使用頻率、用户評分等多方面數據排名，在行業內認可度較高。

從實際應用來看，程序員藉助它生成基礎品牌官網最快僅需 5 分鐘，剛入行的程序員一天就能完成資深程序員一週的工作。

截至目前，阿里巴巴已開源 300 餘款通義大模型，衍生模型數量超過 14 萬個，超過 Meta 的 Llama 系列，成為規模巨大的開源模型家族，在開發者和企業中被廣泛使用。

這些衍生模型經全球開發者根據不同場景微調，應用於教育、金融、醫療等多個行業，比如教育領域的衍生模型可輔助教師生成個性化習題，金融領域的模型能做簡單的風險評估。

據海外知名模型 API 聚合平台 OpenRouter 數據顯示，阿里千問 API 調用量暴漲，截至 7 月 25 日，在過去數天內調用 API 規模已突破 1000 億 Tokens，在 OpenRouter 趨勢榜上包攬全球前三，是當下最熱門的模型。

這一數據反映出模型的受歡迎程度，尤其受到中小型開發團隊青睞，因為其開源屬性降低了使用成本，同時性能能滿足項目需求。

阿里開源模型允許中國企業免費商用，這一政策降低了中小企業應用 AI 技術的門檻，讓更多企業能享受到技術紅利；同時向美國、法國、德國等國家的企業開放，助力欠發達國家獲得本土衍生模型，豐富了 AI 開源社區的多樣性，推動技術在全球範圍內普及。

華爾街見聞注意到，企業落地 AI 時，往往將模型與雲產品打包採購。

比如電商企業使用通義千問模型做客户服務智能回覆時，會配套採購阿里雲的數據庫存儲客户信息，以及阿里雲的安全服務保障數據安全，形成生態閉環。

這種模式提升了阿里雲產品的使用深度與客户關聯度，增強了客户粘性。

當前，部分組織將 AI 工作負載遷移至雲端，已部署雲架構的企業也在積極將 AI 能力融入自身系統，這帶來了對 GPU 資源、IaaS 服務（基礎設施即服務：Infrastructure as a Service）的持續需求。

千問 3 系列模型的良好表現，將助力阿里雲吸引更多客户，促進公有云業務發展，尤其是在需要強大 AI 算力支持的領域。

千問 3 推理模型在開源模型中表現突出，源於通義團隊對技術架構和算法的持續優化。

256K 上下文長度使其在處理長文本任務時優勢明顯：在法律行業，能輔助審查長篇合同，精準提煉條款、權責劃分與風險點，減少人工審查的疏漏；在科研領域，可快速抓取學術論文的研究背景、實驗方法和核心結論，幫助研究人員節省閲讀時間；在知識問答、代碼生成等場景，其表現接近頂尖閉源模型。

Qwen3-235B-A22B-Instruct-2507（非思考版）的性能提升，得益於訓練技術的改進。

關於這個模型的名稱：“Qwen” 是阿里千問的英文標識，“3” 代表該模型屬於千問系列的第 3 代版本，用於區分早期的 Qwen1 和 Qwen2 版本；“235B” 即參數規模為 2350 億；“A22B” 通常與模型架構、訓練配置或硬件適配相關（不同廠商的命名規則可能有差異）。

“Instruct” 表示模型類型是 “指令微調模型”（Instruct-tuned Model）。這類模型在預訓練後，會通過人類指令數據進一步微調，更擅長理解和執行用户的自然語言指令（如 “寫一段代碼” 或 “總結文檔”），而非單純的文本續寫，實用性更強。

“2507” 應該是版本日期或迭代編號，這裏可能指 “2025 年 7 月”（或類似的內部版本時間），用於區分同一基礎模型的不同迭代版本（比如修復了某些問題、優化了特定任務性能的更新版）。

這個模型在預訓練階段使用的 36T tokens 數據集，涵蓋書籍、代碼庫等多種類型，保障了知識的廣度與深度，使模型能應對不同領域的知識查詢；後訓練通過多輪強化學習，整合非思考與思考模型，優化了綜合性能，讓模型在處理不同類型任務時更靈活。

Qwen3-Coder 在代碼能力上的突破，來自改進的 Transformer 架構和優化的 Agent 調用流程。

其中，改進的 Transformer 架構提升了編程需求理解精度，當開發者輸入 “編寫一個用户註冊的後端接口” 指令時，能準確把握接口需要實現的功能和參數要求；優化的 Agent 調用流程提高了工具調用效率，在需要調用外部代碼庫時，能更快速地完成匹配與調用，使其在多語言測試中領先，登頂 HuggingFace 榜單。

從生態角度看，Qwen3-Coder 吸引了大量二次開發：開發者為其添加特定行業代碼庫，使其在金融科技領域能生成更符合行業規範的代碼；還有開發者優化其響應速度，讓它更適用於實時性要求高的在線編程場景。

目前，300 餘款通義大模型及 14 萬個衍生模型，在科研、教育等行業廣泛應用，推動 AI 技術從實驗室走向實際生產生活，為各行業更高的效率提升。