Morning news! Alibaba releases and open-sources Qwen3, seamlessly integrating thinking modes, multilingual capabilities, and facilitating Agent calls

阿里表示，Qwen3 無縫集成兩種思考模式，支持 119 種語言，便於 Agent 調用。本次發佈的 Qwen3 系列包括兩個專家混合 (MoE) 模型和另外六個模型，其中旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比，表現出極具競爭力。

阿里巴巴週一發佈並開源通義千問 3.0（Qwen3）系列模型，並稱其在數學和編程等多個方面均可與 DeepSeek 的性能相媲美。與其他主流模型相比，Qwen3 還顯著降低了部署成本。阿里表示，Qwen3 無縫集成兩種思考模式，支持 119 種語言，便於 Agent 調用。

性能媲美 DeepSeek R1、OpenAI o1，全部開源

Qwen3 系列包括兩個專家混合 (MoE) 模型和另外六個模型。阿里巴巴表示，最新發型的旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比，表現出極具競爭力。

此外，被稱為 “專家混合”（MoE，Mixture-of-Experts）模型的 Qwen3-30B-A3B 的激活參數數量是 QwQ-32B 的 10%，表現更勝一籌，甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。這類系統模擬人類解決問題的思維方式，將任務劃分為更小的數據集，類似於讓一組各有所長的專家分別負責不同部分，從而提升整體效率。

同時，阿里巴巴還開源了兩個 MoE 模型的權重：擁有 2350 多億總參數和 220 多億激活參數的 Qwen3-235B-A22B，以及擁有約 300 億總參數和 30 億激活參數的小型 MoE 模型 Qwen3-30B-A3B。此外，六個 Dense 模型也已開源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在 Apache 2.0 許可下開源。

“混合型” 模型，兩種思考模式

阿里巴巴表示，Qwen 3 系列是 “混合型” 模型，既可以花時間 “推理” 以解決複雜問題，也可以快速回答簡單請求，分別叫做 “思考模式” 和 “非思考模式”。“思考模式” 中的推理能力使得模型能夠有效地進行自我事實核查，類似於 OpenAI 的 o3 模型，但代價是推理過程中的延遲時間較高。

Qwen 團隊在博客文章中寫道：

這種靈活性使用户能夠根據具體任務控制模型進行 “思考” 的程度。例如，複雜的問題可以通過擴展推理步驟來解決，而簡單的問題則可以直接快速作答，無需延遲。
至關重要的是，這兩種模式的結合大大增強了模型實現穩定且高效的 “思考預算” 控制能力。如上文所述，Qwen3 展現出可擴展且平滑的性能提升，這與分配的計算推理預算直接相關。
這樣的設計讓用户能夠更輕鬆地為不同任務配置特定的預算，在成本效益和推理質量之間實現更優的平衡。

訓練數據量是 Qwen2.5 的兩倍，便於 Agent 調用

阿里巴巴表示，Qwen3 系列支持 119 種語言，並基於近 36 萬億個 token（標記）進行訓練，使用的數據量是 Qwen2.5 的兩倍。Token 是模型處理的基本數據單元，約 100 萬個 token 相當於 75 萬英文單詞。阿里巴巴稱，Qwen3 的訓練數據包括教材、問答對、代碼片段等多種內容。

據介紹，Qwen3 預訓練過程分為三個階段。在第一階段（S1），模型在超過 30 萬億個 token 上進行了預訓練，上下文長度為 4K token。這一階段為模型提供了基本的語言技能和通用知識。

在第二階段（S2），訓練則通過增加知識密集型數據（如 STEM、編程和推理任務）的比例來改進數據集，隨後模型又在額外的 5 萬億個 token 上進行了預訓練。在最後階段則使用高質量的長上下文數據將上下文長度擴展到 32K token，確保模型能夠有效地處理更長的輸入。

阿里巴巴表示，由於模型架構的改進、訓練數據的增加以及更有效的訓練方法，Qwen3 Dense 基礎模型的整體性能與參數更多的 Qwen2.5 基礎模型相當。例如，Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現相當。特別是在 STEM、編碼和推理等領域，Qwen3 Dense 基礎模型的表現甚至超過了更大規模的 Qwen2.5 模型。對於 Qwen3 MoE 基礎模型，它們在僅使用 10% 激活參數的情況下達到了與 Qwen2.5 Dense 基礎模型相似的性能，顯著節省了訓練和推理成本。

而在後訓練階段，阿里使用多樣的的長思維鏈數據對模型進行了微調，涵蓋了數學、代碼、邏輯推理和 STEM 問題等多種任務和領域，為模型配備基本的推理能力。然後通過大規模強化學習，利用基於規則的獎勵來增強模型的探索和鑽研能力。

阿里巴巴表示，Qwen3 在調用工具（tool-calling）、執行指令以及複製特定數據格式等能力方面表現出色，推薦用户使用 Qwen-Agent 來充分發揮 Qwen3 的 Agent 能力。Qwen-Agent 內部封裝了工具調用模板和工具調用解析器，大大降低了代碼複雜性。

除了提供下載版本外，Qwen3 還可以通過 Fireworks AI、Hyperbolic 等雲服務提供商使用。

目標仍對準 AGI

OpenAI、谷歌和 Anthropic 近期也陸續推出了多款新模型。OpenAI 近日表示，也計劃在未來幾個月發佈一款更加 “開放” 的模型，模仿人類推理方式，這標誌着其策略出現轉變，此前 DeepSeek 和阿里巴巴已經率先推出了開源 AI 系統。

目前，阿里巴巴正以 Qwen 為核心，構建其 AI 版圖。今年 2 月，首席執行官吳泳銘表示，公司目前的 “首要目標” 是實現通用人工智能（AGI）——即打造具備人類智力水平的 AI 系統。

阿里表示，Qwen3 代表了該公司在通往通用人工智能（AGI）和超級人工智能（ASI）旅程中的一個重要里程碑。展望未來，阿里計劃從多個維度提升模型，包括優化模型架構和訓練方法，以實現幾個關鍵目標：擴展數據規模、增加模型大小、延長上下文長度、拓寬模態範圍，並利用環境反饋推進強化學習以進行長週期推理。

開源社區振奮

阿里 Qwen3 的發佈讓 AI 社區感到激動，有網友獻上經典 Meme：

有網友説，

在我的測試中，235B 在高維張量運算方面的表現相當於 Sonnet。
這是一個非常出色的模型，
感謝你們。

有網友對 Qwen3 讚不絕口：

如果不是親眼看到屏幕上實時生成的 tokens，我根本不會相信那些基準測試結果。???? 簡直像魔法一樣？???

而開源 AI 的支持者則更加興奮。有網友説：

“有了一個開源 32B 大模型，性能跟 Gemini 2.5 Pro 不相上下。”
“我們徹底殺回來了！”

網友感謝阿里積極推動開源：