For the first time in six years! OpenAI's new model opens weights, Altman calls it "the world's best open model"

Altman 稱 gpt-oss 為最先進的開放權重推理模型。OpenAI 稱，gpt-oss-120b 在核心推理基準測試中接近 o4-mini 的表現，在健康相關查詢和競賽數學方面甚至超過後者；較小的 gpt-oss-20b 模型在評估中達到或超過 o3-mini 性能；較小的模型適合搭載蘋果芯片的 Mac 電腦。亞馬遜宣佈旗下平台 Bedrock 和 SageMaker 將提供這兩款模型，為該司首次向客户提供 OpenAI 模型。

OpenAI 向開源模型邁出重要一步：六年來首次推出開放權重模型。

美東時間 8 月 5 日週二，OpenAI 發佈了兩款免費試用的開放權重語言模型 gpt-oss-120b 和 gpt-oss-20b。這是 OpenAI 自 2019 年推出 GPT-2 以來首次發佈開放權重模型，也是 OpenAI 與微軟簽署獨家雲服務協議六年來問世的首批此類模型。

兩款新模型可以根據用户提示生成文本內容，允許開發者定製，但 OpenAI 並沒有提供用於訓練模型的數據。評論認為，OpenAI 的新模型直接回應了 Meta、微軟支持的 Mistral AI 以及中國初創新星 DeepSeek 等競爭對手在開放權重模型領域的挑戰。

OpenAI 的 CEO Sam Altman 在社交媒體表示：

"gpt-oss 是一個重大突破，這是最先進的開放權重推理模型，具有與 o4-mini 相當的強大現實世界性能，可以在你自己的電腦（或手機的較小版本）上本地運行。我們相信這是世界上最好、最實用的開放模型。"

gpt-oss-120b 和 gpt-oss-20b 被設計為低成本的 GPT 模型選項，開發者、研究人員和企業可以輕鬆運行和定製。gpt-oss-20b 可在 16GB 內存的筆記本電腦上運行，gpt-oss-120b 需要約 80GB 內存，兩款模型均支持高級推理、工具使用和思維鏈處理。

Altman 稱，這兩款模型可在個人電腦（PC）甚至手機上本地運行，無需互聯網連接，為用户提供完全的控制權和隱私保護。

同時，亞馬遜宣佈將首次向客户提供 OpenAI 的模型，計劃在其 Bedrock 和 SageMaker 平台上提供 OpenAI 的開放 AI 權重新模型。這是雲計算巨頭亞馬遜首次提供 OpenAI 的產品。

gpt-oss-20b 和 120b 的發佈標誌着 OpenAI 戰略轉向的重要節點，此前該公司多次推遲開放權重模型發佈，並進行了廣泛的安全測試和評估，以確保模型不被惡意利用。

所謂的開放權重是介於開源和閉源的一種中間形態，意味着企業和政府機構可以自主運行該模型，因為他們可以查看模型的權重並進行修改。而開源的情況下，用户可以查看模型的源代碼組成，有時包括訓練和權重分配方式。

此前評論認為，OpenAI 推出開放權重模型可能削弱微軟在 AI 業務中的獨家優勢。本週二 OpenAI 稱，微軟會將 gpt-oss-20b 模型的 GPU 優化版本引入 Windows 設備。這些模型由 ONNX Runtime 支持，支持本地推理，可通過 Foundry Local 和 AI Toolkit for VS Code 獲取，從而讓 Windows 開發者更輕鬆地使用開放模型進行構建。

gpt-oss-120b 部分測試性能甚至超過 o4-mini 20b 部分測試超過 o3‑mini

OpenAI 介紹，兩款 gpt-oss 模型採用了其最先進的預訓練和後訓練技術，特別注重推理、效率和跨部署環境的實用性。它們都是使用專家混合（MoE）架構的 Transformer，以減少處理輸入所需的活躍參數數量。

gpt-oss-120b 每個 token 激活 5.1 億參數，總參數量為 1170 億；gpt-oss-20b 激活 3.6B 參數，總參數量為 210 億。模型使用交替的密集和局部帶狀稀疏注意力模式，支持高達 128k 的上下文長度。

OpenAI 稱 gpt-oss-20b 是一款中型開放模型，gpt-oss-120b 則是可在 “大多數台式機和筆記本電腦” 上運行的大型開放模型。

OpenAI 表示，較小的模型至少需要 16GB 顯存或統一內存才能發揮最佳性能，並且 “非常適合高端消費級 GPU 和搭載蘋果芯片的 Mac 電腦”。較大的全尺寸模型則需要至少 60GB 顯存或統一內存。

在性能評估方面，OpenAI 披露，gpt-oss-120b 在核心推理基準測試中接近 OpenAI o4-mini 的表現。較小的 gpt-oss-20b 模型在相同評估中達到或超過 OpenAI o3-mini 的性能。

gpt-oss-120b 在競賽編碼（Codeforces）、通用問題求解（MMLU 和 HLE）以及工具調用（TauBench）方面均優於 OpenAI o3‑mini，並匹敵甚至超越了 OpenAI o4-mini。它在健康相關查詢（HealthBench⁠）和競賽數學（AIME 2024 和 2025）方面的表現甚至超過 o4-mini。

即使規模較小，gpt-oss-20b 在上述同類的評估中也匹敵甚至超越了 OpenAI o3‑mini，甚至在競賽數學和健康方面也超越了後者。

安全防護與惡意使用預防

OpenAI 對開放權重模型的安全性給予了特別關注，因為一旦發佈，對手可能對模型進行惡意微調。該公司在預訓練期間過濾了與化學、生物、放射性和核（CBRN）相關的有害數據。

為直接評估風險，OpenAI 對模型進行了專門的生物學和網絡安全數據微調，創建了攻擊者可能製作的特定領域非拒絕版本。經過內部和外部測試，這些惡意微調的模型無法達到其準備框架中的"高能力"閾值。

OpenAI 還與三個獨立專家組合作，對其惡意微調評估提供反饋。Altman 強調："我們努力減輕最嚴重的安全問題，特別是在生物安全方面。gpt-oss 模型在內部安全基準測試中的表現與我們的前沿模型相當。"

生態系統部署與市場影響

兩個模型在 Apache 2.0 許可下免費提供，用户可以通過 Hugging Face 和 GitHub 等平台下載。雲服務提供商亞馬遜、Baseten 和微軟也將提供這些模型。

OpenAI 與包括 Azure、vLLM、Ollama、AWS、Fireworks 等領先部署平台合作，使開發者能夠廣泛使用這些模型。微軟還將 GPU 優化版本的 gpt-oss-20b 模型引入 Windows 設備。

該公司正在舉辦紅隊挑戰賽，獎金池為 50 萬美元，鼓勵全球研究人員、開發者和愛好者幫助識別新的安全問題。Altman 表示："我們相信這將帶來更多好處而非壞處，我們期待這一發布能夠實現新型研究並創造新型產品。"

競爭壓力推動戰略轉變

OpenAI 此次發佈開放權重模型很大程度上受到市場競爭壓力驅動，特別是來自中國 DeepSeek 的挑戰。自 2019 年以來，該公司一直專注於通過 API 提供專有模型服務，而競爭對手紛紛推出開放權重替代方案。

OpenAI 總裁 Greg Brockman 在本週二的記者會上表示："看到生態系統的發展令人興奮，我們很高興能為此做出貢獻，真正推動前沿發展，然後看看會發生什麼。"

OpenAI 與英偉達、AMD、Cerebras 和 Groq 等芯片製造商合作，確保模型在各種芯片上良好運行。英偉達 CEO 黃仁勳在聲明中稱："OpenAI 向世界展示了在英偉達 AI 上可以構建什麼——現在他們正在推進開源軟件的創新。"