For the first time in six years! OpenAI's new model opens weights, Altman calls it "the world's best open model"

華爾街見聞
2025.08.05 18:43
portai
I'm PortAI, I can summarize articles.

Altman 稱 gpt-oss 為最先進的開放權重推理模型。OpenAI 稱,gpt-oss-120b 在核心推理基準測試中接近 o4-mini 的表現,在健康相關查詢和競賽數學方面甚至超過後者;較小的 gpt-oss-20b 模型在評估中達到或超過 o3-mini 性能;較小的模型適合搭載蘋果芯片的 Mac 電腦。亞馬遜宣佈旗下平台 Bedrock 和 SageMaker 將提供這兩款模型,為該司首次向客户提供 OpenAI 模型。

OpenAI 向開源模型邁出重要一步:六年來首次推出開放權重模型。

美東時間 8 月 5 日週二,OpenAI 發佈了兩款免費試用的開放權重語言模型 gpt-oss-120b 和 gpt-oss-20b。這是 OpenAI 自 2019 年推出 GPT-2 以來首次發佈開放權重模型,也是 OpenAI 與微軟簽署獨家雲服務協議六年來問世的首批此類模型。

兩款新模型可以根據用户提示生成文本內容,允許開發者定製,但 OpenAI 並沒有提供用於訓練模型的數據。評論認為,OpenAI 的新模型直接回應了 Meta、微軟支持的 Mistral AI 以及中國初創新星 DeepSeek 等競爭對手在開放權重模型領域的挑戰。

OpenAI 的 CEO Sam Altman 在社交媒體表示:

"gpt-oss 是一個重大突破,這是最先進的開放權重推理模型,具有與 o4-mini 相當的強大現實世界性能,可以在你自己的電腦(或手機的較小版本)上本地運行。我們相信這是世界上最好、最實用的開放模型。"

gpt-oss-120b 和 gpt-oss-20b 被設計為低成本的 GPT 模型選項,開發者、研究人員和企業可以輕鬆運行和定製。gpt-oss-20b 可在 16GB 內存的筆記本電腦上運行,gpt-oss-120b 需要約 80GB 內存,兩款模型均支持高級推理、工具使用和思維鏈處理。

Altman 稱,這兩款模型可在個人電腦(PC)甚至手機上本地運行,無需互聯網連接,為用户提供完全的控制權和隱私保護。

同時,亞馬遜宣佈將首次向客户提供 OpenAI 的模型,計劃在其 Bedrock 和 SageMaker 平台上提供 OpenAI 的開放 AI 權重新模型。這是雲計算巨頭亞馬遜首次提供 OpenAI 的產品。

gpt-oss-20b 和 120b 的發佈標誌着 OpenAI 戰略轉向的重要節點,此前該公司多次推遲開放權重模型發佈,並進行了廣泛的安全測試和評估,以確保模型不被惡意利用。

所謂的開放權重是介於開源和閉源的一種中間形態,意味着企業和政府機構可以自主運行該模型,因為他們可以查看模型的權重並進行修改。而開源的情況下,用户可以查看模型的源代碼組成,有時包括訓練和權重分配方式。

此前評論認為,OpenAI 推出開放權重模型可能削弱微軟在 AI 業務中的獨家優勢。本週二 OpenAI 稱,微軟會將 gpt-oss-20b 模型的 GPU 優化版本引入 Windows 設備。這些模型由 ONNX Runtime 支持,支持本地推理,可通過 Foundry Local 和 AI Toolkit for VS Code 獲取,從而讓 Windows 開發者更輕鬆地使用開放模型進行構建。

gpt-oss-120b 部分測試性能甚至超過 o4-mini 20b 部分測試超過 o3‑mini

OpenAI 介紹,兩款 gpt-oss 模型採用了其最先進的預訓練和後訓練技術,特別注重推理、效率和跨部署環境的實用性。它們都是使用專家混合(MoE)架構的 Transformer,以減少處理輸入所需的活躍參數數量。

gpt-oss-120b 每個 token 激活 5.1 億參數,總參數量為 1170 億;gpt-oss-20b 激活 3.6B 參數,總參數量為 210 億。模型使用交替的密集和局部帶狀稀疏注意力模式,支持高達 128k 的上下文長度。

OpenAI 稱 gpt-oss-20b 是一款中型開放模型,gpt-oss-120b 則是可在 “大多數台式機和筆記本電腦” 上運行的大型開放模型。

OpenAI 表示,較小的模型至少需要 16GB 顯存或統一內存才能發揮最佳性能,並且 “非常適合高端消費級 GPU 和搭載蘋果芯片的 Mac 電腦”。較大的全尺寸模型則需要至少 60GB 顯存或統一內存。

在性能評估方面,OpenAI 披露,gpt-oss-120b 在核心推理基準測試中接近 OpenAI o4-mini 的表現。較小的 gpt-oss-20b 模型在相同評估中達到或超過 OpenAI o3-mini 的性能。

gpt-oss-120b 在競賽編碼(Codeforces)、通用問題求解(MMLU 和 HLE)以及工具調用(TauBench)方面均優於 OpenAI o3‑mini,並匹敵甚至超越了 OpenAI o4-mini。它在健康相關查詢(HealthBench⁠)和競賽數學(AIME 2024 和 2025)方面的表現甚至超過 o4-mini。

即使規模較小,gpt-oss-20b 在上述同類的評估中也匹敵甚至超越了 OpenAI o3‑mini,甚至在競賽數學和健康方面也超越了後者。

安全防護與惡意使用預防

OpenAI 對開放權重模型的安全性給予了特別關注,因為一旦發佈,對手可能對模型進行惡意微調。該公司在預訓練期間過濾了與化學、生物、放射性和核(CBRN)相關的有害數據。

為直接評估風險,OpenAI 對模型進行了專門的生物學和網絡安全數據微調,創建了攻擊者可能製作的特定領域非拒絕版本。經過內部和外部測試,這些惡意微調的模型無法達到其準備框架中的"高能力"閾值。

OpenAI 還與三個獨立專家組合作,對其惡意微調評估提供反饋。Altman 強調:"我們努力減輕最嚴重的安全問題,特別是在生物安全方面。gpt-oss 模型在內部安全基準測試中的表現與我們的前沿模型相當。"

生態系統部署與市場影響

兩個模型在 Apache 2.0 許可下免費提供,用户可以通過 Hugging Face 和 GitHub 等平台下載。雲服務提供商亞馬遜、Baseten 和微軟也將提供這些模型。

OpenAI 與包括 Azure、vLLM、Ollama、AWS、Fireworks 等領先部署平台合作,使開發者能夠廣泛使用這些模型。微軟還將 GPU 優化版本的 gpt-oss-20b 模型引入 Windows 設備。

該公司正在舉辦紅隊挑戰賽,獎金池為 50 萬美元,鼓勵全球研究人員、開發者和愛好者幫助識別新的安全問題。Altman 表示:"我們相信這將帶來更多好處而非壞處,我們期待這一發布能夠實現新型研究並創造新型產品。"

競爭壓力推動戰略轉變

OpenAI 此次發佈開放權重模型很大程度上受到市場競爭壓力驅動,特別是來自中國 DeepSeek 的挑戰。自 2019 年以來,該公司一直專注於通過 API 提供專有模型服務,而競爭對手紛紛推出開放權重替代方案。

OpenAI 總裁 Greg Brockman 在本週二的記者會上表示:"看到生態系統的發展令人興奮,我們很高興能為此做出貢獻,真正推動前沿發展,然後看看會發生什麼。"

OpenAI 與英偉達、AMD、Cerebras 和 Groq 等芯片製造商合作,確保模型在各種芯片上良好運行。英偉達 CEO 黃仁勳在聲明中稱:"OpenAI 向世界展示了在英偉達 AI 上可以構建什麼——現在他們正在推進開源軟件的創新。"