Nvidia focuses on intelligent agents! The open-source model Nemotron 3 Super has 120 billion parameters and a fivefold increase in throughput

Nemotron 3 Super 推理時僅激活 120 億活躍參數，原生支持 100 萬 token 上下文窗口；性能躍升來自三項架構創新：混合 Mamba-Transformer 骨幹網絡、潛在專家混合模型（latent MoE）、多 token 預測（MTP）。該模型在 Blackwell 平台以 NVFP4 精度運行，推理速度最高提升至 Hopper 平台 FP8 的四倍，且精度無損失。Perplexity 成為首家接入該模型執行智能體任務的合作方。

英偉達正在自主智能體基礎設施競爭中發力，標誌着這家芯片巨頭在人工智能（AI）競賽中從硬件供應商向模型層深度延伸的戰略轉變。

美東時間 11 日週三，英偉達宣佈推出新一代開源大語言模型 Nemotron 3 Super，專為企業級多智能體系統設計，憑藉全新的混合專家（MoE）架構，將推理吞吐量提升至上一代模型的五倍以上。該模型的總參數量達 1200 億，推理時僅激活 120 億參數，原生支持 100 萬 token 上下文窗口。

英偉達表示，Nemotron 3 Super 在效率與開放性方面已登頂 Artificial Analysis 榜首，同等規模模型中準確率領先，並驅動英偉達 AI-Q 研究智能體在 DeepResearch Bench 及 DeepResearch Bench II 兩大排行榜中位列第一。

英偉達披露了 Nemotron 3 Super 的首批合作伙伴。AI 搜索公司 Perplexity 成為首家接入該模型執行智能體任務的合作方，為用户提供搜索及 Computer 產品中的多智能體編排服務。Palantir、西門子、Cadence、達索系統及 Amdocs 等企業軟件巨頭也已宣佈將部署該模型，用於電信、網絡安全、半導體設計及製造等領域的工作流自動化。

Nemotron 3 Super 模型現已通過英偉達旗下 build.nvidia.com、Hugging Face 及 OpenRouter 等渠道向開發者開放。

兩大瓶頸催生新架構

英偉達在博客中指出，企業從聊天機器人邁向多智能體應用時，面臨兩項核心約束。

其一為"上下文爆炸"：多智能體工作流每次交互均需重新傳輸完整歷史記錄（含工具輸出和中間推理步驟），生成的 token 數量最高可達標準對話的 15 倍。隨着任務延伸，這一海量上下文不僅推高成本，還會導致"目標漂移"——智能體逐漸偏離原始目標。

其二為"思考税"：複雜智能體須在每一步驟進行推理，若每個子任務均調用大型模型，多智能體應用將因成本高昂、響應遲緩而難以落地。

Nemotron 3 Super 通過 100 萬 token 原生上下文窗口直接回應上下文爆炸問題，確保智能體在超長任務中保持狀態連貫，防止目標漂移。而混合架構設計則針對性化解思考税。

三重架構創新支撐五倍提速

英偉達博客披露，Nemotron 3 Super 的性能躍升來自三項架構層面的核心創新。

混合 Mamba-Transformer 骨幹網絡：模型交錯部署 Mamba-2 層與 Transformer 注意力層。Mamba 層處理大部分序列任務，以線性時間複雜度提供 4 倍內存與計算效率提升，使百萬 token 上下文窗口具備實際可行性；Transformer 層則在關鍵深度插入，保障精確的關聯召回能力。
潛在專家混合模型（latent MoE）：在路由決策前，將 token 嵌入壓縮至低秩潛空間，專家計算在該較小維度內完成後再投影回全維度。英偉達表示，這一設計使模型以相同推理成本激活 4 倍數量的專家，實現更細粒度的專業化路由——例如針對 Python 語法與 SQL 邏輯分別激活不同專家。
多 token 預測（MTP）：模型在單次前向傳播中同步預測多個未來 token，而非逐 token 生成。英偉達稱，這一設計在訓練階段強化了模型對長程邏輯依賴的內化，在推理階段則內置推測解碼能力，對代碼和工具調用等結構化生成任務實現最高 3 倍的速度提升，且無需額外草稿模型。

在英偉達 Blackwell 平台上，該模型以 NVFP4 精度運行，相比英偉達 Hopper 平台的 FP8，推理速度最高提升至 4 倍，且據英偉達稱精度無損失。

開放權重疊加多層生態佈局

與當前主流前沿模型普遍採用 API-only 訪問方式不同，英偉達選擇以寬鬆許可協議開放 Nemotron 3 Super 的權重、數據集與訓練方案，開發者可在工作站、數據中心或雲端自由部署與定製。

英偉達同步公開了完整的訓練與評估方案，涵蓋預訓練至對齊的全流程，併發布超過 10 萬億 token 的預訓練及後訓練數據集、21 個強化學習訓練環境以及評估方案。預訓練階段，模型在 25 萬億 token 上以 NVFP4 原生精度訓練，從首次梯度更新起即在 4 位浮點運算約束下學習準確性，而非事後量化。

在生態層面，英偉達已與谷歌雲 Vertex AI、甲骨文雲基礎設施、戴爾技術、HPE 等主流雲服務商及硬件廠商達成合作，亞馬遜 AWS Bedrock 及微軟 Azure 的接入亦在籌備中。CodeRabbit、Factory、Greptile 等軟件開發智能體公司，以及生命科學機構 Edison Scientific 和 Lila Sciences，也已宣佈將該模型整合至其智能體工作流。

"Super+Nano"組合部署

英偉達在博客中還闡述了 Nemotron 3 系列的協同部署邏輯。去年 12 月推出的 Nemotron 3 模型 Nano 版本適合處理智能體工作流中針對性的單步任務，Nemotron 3 Super 則專為需要深度規劃與推理的複雜多步驟任務而設計。

以軟件開發場景為例，英偉達建議：簡單的合併請求可由 Nano 處理，涉及對代碼庫深度理解的複雜編碼任務交由 Super 承擔，而專家級任務則可進一步調用第三方專有模型。這一分層架構旨在幫助企業在成本與能力之間尋求最優平衡。

在具體應用場景上，英偉達博客舉例稱，軟件開發智能體可將整個代碼庫一次性加載至上下文，實現端到端代碼生成與調試；金融分析場景下可將數千頁報告載入內存，省去跨長對話的重複推理；網絡安全中的自主安全編排場景則可受益於高精度工具調用，避免在高風險環境中出現執行錯誤。

硬件護城河的模型層延伸

英偉達此次開放模型策略背後是一套清晰的商業邏輯。此前，英偉達主要通過向 OpenAI、谷歌等模型提供商出售 GPU 積累 AI 領域主導地位。如今，若 Nemotron 成為企業智能體 AI 的主流基礎模型，大規模運行該模型所需的 GPU 基礎設施仍將倚重英偉達——在模型層推進開放的同時，鞏固硬件層的需求鎖定。

目前，Nemotron 3 Super 已通過英偉達 NIM 微服務打包交付，支持從本地到雲端的靈活部署。性能數據能否在生產級工作負載下得到驗證，以及企業客户如何在開放靈活性與競爭對手專有模型能力之間做出取捨，將是檢驗這一戰略成效的關鍵變量。