DeepSeek becomes the world's second-largest AI laboratory, OpenAI and Google are restless

DeepSeek 憑藉新版 R1 成為全球第二大 AI 實驗室，與谷歌並列。根據 Artificial Analysis 的報告，DeepSeek 的 AI 分析指數從 60 分躍升至 68 分，超越 xAI、Meta 和 Anthropic。該指數評估了多個領先模型，DeepSeek 的進步與 OpenAI 的 o1 和 o3 相當。社交平台上，網友對 DeepSeek 的表現表示讚賞，認為其飛躍是開源 AI 的里程碑，但也有人指出基準測試與實際應用的差異。

DeepSeek 憑新版 R1 躋身全球第二，開源戰力封王。

智東西 5 月 30 日消息，今日，知名獨立 AI 基準測試和分析機構 Artificial Analysis 發佈報告並提到，DeepSeek 憑藉新版 R1 超越 xAI、Meta 和 Anthropic，成為（與谷歌）並列的全球第二大 AI 實驗室。報告一經分享，就在社交平台 X 上獲得了超 30 萬的瀏覽量以及大量網友討論和轉發。

在該機構提出的 AI 分析指數中，DeepSeek-R1-0528 的指數從 60 分躍升至第 68 分，與谷歌 Gemini 2.5 Pro 並列第三。這一 AI 分析指數是 Artificial Analysis 對所有領先模型獨立進行的 MMLU-Pro、GPQA Diamond 等 7 項領先評估的指數。

DeepSeek 本次增幅與 OpenAI 的 o1 和 o3 之間的差異（從 62 分到第 70 分）相同。這使 DeepSeek R1 的智能程度超越了 xAI 的 Grok 3 mini（高版本）、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen3-235B，並與谷歌的 Gemini 2.5 Pro 相當。

▲社交平台 X 上的網友評論（英文已翻譯為中文）

在 X 平台上，眾多外國網友發出 “真快！”、“極好的！”“令人印象深刻” 等讚歎。

有網友稱 DeepSeek-R1-0528 的 “飛躍是開源 AI 的里程碑”，有的則讚歎其 RL（強化學習）驅動改進的成功表明 “RL 比預訓練更有效率”。同時，也有網友認為基準測試與實際應用仍有區別。

▲社交平台 X 上的網友評論（英文已翻譯為中文）

還有網友聯想到 AI 競爭，稱 “DeepSeek 的 R1 動作就像在參加比賽一樣”，並表示隨着下一輪基準測試到來，遊戲才剛剛開始。

▲社交平台 X 上的網友評論（英文已翻譯為中文）

DeepSeek 成全球第二大 AI 實驗室開源領域第一

Artificial Analysis 的 AI 分析指數包含 7 項評估：MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME、MATH-500。

DeepSeek-R1-0528 實現了多方面智能提升：最大的突破體現在 AIME 2024（競賽數學，+21 分）、LiveCodeBench（代碼生成，+15 分）、GPQA Diamond（科學推理，+10 分）和人類的最後考試（推理與知識，+6 分）中。

如下圖所示，DeepSeek-R1-0528 在 AI 分析指數得分達到 68 分，僅次於 OpenAI o4-mini（高版本）的 70 分和 OpenAI o3 的 69 分。與谷歌 Gemini 2.5 Pro 的 68 分持平。

開源模型和封閉模型之間的差距比以往任何時候都小。如下圖所示，藍色矩形代表開原模型，黑色矩形代表封閉模型，DeepSeek-R1-0528 以 68 分穩居第一，而後是 62 分的 Qwen3-235B。

編程和數學能力突出三年裏一直加速追趕

拆開來看，在編程能力（參考 LiveCodeBench 和 SciCode 測試）上，DeepSeek-R1-0528 以 59 分居於並列第二位，僅次於 OpenAI o4-mini（高版本）的 63 分。

在數學能力（參考 AIME 2024 和 Math-500）上，DeepSeek-R1-0528 以 94 分居於第四位，僅次於 OpenAI o4-mini（高版本）的 96 分、Grok 3 mini Reasoning（高版本）的 96 分和 OpenAI o3 的 95 分。

將時間維度拉長，可以看到三年以來 DeepSeek 一直在縮短與 OpenAI 的差距。其一直保持着領先的 AI 實驗室地位，在 2025 年 1 月大幅就逼近 OpenAI。

DeepSeek 在 1 月份發佈的 R1 版本是開放權重模型首次獲得第二名，而 DeepSeek 今天的 R1 更新使其重回同一位置。

智能和價格的平衡 “性價比之王”

從價格來看，DeepSeek-R1-0528 的價格為 0.96 美元/百萬 tokens，OpenAI o4-mini（高版本）的價格為 1.93 美元/百萬 tokens，OpenAI o3 的價格甚至高達 17.5 美元/百萬 tokens。DeepSeek-R1-0528 堪稱 “性價比之王”。注意，這裏的價格由輸入價格和輸出價格（3:1 比例）綜合而成。

從輸入輸出各自價格來看，DeepSeek-R1-0528 輸入價格為 0.55 美元/百萬 tokens，輸出價格為 2.19 美元/百萬 tokens。其低於 OpenAI o4-mini（高版本）的輸入價格 1.1 美元/百萬 tokens，輸出價格 4.4 美元/百萬 tokens；遠低於 o3 的輸入價格 10 美元/百萬 tokens，輸出價格 40 美元/百萬 tokens。

從輸出速度來看，DeepSeek-R1-0528 輸出速度達到 32.01tokens/秒，OpenAI o4-mini（高版本）的速度為 129.37tokens/秒，o3 的速度為 150.73tokens/秒。

從第一個應答 token 的時間來看，DeepSeek-R1-0528 的 “思考” 時間達到 65.6 秒，思考較久。

此外，DeepSeek 新版 R1 增加了 token 使用量：R1-0528 使用了 9900 萬個 token 來完成 AI 分析指數的評估，比原始 R1 的 7100 萬個 token 多 40%，即新的 R1 比原始 R1 思考的時間更長。這仍然不是我們所見過的最高 token 使用量：Gemini 2.5 Pro 使用的 token 比 R1-0528 多 30%。

結語：開源媲美閉源中國 AI 實驗室趕上美國同行

當下，開源模型和封閉模型之間的差距比以往任何時候都小。DeepSeek 在 1 月份發佈的 R1 版本是開放權重模型首次獲得第二名，而 DeepSeek 今天的 R1 更新使其重回同一位置。

同時，來自中國 AI 實驗室的模型幾乎完全趕上了美國同行，這次發佈的版本延續了這一新興趨勢。截至今天，DeepSeek 在 AI 分析智能指數方面領先於包括 Anthropic 和 Meta 在內的美國 AI 實驗室。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

DeepSeek becomes the world's second-largest AI laboratory, OpenAI and Google are restless

DeepSeek 成全球第二大 AI 實驗室 開源領域第一

編程和數學能力突出 三年裏一直加速追趕

智能和價格的平衡 “性價比之王”

結語：開源媲美閉源 中國 AI 實驗室趕上美國同行

DeepSeek 成全球第二大 AI 實驗室開源領域第一

編程和數學能力突出三年裏一直加速追趕

結語：開源媲美閉源中國 AI 實驗室趕上美國同行