DeepSeek becomes the world's second-largest AI laboratory, OpenAI and Google are restless

華爾街見聞
2025.05.30 07:16
portai
I'm PortAI, I can summarize articles.

DeepSeek 憑藉新版 R1 成為全球第二大 AI 實驗室,與谷歌並列。根據 Artificial Analysis 的報告,DeepSeek 的 AI 分析指數從 60 分躍升至 68 分,超越 xAI、Meta 和 Anthropic。該指數評估了多個領先模型,DeepSeek 的進步與 OpenAI 的 o1 和 o3 相當。社交平台上,網友對 DeepSeek 的表現表示讚賞,認為其飛躍是開源 AI 的里程碑,但也有人指出基準測試與實際應用的差異。

DeepSeek 憑新版 R1 躋身全球第二,開源戰力封王。

智東西 5 月 30 日消息,今日,知名獨立 AI 基準測試和分析機構 Artificial Analysis 發佈報告並提到,DeepSeek 憑藉新版 R1 超越 xAI、Meta 和 Anthropic,成為(與谷歌)並列的全球第二大 AI 實驗室。報告一經分享,就在社交平台 X 上獲得了超 30 萬的瀏覽量以及大量網友討論和轉發。

在該機構提出的 AI 分析指數中,DeepSeek-R1-0528 的指數從 60 分躍升至第 68 分,與谷歌 Gemini 2.5 Pro 並列第三。這一 AI 分析指數是 Artificial Analysis 對所有領先模型獨立進行的 MMLU-Pro、GPQA Diamond 等 7 項領先評估的指數。

DeepSeek 本次增幅與 OpenAI 的 o1 和 o3 之間的差異(從 62 分到第 70 分)相同。這使 DeepSeek R1 的智能程度超越了 xAI 的 Grok 3 mini(高版本)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen3-235B,並與谷歌的 Gemini 2.5 Pro 相當。

▲社交平台 X 上的網友評論(英文已翻譯為中文)

在 X 平台上,眾多外國網友發出 “真快!”、“極好的!”“令人印象深刻” 等讚歎。

有網友稱 DeepSeek-R1-0528 的 “飛躍是開源 AI 的里程碑”,有的則讚歎其 RL(強化學習)驅動改進的成功表明 “RL 比預訓練更有效率”。同時,也有網友認為基準測試與實際應用仍有區別。

▲社交平台 X 上的網友評論(英文已翻譯為中文)

還有網友聯想到 AI 競爭,稱 “DeepSeek 的 R1 動作就像在參加比賽一樣”,並表示隨着下一輪基準測試到來,遊戲才剛剛開始。

▲社交平台 X 上的網友評論(英文已翻譯為中文)

DeepSeek 成全球第二大 AI 實驗室 開源領域第一

Artificial Analysis 的 AI 分析指數包含 7 項評估:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME、MATH-500。

DeepSeek-R1-0528 實現了多方面智能提升:最大的突破體現在 AIME 2024(競賽數學,+21 分)、LiveCodeBench(代碼生成,+15 分)、GPQA Diamond(科學推理,+10 分)和人類的最後考試(推理與知識,+6 分)中。

如下圖所示,DeepSeek-R1-0528 在 AI 分析指數得分達到 68 分,僅次於 OpenAI o4-mini(高版本)的 70 分和 OpenAI o3 的 69 分。與谷歌 Gemini 2.5 Pro 的 68 分持平。

開源模型和封閉模型之間的差距比以往任何時候都小。如下圖所示,藍色矩形代表開原模型,黑色矩形代表封閉模型,DeepSeek-R1-0528 以 68 分穩居第一,而後是 62 分的 Qwen3-235B。

編程和數學能力突出 三年裏一直加速追趕

拆開來看,在編程能力(參考 LiveCodeBench 和 SciCode 測試)上,DeepSeek-R1-0528 以 59 分居於並列第二位,僅次於 OpenAI o4-mini(高版本)的 63 分。

在數學能力(參考 AIME 2024 和 Math-500)上,DeepSeek-R1-0528 以 94 分居於第四位,僅次於 OpenAI o4-mini(高版本)的 96 分、Grok 3 mini Reasoning(高版本)的 96 分和 OpenAI o3 的 95 分。

將時間維度拉長,可以看到三年以來 DeepSeek 一直在縮短與 OpenAI 的差距。其一直保持着領先的 AI 實驗室地位,在 2025 年 1 月大幅就逼近 OpenAI。

DeepSeek 在 1 月份發佈的 R1 版本是開放權重模型首次獲得第二名,而 DeepSeek 今天的 R1 更新使其重回同一位置。

智能和價格的平衡 “性價比之王”

從價格來看,DeepSeek-R1-0528 的價格為 0.96 美元/百萬 tokens,OpenAI o4-mini(高版本)的價格為 1.93 美元/百萬 tokens,OpenAI o3 的價格甚至高達 17.5 美元/百萬 tokens。DeepSeek-R1-0528 堪稱 “性價比之王”。注意,這裏的價格由輸入價格和輸出價格(3:1 比例)綜合而成。

從輸入輸出各自價格來看,DeepSeek-R1-0528 輸入價格為 0.55 美元/百萬 tokens,輸出價格為 2.19 美元/百萬 tokens。其低於 OpenAI o4-mini(高版本)的輸入價格 1.1 美元/百萬 tokens,輸出價格 4.4 美元/百萬 tokens;遠低於 o3 的輸入價格 10 美元/百萬 tokens,輸出價格 40 美元/百萬 tokens。

從輸出速度來看,DeepSeek-R1-0528 輸出速度達到 32.01tokens/秒,OpenAI o4-mini(高版本)的速度為 129.37tokens/秒,o3 的速度為 150.73tokens/秒。

從第一個應答 token 的時間來看,DeepSeek-R1-0528 的 “思考” 時間達到 65.6 秒,思考較久。

此外,DeepSeek 新版 R1 增加了 token 使用量:R1-0528 使用了 9900 萬個 token 來完成 AI 分析指數的評估,比原始 R1 的 7100 萬個 token 多 40%,即新的 R1 比原始 R1 思考的時間更長。這仍然不是我們所見過的最高 token 使用量:Gemini 2.5 Pro 使用的 token 比 R1-0528 多 30%。

結語:開源媲美閉源 中國 AI 實驗室趕上美國同行

當下,開源模型和封閉模型之間的差距比以往任何時候都小。DeepSeek 在 1 月份發佈的 R1 版本是開放權重模型首次獲得第二名,而 DeepSeek 今天的 R1 更新使其重回同一位置。

同時,來自中國 AI 實驗室的模型幾乎完全趕上了美國同行,這次發佈的版本延續了這一新興趨勢。截至今天,DeepSeek 在 AI 分析智能指數方面領先於包括 Anthropic 和 Meta 在內的美國 AI 實驗室。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。