The new version of Gemini 2.5 has taken all the top spots, Google is invincible! It has completely defeated o3 in a month, and programming has surpassed Claude 4

華爾街見聞
2025.06.06 04:46
portai
I'm PortAI, I can summarize articles.

谷歌推出新版 Gemini 2.5 Pro,迅速在各項基準測試中取得領先,全面擊敗 o3 和 Claude 4。新模型在數學、編程和推理測試中刷新 SOTA,Elo 評分提升 24 分,Web Arena 上更是提升 35 分。Gemini 2.5 Pro 保持原價,性價比高,且引入了「思考預算」等新功能,預計幾周後將成為穩定版本,適合企業級應用。

凌晨,谷歌帶着全新的 Gemini 2.5 Pro 炸場了!

僅一個月的時間,Gemini 2.5 Pro(06-05)直接幹趴了 I/O 大會放出的 Gemini 2.5 Pro(05-06)。

果然,能打敗谷歌的,只有谷歌自己。

這次,Gemini 2.5 Pro(06-05)依舊是所有榜一。

在數學、編程、推理基準測試中,新版模型全部刷新 SOTA,完全碾壓 o3、Claude 4、DeepSeek-R1。

相較於上一代,Gemini 2.5 Pro 整體 Elo 提升了 24 分,尤其是在 Web Arena 上 Elo 提升了足足 35 分。

值得一提的是,更新後版本 token 依舊維持原價,性價比極高,輸出價格僅為 o3 的四分之一,Claude 4 就更別提了。

而且,Gemini 2.5 Pro(06-05)還引入了「思考預算」,最高達 32k,還改進了函數調用等功能。

Gemini 2.5 數學編碼再進化,所有榜一

新版 Gemini 2.5 Pro(06-05)和舊版 Gemini 2.5 Pro(05-06),名字後面版本的時間,值得玩味。

很明顯,谷歌這次特意選擇在這個時間點放出新模型。

根據官博介紹,此次是 Gemini 2.5 Pro 的升級預覽版,這是谷歌迄今最智能的模型。

升級基於 5 月 I/O 大會展示的基礎上,這個模型將在幾周後成為普遍可用的穩定版本,適合企業級應用。

最新的 2.5 Pro 在 LMArena 排行榜上 Elo 分數躍升 24 分,達到了 1470,穩居榜首。

更誇張的是,它在所有領域裏都排名第一。

在 WebDevArena 上實現了 35 分的 Elo 評分飛躍,達到 1443 分。

它在編程方面表現卓越,在 Aider Polyglot 等高難度編程基準測試中名列前茅。

同時,它在 GPQA 和「人類最後考試」(HLE)等極具挑戰性的基準測試中也展現了頂尖性能,這些測試評估模型的數學、科學、知識和推理能力。

谷歌還針對之前 2.5 Pro 版本的反饋進行了改進,提升了其風格和結構——現在它能提供更有創意、格式更優的回答。

開發者可以通過 Google AI Studio 和 Vertex AI 中的 Gemini API 開始使用更新的 2.5 Pro 進行開發,此次還新增了「思考預算」功能,能讓開發者更好地控制成本和延遲。

它也在 Gemini app 中正式上線。

網友實測

Gemini 2.5 Pro(06-05)在真實任務中表現如何?

劈柴的一張圖,早已暗示了,Gemini 就是獸中之王。

網友們早已摩拳擦掌,開始了一波實測。

編碼能力碾壓 o3、Claude 4 並不只是説説而已,現在,Gemini 2.5 Pro 直接通過了六邊形物理模擬測試。

更驚豔的是,它還能通過 Three.js 創建出 3D DNA 模型,效果非常逼真。

數據科學家 Diego 測試 Gemini 2.5 Pro 06-05 編寫一段 Python 代碼,可視化單行道中交通燈的工作原理,要求車輛以隨機速率進入。

代碼運行後的效果。

可以看出整體上動畫還是比較精美的,沒有什麼太大的問題。

作為對比,下面是 GPT 4.5 生成代碼的效果。

不僅畫面粗糙,車子也不符合物理規律。

Diego 之前還測試了 Claude Sonnet 3.7 和 Grok 3,下面是這兩個模型的表現。

大家可以評判一下,到底哪個模型更強。

Claude Sonnet 3.7

Grok 3

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。