
Google's strongest model has arrived late at night! Gemini 2.5 Pro released and has taken the charts by storm, with code reasoning going crazy

谷歌發佈了全新模型 Gemini 2.5 Pro,聲稱其為世界上最強大的模型,具備統一的推理能力和多項功能。該模型在多個基準測試中表現優異,尤其在 LMArena 中排名第一,分數比 Grok-3/GPT-4.5 高出 40 分。Gemini 2.5 Pro 在數學、創意寫作等領域均奪得冠軍,並在視覺和網頁開發領域表現突出。該模型現已在 Google AI Studio 和 Gemini 應用中向用户開放,定價方案將於未來幾周公布。
就在剛剛,谷歌的全新模型 Gemini 2.5 Pro,果然深夜上線了!
Gemini 2.5 Pro 是一個「思考」模型,能夠在回應前先進行思考推理,從而提升性能,並改善準確性。
谷歌稱,它是世界上最強大的模型,具備統一的推理能力,以及用户所喜愛的 Gemini 的所有功能(長上下文、工具等)。
它在多個基準測試中達到了 SOTA 水平,並且以顯著的優勢在 LMArena 上排名第一。
現在,Gemini 2.5 Pro 已經登頂了 Arena 排行榜的第一位,而且創下了歷史最大分數飛躍,比 Grok-3/GPT-4.5 整整高出了 40 分!
在代號「nebula」的測試中,它也橫掃所有類別奪得第一,並且獨攬數學、創意寫作、指令遵循、長查詢和多輪對話五大領域的冠軍!
在困難提示詞和編程兩大領域,它與 Grok-3/GPT-4.5 拿到了並列冠軍,而且在所有其他比拼中都以微弱優勢勝出,成功問鼎榜首!
此外,Gemini 2.5 Pro 還成功登頂了視覺競技場(Vision Arena)排行榜榜首!
在網頁開發領域,它也同樣大放異彩,成功斬獲網頁開發競技場(WebDev Arena)亞軍寶座!
它是首個實力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的 Gemini 更是實現了質的飛躍。
這一次,谷歌的模型又展現出巨大的飛躍,OpenAI、Anthropic、DeepSeek 等競爭對手,在多久時間內會趕上?
目前,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 應用中,向 Gemini Advanced 用户開放,並將很快在 Vertex AI 上推出。
而它的定價方案,會在未來幾周內公佈,用户可以在更高使用配額下,將模型應用於大規模生產環境。
網友實測後發現,它果然實力驚人,在所有模型中效果拔羣,第一次嘗試就只用幾秒解決了一道難題。
Gemini 2.5 Pro 上線!
谷歌表示,在 AI 領域,系統的「推理」能力不僅僅指分類和預測,而是指系統分析信息、得出邏輯結論、融入上下文和細微差別,以及做出明智決策的能力。
長期以來,谷歌一直在探索通過強化學習和思維鏈提示詞等技術,讓 AI 更智能、更具推理能力的方法。
正是在此基礎上,他們在 2 月推出了第一個思考模型,Gemini 2.0 Flash Thinking。
而今天,通過 Gemini 2.5,他們結合了顯著增強的基礎模型和改進的後期訓練,讓模型達到了新的性能水平。
推理和代碼能力大幅提升
Gemini 2.5 Pro 展現出了強大的推理和代碼能力,在常見的編程、數學和科學基準測試中均處於領先地位。
另外,在各類需要高級推理能力的基準測試中,它都達到了 SOTA 水平。
無需使用測試階段會增加計算成本的技術(如多數投票法),2.5 Pro 就能在 GPQA 和 AIME 2025 等數學和科學基準評測中表現卓越。
而且,在不使用任何外部工具的條件下,它就在挑戰人類知識和推理能力的極限前沿「人類最後的考試」中取得了 18.8% 的準確率,達到業界領先。
在編程能力上,Gemini 2.5 相比 2.0 版本也實現了質的飛躍,而這,僅僅是個開始。
2.5 Pro 在創建視覺精美的網頁應用和 AI 智能體代碼應用方面都表現卓越,在代碼轉換和編輯領域中,也同樣實力出色。
在智能體代碼評估的行業標準測試 SWE-Bench Verified 上,Gemini 2.5 Pro 靠使用自定義智能體配置,就獲得了 63.8% 的優異成績。
以下這波 demo,就展示了 Gemini 2.5 Pro 如何運用強大推理,僅通過一行提示詞,就能生成可執行代碼,來創建完整的動畫和遊戲。
在下面這個 demo 中,僅僅根據下面這行 prompt,它就生成了一段 p5js 的交互式動畫,展示了「宇宙魚」的場景,並且還顯示了魚們都在想什麼。
它還根據以下 prompt,生成了一個無限的恐龍跑酷遊戲。
按照要求,它生成了像素化的恐龍圖像和有趣的遊戲背景。
隨後,Gemini 2.5 Pro 還通過編程實現了分形可視化。
它創建出了精細分形圖案的模擬程序,展現出了神奇的曼德布洛特集合。
此外,它還能構建一個交互式氣泡圖,直觀展示出了每個大陸的經濟與健康指標隨時間的變化。
或者用一段交互式的 Javascript 動畫,展示了旋轉六邊形內多彩的人工生命羣體,並且按要求做成了「超新星星雲」的感覺。
另外,它還能開發粒子系統模擬,給出了一個 HTML 文件,創造出了反射星雲的沉浸式交互模擬場景。
原生多模態和超長上下文
Gemini 2.5 繼承併發揚了 Gemini 模型的優勢——原生多模態能力和超長上下文長度。
自己發佈之初,2.5 Pro 就支持 100 萬 token 的上下文窗口(而 200 萬 token 也即將推出!),性能顯著超越了前代模型。
這能讓它理解海量數據集,並處理來自多種信息源的複雜問題,包括文本、音頻、圖像、視頻,甚至完整的代碼倉庫。
最後,既然谷歌已經掏出了地表最強模型,接下來,就讓我們坐等 OpenAI 的反應了。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。