Google announces: AI has surpassed the level of math Olympiad gold medals

華爾街見聞
2025.02.08 04:21
portai
I'm PortAI, I can summarize articles.

谷歌 DeepMind 最新 AI 系統在國際數學奧林匹克競賽幾何題目大規模測試中首次超越金牌得主水平,解決率達 84%。研究團隊認為,幾何推理能力是構建通用人工智能的關鍵,這一突破為 AI 發展開闢新路徑。

昨日,谷歌宣佈 DeepMind 創造了人工智能領域的新紀錄:其最新 AI 系統 AlphaGeometry2,在國際數學奧林匹克競賽 (IMO) 的大規模幾何題目測試中,首次超越人類金牌得主水平。

研究團隊從 2000 年到 2024 年的 IMO 競賽中精選了 45 道幾何題目,經過技術處理後轉化為 50 道標準題目。測試結果顯示,AlphaGeometry2 成功解答了其中的 42 道,已經超過了金牌得主 40.9 分的平均成績。

DeepMind 的這一突破意義深遠。研究團隊認為,解決具有挑戰性的幾何問題(特別是歐幾里得幾何問題)所需的推理能力和策略選擇能力,正是構建下一代通用人工智能的關鍵要素。

網友表示,「接近完美」。

AG2,一舉超越 IMO 金牌得主

DeepMind 之所以對這個高中數學競賽如此重視,源於一個深層洞察:解決歐幾里得幾何問題的能力可能是構建更強大 AI 系統的關鍵。

證明數學定理需要同時具備推理能力和在多個可能步驟中做出選擇的能力,這些問題解決技能可能成為未來通用 AI 模型的重要組成部分。

事實上,在 2024 年夏天的一次演示中,DeepMind 將 AlphaGeometry2 與數學形式推理 AI 模型 AlphaProof 結合,成功解決了當年 IMO 競賽 6 道題目中的 4 道。

在技術架構上,AlphaGeometry2 採用了一種混合方案,將谷歌 Gemini 系列的語言模型與專門的符號運算引擎相結合。

在解題過程中,Gemini 模型負責預測解題可能需要的幾何構造(如添加輔助點線或圓),而符號引擎則基於嚴格的數學規則進行推導。兩個模塊通過並行搜索算法協同工作,將發現的有用信息存儲在共享知識庫中。當系統能夠將 Gemini 模型的建議與符號引擎的已知原理結合,得出完整證明時,即認為完成了問題求解。

為了克服幾何訓練數據匱乏的困境,研究團隊自主生成了超過 3 億個不同複雜度的定理和證明用於訓練。這種大規模的合成數據訓練方法,為 AI 在特定領域實現突破提供了新的範例。

然而,AlphaGeometry2 的能力仍存在明顯邊界。它無法處理包含可變點數、非線性方程和不等式的問題。在研究團隊專門挑選的 29 道更具挑戰性的 IMO 候選題中,系統僅能解決 20 道。

這一突破引發了對 AI 發展路徑的深入思考。傳統上,AI 領域存在兩種主要方法:基於符號操作的方法(通過規則操作代表知識的符號)和類似人腦的神經網絡方法。

AlphaGeometry2 採用混合架構:其 Gemini 模型採用神經網絡架構,而符號引擎則基於規則運算。根據 Deepmind 的論文,在測試中,同樣採用神經網絡架構的 OpenAI o1 模型無法解決任何 AlphaGeometry2 成功解答的 IMO 問題。

卡內基梅隆大學 AI 專家 Vince Conitzer 表示:

"在這些基準測試上取得驚人進展的同時,包括最新的'推理型'在內的語言模型仍在一些簡單的常識問題上舉步維艱,這種對比令人深思。

這不是虛假繁榮,但説明我們仍然無法準確預測下一個系統的行為。考慮到這些系統可能產生的重大影響,我們迫切需要更好地理解它們及其潛在風險。"

但這種情況可能不會永遠持續下去。在論文中,DeepMind 團隊表示,他們發現了初步證據,表明 AlphaGeometry2 的語言模型部分已顯示出無需符號引擎輔助也能生成部分解決方案的潛力。

不過,研究團隊同時強調,在模型運算速度得到根本改善、"幻覺"問題徹底解決之前,符號運算等外部工具仍將在數學應用中扮演不可或缺的角色。