
Large models begin to "batch solve" mathematical problems

OpenAI 最新發布的 GPT 5.2 模型在數學推理能力上實現顯著提升。軟件工程師、前量化研究員 Neel Somani 在測試中發現,該模型能夠在 15 分鐘內給出完整的數學證明,並通過形式化工具 Harmonic 驗證無誤。這一表現遠超此前版本,使 AI 工具從輔助角色轉向能夠獨立攻克高難度數學問題的新階段。
人工智能在數學領域的突破正在加速。自聖誕節以來,著名數學家保羅·埃爾德什遺留的 1000 多道未解難題中,已有 15 道從"未解決"狀態轉為"已解決",其中 11 道明確標註 AI 模型參與了求解過程。這一進展標誌着大語言模型在推進人類知識前沿方面展現出前所未有的能力。
據 TechCrunch 週四報道,OpenAI 最新發布的 GPT 5.2 模型在數學推理能力上實現顯著提升。軟件工程師、前量化研究員 Neel Somani 在測試中發現,該模型能夠在 15 分鐘內給出完整的數學證明,並通過形式化工具 Harmonic 驗證無誤。這一表現遠超此前版本,使 AI 工具從輔助角色轉向能夠獨立攻克高難度數學問題的新階段。
菲爾茲獎得主陶哲軒在其 GitHub 頁面上統計,AI 模型已在 8 道不同的埃爾德什問題上取得實質性自主進展,另有 6 例通過定位和擴展先前研究實現突破。儘管距離完全自主的數學研究仍有距離,但大模型在數學領域的作用已不容忽視。
這一進展對數學研究生態和 AI 應用市場均產生直接影響。形式化工具如微軟研究院開發的開源證明助手 Lean,以及 Harmonic 公司的 Aristotle 等 AI 工具,正在被頂尖數學家和計算機科學教授廣泛採用,預示着學術研究工作流程的深刻變革。
從意外發現到系統性突破
Somani 的發現始於一次常規測試。他將一道數學難題輸入 ChatGPT,讓模型思考 15 分鐘後,返回了一個完整解答。該證明引用了勒讓德公式、伯特蘭假設和大衞之星定理等數學公理,最終找到了哈佛大學數學家 Noam Elkies 在 2013 年 Math Overflow 論壇上發佈的類似問題的優雅解法。但 ChatGPT 的最終證明在關鍵方面與 Elkies 的工作有所不同,並給出了埃爾德什問題某個版本的更完整解答。
"我想建立一個基準,瞭解大語言模型何時能夠有效解決開放數學問題,以及它們在哪些方面仍有困難,"Somani 表示。令人意外的是,使用最新模型後,這一前沿界限開始向前推進。
埃爾德什問題集包含超過 1000 個猜想,由這位匈牙利數學家提出並在線維護。這些問題在主題和難度上差異顯著,已成為 AI 驅動數學研究的誘人目標。首批自主解決方案於去年 11 月由 Gemini 驅動的 AlphaEvolve 模型產生,但最近 GPT 5.2 在高級數學方面表現得更為出色。Somani 將其描述為"在數學推理方面比以前的版本更熟練"。
頂尖數學家的審慎評估
陶哲軒對這一進展持更為細緻的看法。他在 Mastodon 上推測,AI 系統的可擴展性使其 “更適合系統性地應用於那些不為人知的埃爾德什問題的'長尾',其中許多實際上有直接的解決方案”。
"因此,許多較簡單的埃爾德什問題現在更有可能通過純 AI 方法解決,而非人類或混合方式,"陶哲軒補充道。
這一評估揭示了 AI 在數學研究中的定位:並非取代人類數學家處理最前沿的複雜問題,而是高效處理大量中等難度、但因人力有限而長期未被關注的問題。這種分工可能重塑數學研究的資源配置。
形式化工具推動應用落地
另一個關鍵驅動因素是數學界近期向形式化的轉變。形式化是一項勞動密集型任務,能使數學推理更易於驗證和擴展。雖然形式化不必依賴 AI 或計算機,但新一代自動化工具大幅降低了工作難度。
微軟研究院 2013 年開發的開源"證明助手"Lean 已在該領域廣泛使用,而 Harmonic 公司的 Aristotle 等 AI 工具承諾將形式化工作的大部分自動化。
Harmonic 創始人 Tudor Achim 認為,埃爾德什問題解決數量的突然增加不如頂尖數學家開始認真對待這些工具更重要。“我更關心數學和計算機科學教授正在使用這些 AI 工具,” Achim 表示,“這些人需要保護自己的聲譽,所以當他們説使用 Aristotle 或 ChatGPT 時,這是真實的證據。”
這一趨勢表明,AI 工具已從實驗階段進入學術界的主流應用,可能為相關技術公司開闢新的商業機會,同時也對傳統數學研究方法論提出挑戰。
