
AI prediction authority: I still underestimated the speed of AI, achieving "AI research and development automation" by the end of this year is really possible

AI 迭代正擊穿預測極限,受 Claude Opus 4.6 驚人表現衝擊,權威研究員 Ajeya Cotra 坦言其對 2026 年的 AI 進展預測已提前失效,今年底 “AI 研發自動化” 的概率達 10%,她表示 “已找不到任何穩固趨勢能斷言這不會很快發生”!
人工智能能力的躍升速度,正在讓最嚴謹的預測者也措手不及。
知名 AI 預測研究者 Ajeya Cotra 近日公開承認,她僅在兩個月前發佈的 2026 年 AI 進展預測已顯著偏於保守。觸發這一自我修正的,是 Anthropic 最新模型 Claude Opus 4.6 在權威評測機構 METR 基準測試中的表現,該模型的軟件工程"時間跨度"已達約 12 小時,遠超 Cotra 此前預測的 2026 年底約 24 小時水平。這意味着 AI 在軟件工程領域的實際進展,比她的預測提前了近十個月。
更具衝擊力的是,Cotra 隨之上調了對"AI 研發全面自動化"的概率判斷。她將今年年底前 AI 完全接管研究構想與實施、無需人類介入的概率維持在 10%,並明確表示:"這是我第一次找不到任何可以外推的穩固趨勢,來斷言這件事不會很快發生。"這一表態在 AI 預測圈引發廣泛關注。
Cotra 曾在全球最大 AI 安全資助機構之一 Coefficient Giving 擔任 AI 安全研究資助負責人,目前供職於 METR——一家專注於 AI 能力評估的機構。
預測落空:兩個月前的判斷已經過時
今年 1 月 14 日,Cotra 基於 2019 年至 2025 年間時間跨度約每年翻倍不到兩次的歷史趨勢,預測 2026 年底最先進模型的 50% 成功率時間跨度約為 24 小時,80 百分位預測為 40 小時。
然而,僅在她發佈預測約兩個月後,Opus 4.6 便被評估為具備約 12 小時的時間跨度。在 METR 測試集中,19 項被估計需要人類耗時超過 8 小時的軟件工程任務裏,Opus 4.6 能夠至少部分完成其中 14 項,並穩定攻克其中 4 項。Cotra 坦言,在此後還有整整十個月進展的情況下,AI 代理仍在 24 小時任務上有一半時間失敗,"已經不再可信"。
值得注意的是,Cotra 同時提示,當前時間跨度估算的不確定性顯著上升——Opus 4.6 的 95% 置信區間為 5.3 小時至 66 小時,部分原因在於長任務數量稀少、人工完成時間多為估算,且基準測試本身已接近飽和。
能力邊界:傳統評估框架正在失效
隨着 AI 代理能力逼近乃至超越數十小時的任務量級,Cotra 認為"時間跨度"這一概念本身的適用性正受到挑戰。
她指出,任務的可分解性隨規模增長而顯著提升:一小時的調試任務幾乎無法拆分並行,一天的開發任務勉強可以分工但邊界模糊,而一個月乃至數月的項目則天然適合拆解為多個並行子任務。一旦 AI 代理能夠穩定完成 80 小時量級的任務,理論上便可通過"管理層 AI"分配任務、"執行層 AI"並行推進的方式,持續推進任意規模的項目。
Cotra 的同事 Tom 因此提出,以大型團隊完成任務所需的日曆時間,而非單人工時,作為衡量"內在難度"的更優指標。Cotra 認為,隨着 AI 進入這一新量級,"單人時間"指標可能開始呈現超指數增長,使得年底前軟件工程能力的上限極難估算。
她同時承認,這種大規模任務分解在實踐中不會完美運作——項目參與者對全局背景的直覺性把握,難以被 Jira 工單或 Asana 任務完全替代。但她認為,對於相當大一類軟件項目而言,這種模式"可能出乎意料地有效"。
關鍵節點:AI 研發自動化今年或成現實
在所有預測中,最受關注的是 Cotra 對"AI 研發全面自動化"的概率判斷。
她將這一概率定義為:AI 系統完全承擔研究構想與實施工作,無需人類參與。在 1 月的預測中,她給出了 10% 的概率,並在發佈後收到多位 AI 預測領域同行的反饋,認為這一數字偏高。但在 Opus 4.6 的表現出爐後,她表示 10%"再次感覺處於合理區間"。
Cotra 同時保持審慎。她指出,全面自動化 AI 研發不僅需要軟件工程能力,還需要在"研究判斷力"和"創造力"等方面取得突破,而這些恰恰是當前 AI 系統相對人類研究者仍明顯欠缺的領域。她認為,這一目標在未來三至五年內實現的可能性,遠高於今年之內。
但她的措辭已發生根本性轉變:"這是我第一次,找不到任何可以外推的穩固趨勢,來斷言它不會很快發生。"
