2025 Stanford HAI Report: The gap between China and the US in AI models has narrowed to 0.3%, with inference costs plummeting by 280 times

華爾街見聞
2025.04.08 13:36
portai
I'm PortAI, I can summarize articles.

2025 年斯坦福 HAI 報告出爐:中國高性能 AI 模型的數量和質量不斷提升,中美頂級模型性能差距縮至 0.3%;推理成本暴降,小模型性能飆升;AI 正變得更高效、更普惠。

人工智能 (AI) 的影響從未像現在這樣深入社會。斯坦福大學的人工智能研究機構(Stanford HAI)4 月 8 日發佈《2025 年人工智能指數報告》認為,推理成本暴降 280 倍,小模型性能飆升,AI 正變得更高效、更普惠。

報告還指出,中國高性能 AI 模型的數量和質量不斷提升,對美國的領先地位構成挑戰,頂級模型之間的性能差距正在縮小。

美國此前在模型質量方面的領先優勢已經消失。中國是人工智能出版物和專利產出最多的國家,如今其開發的模型在性能上已經與美國的競爭對手不相上下。

“2023 年,在大規模多任務語言理解測試(MMLU)中,中國領先的模型落後於美國頂級模型近 20 個百分點。然而,到 2024 年底,美國的領先優勢縮小到了 0.3 個百分點。”

最新的斯坦福 HAI 博文中,濃縮了 2025 年 AI 指數報告的十二大亮點。

1. AI 性能突飛猛進:新基準下的爆發式增長

2023 年,研究人員推出了新的基準測試,如 MMMU、GPQA 和 SWE-bench,以測試先進 AI 系統的極限。

僅一年後,性能便急劇提升:在 MMMU、GPQA 和 SWE-bench 上的得分分別提高了 18.8、48.9 和 67.3 個百分點。除了基準測試之外,AI 系統在生成高質量視頻方面也取得了重大進展,在某些情況下,語言模型代理甚至在編程任務中超越了人類,儘管時間預算有限。

2. AI 滲透日常生活:從實驗室走向現實

從醫療保健到交通運輸,AI 正迅速從實驗室走向日常生活。

2023 年,美國食品藥品監督管理局(FDA)批准了 223 款 AI 醫療設備,而 2015 年僅有 6 款。

在道路上,自動駕駛汽車不再是實驗:Waymo 每週提供超過 15 萬次自動駕駛服務,而百度的 Apollo Go 無人駕駛出租車隊現已服務於中國多個城市。

3. 企業押注 AI:投資與應用雙雙飆升

2024 年,美國私營 AI 投資增長至 1091 億美元,是英國 45 億美元的 24 倍。

生成式 AI 表現尤為強勁,吸引了全球 339 億美元的私人投資,比 2023 年增長了 18.7%。AI 業務的使用也在加速:78% 的組織報告稱在 2024 年使用了 AI,高於前一年的 55%。

越來越多的研究證實,AI 提高了生產力,並且在大多數情況下,有助於縮小勞動力中的技能差距。

4. 美國仍領跑 AI 模型:但中國正在縮小差距

2024 年,總部位於美國的機構產生了 40 個值得關注的 AI 模型,大大超過了歐洲的 3 個。

雖然美國在數量上保持領先,但中國模型在質量上迅速縮小差距:在 MMLU 和 HumanEval 等主要基準測試上的性能差距從 2023 年的兩位數縮小到 2024 年的接近持平。

與此同時,中國在 AI 出版物和專利方面繼續保持領先地位。同時,模型開發日益全球化,來自中東、拉丁美洲和東南亞等地區的項目也值得關注。

5. 負責任 AI 生態發展不均

與 AI 相關的事件正在急劇上升,但在主要的工業模型開發商中,標準化的 RAI 評估仍然很少見。

然而,如 HELM Safety、AIR-Bench 和 FACTS 等新基準測試為評估事實性和安全性提供了有希望的工具。在公司中,承認 RAI 風險與採取有意義的行動之間仍然存在差距。

相比之下,各國政府正表現出越來越大的緊迫性:2024 年,全球在 AI 治理方面的合作加劇,包括 OECD、歐盟、聯合國和非洲聯盟在內的組織發佈了側重於透明度、可信度和其他核心負責任 AI 原則的框架。

6. 全球 AI 樂觀情緒上升:地區差異依然顯著

在諸如中國(83%)、印度尼西亞(80%)和泰國(77%)等國家,大多數人認為 AI 產品和服務的益處大於危害。相比之下,在諸如加拿大(40%)、美國(39%)和荷蘭(36%)等地方,樂觀情緒仍然較低。

儘管如此,情緒正在發生變化:自 2022 年以來,在幾個此前持懷疑態度的國家,樂觀情緒顯著增長,包括德國(+10%)、法國(+10%)、加拿大(+8%)、英國(+8%)和美國(+4%)。

7. AI 變得更高效、更經濟、更易於獲取

在越來越強大的小型模型的推動下,執行 GPT-3.5 水平任務的系統推理成本在 2022 年 11 月至 2024 年 10 月期間下降了 280 多倍。

在硬件層面,成本每年下降 30%,而能源效率每年提高 40%。開源模型也在縮小與閉源模型的差距,在某些基準測試中,性能差距從 8% 縮小到 1.7%。這些趨勢正在迅速降低先進 AI 的門檻。

8. 政府加大對 AI 的投入:監管與投資並重

2024 年,美國聯邦機構引入了 59 項與 AI 相關的法規,是 2023 年的兩倍多,並且由兩倍多的機構發佈。自 2023 年以來,全球 75 個國家提及 AI 的立法增加了 21.3%,自 2016 年以來增長了九倍。

除了日益增長的關注之外,各國政府正在大規模投資:加拿大承諾投資 24 億美元,法國承諾投資 1090 億歐元,印度承諾投資 12.5 億美元,沙特阿拉伯的 “超越” 項目代表着一項 1000 億美元的計劃。

9. AI 與計算機科學教育擴張:機會與挑戰並存

目前,三分之二的國家提供或計劃提供 K-12 計算機科學教育,是 2019 年的兩倍,其中非洲和拉丁美洲取得了最大的進展。

在美國,擁有計算機科學學士學位的畢業生人數在過去 10 年中增加了 22%。然而,由於電力等基本基礎設施的差距,許多非洲國家仍然難以獲得教育。在美國,81% 的 K-12 計算機科學教師認為 AI 應該成為基礎計算機科學教育的一部分,但只有不到一半的人認為自己有能力教授它。

10. 行業在 AI 領域加速發展:前沿競爭日益激烈

2024 年,近 90% 的著名 AI 模型來自行業,高於 2023 年的 60%,而學術界仍然是高度引用的研究的主要來源。模型規模持續快速增長,訓練計算量每五個月翻一番,數據集每八個月翻一番,功耗每年增加。

然而,性能差距正在縮小:排名第一和第十的模型之間的分數差距在一年內從 11.9% 下降到 5.4%,並且前兩名之間的差距僅為 0.7%。前沿領域競爭日益激烈,也變得擁擠。

11. AI 在科學領域的影響力獲得認可:榮獲頂級榮譽

AI 日益增長的重要性反映在主要的科學獎項中:兩個諾貝爾獎表彰了導致深度學習(物理學)和其在蛋白質摺疊(化學)中的應用的工作,而圖靈獎則表彰了對強化學習的開創性貢獻。

12. 複雜推理仍然是一個挑戰:侷限性依舊存在

AI 模型擅長解決國際數學奧林匹克問題等任務,但在 PlanBench 等複雜推理基準測試中仍然面臨挑戰。它們經常無法可靠地解決邏輯任務,即使存在可證明正確的解決方案,這限制了它們在高風險環境中的有效性,在這種環境中,精確性至關重要。