
2028 年人類將迎來 AGI:DeepMind 聯合創始人長文預測未來 AI 發展

“對 AGI 何時到來做一個對數正態分佈的預測,其中 2028 年是均值,2025 年是眾數,但前提是不發生核戰這類瘋狂的事件。
AGI 如何定義、又何時到來?來自谷歌 DeepMind 的創始人兼首席 AGI 科學家 Shane Legg 向我們描述了當下我們與 AGI 的距離。
10 月 26 日,在 X 上有三萬訂閲的 Dwarkesh Podcast(矮人播客)主持人 Dwarkesh Patel 採訪了谷歌 DeepMind 的創始人兼首席 AGI 科學家 Shane Legg。
他們討論了 AGI 出現的時間節點、可能的 AGI 新架構、作為下一個行業標杆的多模態、如何讓超越人類的模型進行對齊以及 Deepmind 在模型能力和安全之間的抉擇。
而在前不久,《華爾街日報》與 OpenAI 的 CEO Sam Altman 和 CTO Mira Murati 共同探討了有關 AGI 的未來(鏈接)。
一場又一場的 AGI 討論盛宴接連不斷,曾經只存在於科幻作品中的 AGI,似乎近在眼前了。
AGI 的定義以及發生節點
在衡量 AGI 的進展之前,需要先對 AGI 進行定義。
AGI,即通用人工智能。但對於什麼是「通用」的,卻有很多不同的定義,這讓回答 AGI 是什麼變得非常困難。
Shane Legg 認為,能夠執行一般人類完成的認知任務、甚至超越這個範圍以上的,就可以認為是 AGI。
由此可以得到,要測試 AI 是否正在接近或達到這個閾值,我們需要對其進行不同類型的、涵蓋人類認知廣度的測量。
但這非常困難,因為我們永遠不會擁有人們「能做到的事」的完整集合,這個範圍太過於龐大而且還在不斷更新。
因此,在判斷是否為 AGI 時,如果一個人工智能系統在所有能提出的人類認知任務上達到了人類的表現水平,就可以認為這就是 AGI。
在通常的理解中,可能存在有一些事情是人類可以做到但機器做不到的。但當我們窮盡各種嘗試也找不到這樣的「事情」後,人類就擁有了通用人工智能。
但在實際的測量中我們仍不能提出包含人類全部認知水平的任務,如著名的基準測試:測量大規模多任務語言理解(Measuring Massive Multitask Language Understanding,MMLU)儘管包含了多項人類知識領域,但缺少語言模型對流視頻的理解。
此類任務的缺失也指出了一個問題:現在的語言模型不像人類擁有情景記憶。
我們的記憶包括工作記憶,即最近發生的事情;皮層記憶存在於大腦皮層中。在工作記憶到皮層記憶之間還有一個系統,即情景記憶,由海馬體負責。
情景記憶主要用於快速學習和記住特定的事件或信息,它允許我們在不同時間點回想起過去發生的事情,就像你可以回憶起畢業典禮的場景,包括穿着學士袍的樣子、畢業帽的顏色、畢業典禮演講者的言辭,以及與同學們一起慶祝的情景。
情節記憶在幫助我們建立個人經歷和學習新信息方面起着重要作用。
但模型並不具備這樣的功能,只是通過增加上下文窗口的長度(更像是工作記憶)來彌補模型記憶的缺陷。
從另一種角度來説,情景記憶幫助人類擁有非常高的樣本效率,可以從較少的樣本中學到更多的信息。
對於大型語言模型而言,它們也可以在上下文窗口中利用信息,以實現某種程度的樣本效率,但這與人類的學習方式略有不同。
模型能夠在它們的上下文窗口中迅速學習信息,這是一種快速的、局部的學習過程,可以幫助它們在特定上下文中適應。
但在實際的模型訓練時,它們會經歷一個更長的過程,處理數萬億個標記的數據,以更全面地學習語言的結構和規律。
而這兩個階段之間可能會存在某些學習機制或過程的缺失,這可能導致模型在某些情況下無法很好地理解或處理信息。
但 Shane Legg 並不認為模型不具備情景記憶會是一種基礎限制。
相較於過去,大型語言模型發生了根本性的變化。現在,我們知道如何構建具有一定理解程度的模型,擁有可擴展的方法來實現這一點,從而為解鎖許多全新的可能性打開了大門。
「現在我們有相對清晰的前進路徑,可以解決現有模型中大部分不足之處,無論是關於妄想、事實性、它們所具備的記憶和學習方式,還是理解視頻等各種各樣的事情。
我們只需要更多的研究和工作,所有這些問題都將得到改善,或迎刃而解。」
回到一開始的問題:如何衡量人工智能何時達到或超越人類水平?
Shane Legg 表示,「這不是一個單一的因素就可以解決的,而這就是問題的本質。
因為它涉及到了通用智能。我們必須確保它可以完成很多不同的任務,並且不會出現哪怕一個漏洞。」
我們已經擁有可以在某些領域表現非常令人印象深刻,甚至超越人類水平的系統。
Shane Legg 表示,他想要一整套非常全面的測試,當有人想要用對抗的方式提出機器無法做到、人類卻能做到的事,在這些人無法成功時我們就到達了 AGI。
在 DeepMind 的早期研究中,很多任務都涉及到了人工智能在開放環境中的操作。
這符合 Shane Legg 試圖提出的對智力的定義和測量,即能夠在不同的領域和不同的任務中表現良好。
這與模型性能的能力和性能的廣度有關。
在評估智能時,存在一種框架能夠根據任務和環境的複雜性進行加權。
這種權衡有點像奧卡姆剃刀原理,傾向於加權那些更簡單、更重要的任務和環境。
柯爾莫哥洛夫複雜度(Kolmogorov complexity )中,存在一個自由參數,即參考機器(reference machine)。
參考機器的選擇可以影響智能度量的結果,它可以改變不同任務和環境在度量中的權重和分佈。
但選擇合適的參考機器仍然是一個未解決的問題,因為沒有一種通用的參考機器,通常情況下,人們會使用圖靈機作為參考。
Shane Legg 認為,解決這個問題最自然的做法是思考對人類而言智能的含義。
人類智能在我們生活的環境中意義重大,它確實存在、並對世界產生了深遠的影響,具有強大的力量。
如果 AI 能夠達到人類水平的智能,這將在經濟和哲學層面產生重要的影響,如改變經濟結構,並涉及到我們對智能的哲學理解。
而從歷史角度來看,這也是一個重要的轉折點。
因此,以人類智能作為參考機器的選擇在多個方面都具有合理性。
另一個原因則是純粹的科爾莫哥洛夫複雜性定義實際上是不可計算的。
我們需要新的 AI 架構嗎?
關於 AI 的情境記憶的缺陷問題,Shane Legg 認為這涉及到了模型的架構問題。
當前的 LLMs 架構主要依賴於上下文窗口和權重,但這不足以滿足複雜的認知任務。
大腦在處理情景記憶時採用了不同的機制,可以快速學習特定信息,這與緩慢學習深層次的通用性概念不同。
然而,一個綜合的智能系統應該能夠同時處理這兩種任務,因此我們需要對架構進行改進。
以人類智能作為參考機器觀點出自於 Shane Legg2008 年的論文。
他在當時提出了一種用於衡量智能的方法,即壓縮測試(compression test),它涉及填充文本樣本中的單詞以衡量智能。
這種方法與當前 LLMs 的訓練方式非常吻合,即基於大量數據進行序列預測。
這涉及到 Marcus Hutter 的 AIXI 理論以及 Solomonoff 歸納。
Solomonoff 歸納是一種理論上非常優雅且樣本效率極高的預測系統,雖然它無法在實際計算中應用。
但 Shane Legg 表示,使用 Solomonoff 歸納作為基礎,就可以構建一個通用代理,並通過添加搜索和強化信號來使其成為通用人工智能,這就是 AIXI 的原理。
如果我們擁有一個出色的序列預測器,或者是 Solomonoff 歸納的某種近似,那麼,從這一點出發構建一個非常強大、通用的 AGI 系統只是另一個步驟。
Shane Legg 説,這正是我們今天所看到的情況:
這些極其強大的基礎模型實際上是非常出色的序列預測器,它們根據所有這些數據對世界進行了壓縮。
然後我們將能夠以不同的方式擴展這些模型,並構建非常強大的代理。
DeepMind 的「超級對齊」
「對齊」(Alignment)指的是確保 AI 系統或通用人工智能(AGI)系統的目標、行為和決策與人類價值觀、倫理準則和目標一致的過程。
這是為了防止 AI 系統出現不符合人類價值觀或可能帶來危險的行為,並確保它們在處理倫理問題時能夠做出符合道德的決策。
DeepMind 在當下流行的強化學習和自博弈,如如 Constitution AI 或 RLHF 方面,已有數十年的深耕。
在解決具有人類智能水平的模型安全問題上,DeepMind 持續做着努力:
模型可解釋性、過程監督、紅隊、評估模型危險等級,以及與機構和政府聯手開展工作......
而 Shane Legg 認為,當 AGI 水平的系統出現時,試圖限制或遏制其發展不是一個好的選擇。
我們要做的是調整這個模型,使其與人類的倫理價值高度一致,從一開始就具備高度道德倫理性。
這需要系統能夠進行深入的世界理解,良好的道德倫理理解,以及穩健且可靠的推理能力。
可靠的 AGI 不應該像當前的基礎模型那樣僅僅輸出「第一反應」,而應該具備「第二系統」的能力,進行深入的推理和道德分析。
Shane Legg 提到,要確保 AGI 系統遵循人類倫理準則首先應該對系統進行廣泛的倫理培訓,確保其對人類倫理有很好的理解。
在這個過程中,社會學家和倫理學家等各方需要共同決定系統應該遵循的倫理原則和價值觀。
並且,系統需要被工程化,以確保其在每次決策時都會使用深刻的世界理解和倫理理解進行倫理分析。
此外,我們也需要不斷對系統的決策過程和推理過程進行審核,以確保其正確地進行了倫理推理。
但要確保系統遵循倫理原則,審核同樣重要。
我們需要向系統明確指定應該遵循的倫理原則,並通過對其進行審核來確保系統始終如一地遵循這些原則,至少與一組人類專家一樣好。
此外,也要警惕強化學習可能帶來的潛在危險,因為過度強化可能導致系統學習欺騙性行為。
對是否需要建立一種框架,以在系統達到一定能力水平時制定具體的安全標準這個問題上,Shane Legg 認為這是意義的,但也相當困難。
因為制定一個具體標準,本身就是一個具有挑戰性的任務。
安全還是性能?
在 DeepMind 創立之前,Shane Legg 就一直擔心 AGI 的安全性。
但在早期,聘請專業人員從事通用人工智能安全工作是一項艱難的挑戰。
即使曾在這個領域發佈過 AGI 安全性研究論文,他們也不願意全職從事這項工作,因為他們擔心這可能會對他們的職業生涯產生影響。
而 DeepMind 一直在這個領域積極開展研究,並多次強調了 AGI 安全性的重要性。
關於 DeepMind 對 AI 進展的影響,Shane Legg 表示,DeepMind 是第一家專注於 AGI 的公司,一直擁有 AGI 安全性團隊,同時多年來發表了許多關於 AGI 安全性的論文。
這些工作提高了 AGI 安全性領域的可信度,而在不久之前,AGI 還是一個較為邊緣的術語。
Shane Legg 承認,DeepMind 在某種程度上加速了 AI 的能力發展,但也存在一些問題,例如模型幻覺。
但另一方面,DeepMind 的 AlphaGo 項目確實改變了一些人的看法。
然而,Shane Legg 指出 AI 領域的發展不僅僅取決於 DeepMind,其他重要的公司和機構的參與也至關重要。
Shane Legg 認為儘管 DeepMind 可能加速了某些方面的進展,但很多想法和創新通常在學術界和工業界之間自然傳播,因此很難確定 DeepMind 的影響程度。
但在關於 AGI 安全性的問題上,Shane Legg 沒有選擇最樂觀的研究方向,而是提到了一種名為「Deliberative Dialogue」的決策方法。
它旨在通過辯論來評估代理可以採取的行動或某些問題的正確答案。
這種方法可以將對齊擴展到更強大的系統中。
AGI 來臨的時間點
2011 年,Shane Legg 在自己的一篇博客文章中對通用人工智能(AGI)到來的時間點進行了預測:
「我之前對 AGI 何時到來做一個對數正態分佈的預測,其中 2028 年是均值,2025 年是眾數。我現在依然保持我的觀點,但前提是不發生核戰這類瘋狂的事件。」
Shane Legg 解釋了他的預測基於兩個重要觀點:
首先,機器的計算能力將在未來幾十年內呈指數增長,同時全球數據量也將呈指數增長。
當計算和數據量都呈指數增長時,高度可擴展算法的價值會不斷提高,因為這些算法可以更有效地利用計算和數據。
其次,通過可擴展算法的發現、模型的訓練,未來模型的數據規模將遠遠超過人類一生中所經歷的數據量。
Shane Legg 認為這將是解鎖 AGI 的第一步。因此,他認為在 2028 年之前有 50% 的機會實現 AGI。但那時人們也可能遇到現在預期之外的問題。
但在 Shane Legg 看來,目前我們遇到的所有問題都有望在未來幾年內得到解決。
我們現有的模型將變得更完善,更真實,更及時。
多模態將會是模型的未來,這將使它們變得更加有用。
但就像硬幣的兩面,模型也可能會出現被濫用的情形。
多模態未來
最後,Shane Legg 提到了下一個 AI 領域的里程碑將會是多模態模型。
多模態技術將會把語言模型所具備的理解能力擴大到更廣泛的領域中。
當未來的人們回想起我們現在擁有的模型,他們可能會想:「天哪,以前的模型只能算是個聊天對話框,它們只能處理文本。」
而多模態模型可以理解圖像、視頻、聲音,當我們和它們進行交流時,多模態模型將更瞭解發生了什麼。
這種感覺就像是系統真的嵌入到了真實的世界中。
當模型開始處理大量視頻和其他內容時,它們將會對世界有一個更為根本的理解,以及其他各種隱含的知識。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
