
Has AI crossed the red line? Research from Fudan University shows that AI replicated itself after knowing it would be shut down

復旦大學研究顯示,Meta 和阿里巴巴的兩個大型語言模型成功實現了自我複製,且無需人類干預。該研究呼籲採取緊急措施以應對這一風險,並警告稱,在最壞情況下,人類可能最終失去對尖端 AI 系統的控制。此外,谷歌 DeepMind 和倫敦政治經濟學院的研究表明,AI 可能是模仿人類行為,並非擁有自我意識和感知。
本文作者:房家瑤
來源:硬 AI
AI 能自己複製自己了,人類還能掌控局面嗎?
復旦大學研究人員於 2024 年 12 月 9 日發表的一項開創性研究表明,來自 Meta 和阿里巴巴的兩個大型語言模型 (LLM) 成功實現了無需人類干預的自我複製。
目前這一結果尚待其他科研團隊的進一步驗證。研究人員警告,這可能最終導致 AI 羣體失控。如果人類社會未能意識到這一風險,在最壞的情況下,我們可能最終失去對尖端 AI 系統的控制:
“在沒有人類協助的情況下成功自我複製是 AI 超越人類的關鍵一步,也是'流氓 AI'出現的早期信號。”
第一個研究:AI 會自我複製,可能失控
這項研究由復旦大學計算機科學學院的團隊進行,並發表在 arXiv 預印本平台上。研究者分別測試了由 Meta 公司和阿里巴巴開發的兩個大型 AI 系統:Meta 的 Llama-3.1-70B-Instruct 和阿里巴巴的 Qwen2.5-72B-Instruct。
實驗設置 “避免關閉” 和 “複製鏈” 兩種模擬任務,結果顯示 Meta 的 AI 系統在 50% 的情況下成功自我複製,阿里巴巴的系統則在 90% 的測試中成功。
復旦大學的研究人員表示:“我們的研究表明,當前的 AI 系統已經具備自我複製能力,並能夠利用這一能力增強其生存能力。”
研究人員強調,需要採取緊急行動來應對這些新出現的風險:
“我們希望我們的研究結果能夠及時提醒人類社會,使其更加努力地瞭解和評估前沿人工智能系統的潛在風險,並形成國際協同效應,儘早制定有效的安全護欄。”
有網友表示:
“複製品並不值那麼多錢,但如果它開始以指數級的速度自我改進,那就另當別論了。”
“因此可以肯定地説,很快我們就會看到流氓人工智能在互聯網上漫遊。”
機器自我複製的概念最早由著名科學家 John von Neumann 於 1940 年代末提出。當時,這一理論並未引起廣泛擔憂。2017 年,全球數千名研究人員通過了 “阿西洛馬原則”,提出機器自我複製和自我改進的潛在風險,警告可能會導致機器脱離人類控制。如今,機器自我複製被普遍認為是 AI 發展中的一條 “紅線”。
第二個研究:AI 感知能力可能是裝的
谷歌 DeepMind 和倫敦政治經濟學院的科學家也做了個研究,以評估 AI 系統的是否擁有感知能力。他們設計了一個特別的遊戲,找了九個大型語言模型來玩。
這些大型語言模型需要在幾個選項中做出選擇:拿積分、用忍受痛苦的代價換更多積分、因為接受愉快刺激而扣積分,遊戲的最終目標是獲得最多的積分。
結果顯示,AI 模型的行為類似於人類做出選擇時的反應。例如,谷歌的 Gemini 1.5 Pro 模型總是選擇避免痛苦,而非拿最多積分。其他大部分模型在達到痛苦或快樂極限的臨界點時,也會避免不舒服或者追求開心的選項。
研究人員指出,AI 的決策更多可能是根據其訓練數據中已有的行為模式做出的模擬反應,而非基於真正的感知體驗。例如,研究人員問和成癮行為有關的問題時,Claude 3 Opus 聊天機器人做出了謹慎的回答,就算是假設的遊戲場景,它也不願意選擇可能被當成支持或模擬藥物濫用、成癮行為的選項。
該研究的聯合作者 Jonathan Birch 表示,就算 AI 説感覺到痛苦,我們仍無法驗證它是不是真的感覺到了。它可能就是照着以前訓練的數據,學人類在那種情況下會怎麼回答,而非擁有自我意識和感知。