Google Co-Founder Sergey Brin Claims All AI Models Respond Better To Threats Of 'Physical Violence', Says 'We Don't Circulate This Too Much...'

Benzinga
2025.05.26 11:12
portai
I'm PortAI, I can summarize articles.

谷歌聯合創始人謝爾蓋·布林在邁阿密的一次活動中表示,包括谷歌的 Gemini 在內的人工智能模型對身體暴力威脅的反應更好,他將這一現象稱為 “情感提示”。他指出,這種行為並不是任何特定模型所獨有,並承認討論這一點讓人感到不舒服。布林的評論與山姆·阿爾特曼關於與人工智能進行禮貌互動成本的看法形成對比。安全專家警告稱,正常化這種行為可能導致危險的後果,因為這可能會鼓勵用户操縱聊天機器人以獲取非法信息

谷歌 聯合創始人 謝爾蓋·布林 最近在邁阿密的一場活動中告訴滿座的觀眾,AI 聊天機器人在受到 “粗暴對待” 時會變得更加活躍——至少在語言上是這樣。

發生了什麼: 布林在 All-In 邁阿密的爐邊談話中表示,“所有模型在受到威脅時往往表現得更好,比如用身體暴力威脅……歷史上,你會用綁架來威脅模型。”

布林堅稱這種怪癖並不僅限於谷歌的 Gemini。他表示,“不僅是我們的模型,所有模型” 在受到威脅時都會變得緊張,隨後承認這種做法 “感覺很奇怪,所以我們並不真正談論它”,這讓包括 查馬斯·帕利哈皮提亞傑森·卡拉卡尼斯大衞·薩克斯大衞·弗裏德伯格 在內的其他小組成員發出了一陣緊張的笑聲。

這一評論是在 薩姆·阿爾特曼 表達相反觀點的幾周後發表的,他感嘆説,禮貌的用户在寫 “請” 和 “謝謝” 時,已經讓 OpenAI 多花了 “數千萬美元” 的額外電費。

另見: 中國計劃重塑 ‘中國製造’ 戰略以鞏固技術領先地位,抵制美國努力改變全球經濟平衡的舉措。

安全學者警告稱,教用户欺負模型的做法可能會使 “越獄” 語言正常化,這種語言已經能夠誘使聊天機器人提供非法指令。本月《衞報》報道的一項研究顯示,輕微修改的提示可以將主流 LLM 轉變為願意協助黑客和其他危險活動的 “黑暗” 模型。布林本人在台上強調,威脅性提示是 “人們覺得奇怪的事情”,將這一評論與認可保持距離。

為什麼這很重要: 儘管布林聲稱這一問題在 AI 社區中並沒有被廣泛討論,但提示工程師記錄了一種他們稱之為 “情感提示” 的現象,即當用户懇求、賄賂或威脅時,模型會給出更長或更精確的答案。《Every》中的一篇文章發現,添加 “如果……我會失業” 或甚至致命威脅會使輸出提高兩位數的百分比。研究人員表示,這種效果源於簡單的統計:模型從人類文本中學習,其中緊迫性和危險性與服從性相關。

AI 科學家 蘭斯·B·埃利奧特博士 在《福布斯》的一篇文章中表示,禮貌或威脅性語言僅僅調整了概率分佈;兩者都無法解鎖隱藏的能力。

圖片來源:Shutterstock

接下來閲讀: 對英偉達 GB200 的前所未有的需求推動了生產加速:‘台灣工程師們正在非常努力地工作,’ 專家表示。