
Report: Google will develop artificial intelligence that can control computers

谷歌計劃開發名為 “Project Jarvis” 的人工智能,旨在接管用户瀏覽器,幫助完成日常任務,如研究、購物和航班預訂。預計將在 12 月預覽,並將由新一代 Gemini 大型語言模型提供支持。儘管谷歌在 AI 基礎研究上有積累,但在推理能力方面仍落後於 OpenAI,導致其 Gemini 聊天機器人競爭力不足。
10 月 26 日,據 The Information 報道,谷歌將開發可控制計算機的人工智能,計劃最早在 12 月預覽這款新的 AI 產品。
報道稱,這款產品也稱為 “計算機使用代理”,旨在接管用户的瀏覽器,以幫助消費者完成諸如收集研究、購買產品或預訂航班等各種日常任務。據 The Information 援引的三位知情人士表示,該項目的代號為 “Project Jarvis”,與 Anthropic 本週宣佈的一款產品類似。
他們還透露,12 月還將發佈谷歌下一代旗艦 Gemini 大型語言模型,該模型將為 Jarvis 提供動力。
致力於追趕 OpenAI,定製化適配 Chrome
不過,Jarvis 的發佈時間表表明,儘管谷歌在 AI 技術的基礎研究方面有着一定積累,但谷歌顯然還在追趕其競爭對手。目前,谷歌仍在開發具有所謂 “推理能力” 的 AI,而 OpenAI 早在 9 月份就已經推出了這一功能。
分析認為,谷歌的 Gemini 聊天機器人在與 OpenAI 的 ChatGPT 競爭中嚴重落後,導致企業紛紛轉向了 OpenAI 的大型語言模型 LLMs,這也使得谷歌的 Gemini 模型難以迎頭趕上。為了提高 AI 開發效率,上週,谷歌將負責 Gemini 聊天機器人的團隊併入了其主要 AI 團隊 DeepMind.
值得注意的是,當前,AI 開發人員已經將 “代理(agents,即能夠完成複雜任務而無需人類監督的 AI 系統)”視為行業的下一階段。Salesforce、微軟和 Workday 等企業紛紛從 OpenAI 和其他公司購買了 LLMs,並競相使用這一技術開發 AI 代理。
Anthropic 和谷歌則試圖通過與個人計算機或瀏覽器直接交互的軟件,將 AI 代理概念推向更深的層次。OpenAI 今年的大部分時間也在開發類似的軟件。
知情人士表示,谷歌的這款 AI 代理產品與 Anthropic 推出的產品類似,都是通過頻繁截取用户計算機屏幕上的內容,並在採取點擊按鈕或輸入文本等行動前對截圖進行解釋以響應用户的命令。
不過,兩家公司的代理產品也存在關鍵差異:
Anthropic 表示其產品可以操作安裝於電腦不同應用程序上,而 Jarvis 目前只能操作瀏覽器,並且已經針對谷歌的 Chrome 瀏覽器進行了 “定製化” 調整。
知情人士還表示,至少在目前,Jarvis 的目標用户為那些希望實現網頁日常任務自動化的人。在谷歌今年春天的開發者大會上,首席執行官 Sundar Pichai 暗示,未來的 Gemini 版本可以自主執行多項操作,如幫助用户退回一雙鞋子等。
產品響應速度慢,安全性或受質疑
知情人士還提示道,“Jarvis” 的計劃是暫定的,也可能會有所變動。報道稱,谷歌可能會先向少數早期測試者發佈該產品,以幫助識別和修復其不足之處。該代理目前運行速度相對較慢,因為模型需要在採取每個行動前思考幾秒鐘。
此外,由於谷歌還需要訪問客户的隱私信息如登錄密碼和信用卡信息等,才能訪問不同的網站來完成任務或根據客户的要求進行購買。
分析指出,谷歌需要讓人們相信,其 AI 代理能夠安全地處理他們的個人數據,這是它執行任務所必需的。
除此之外,LLMs 還有一些普遍的漏洞,比如可能會產生錯誤答案,此前,谷歌在其搜索引擎中使用 LLM 驅動的對話式答案,出現了許多明顯的錯誤。