The significance of Gemini 3: AI has surpassed the "hallucination stage" and is approaching human capabilities, with "human-machine collaboration" shifting from "humans correcting AI" to "humans guiding AI work."

華爾街見聞
2025.11.19 00:40
portai
I'm PortAI, I can summarize articles.

Ethan Mollick 認為,Gemini 3 的出現意味着具備自主行動能力的 “代理模型” 正在崛起,它雖然並非完美無瑕,但其所犯的錯誤已不再是無中生有的 “幻覺”,而更接近人類在判斷或意圖理解上的偏差。隨着 AI 能力的提升,人機協作正從 “人類修復 AI 的錯誤” 進化為 “人類指導 AI 的工作”。

谷歌最新發布的 Gemini 3 模型正標誌着人工智能領域的一個關鍵轉折點。

華爾街見聞此前提及,美東時間 18 日週二,谷歌正式發佈備受期待的該司迄今最強大人工智能(AI)模型 Gemini 3,並於發佈首日立即在谷歌搜索、Gemini 應用程序 App 及多個開發者平台同步上線,在多個盈利產品中投入使用。

谷歌高管在新聞發佈會上強調,在衡量人工智能模型性能的幾個熱門行業排行榜上,Gemini 3 處於領先地位。谷歌 AI 研究實驗室 DeepMind 的 CEO Demis Hassabis 表示,Gemini 3 是"世界上最好的多模態理解模型",也是公司迄今最強大的智能體和代碼生成模型。

根據沃頓商學院教授 Ethan Mollick 的深度測評,Gemini 3 的發佈及其配套工具 “Antigravity” 展示了驚人的 “代理” 能力。與三年前的 GPT-3 模型相比,AI 不再僅僅是生成文本,而是能夠編寫代碼、構建可交互的應用、執行多步驟任務。

Mollick 指出,這種從 “描述” 到 “行動” 的飛躍,意味着 AI 正從一個對話夥伴,演變為一個可以接入計算機並完成實際工作的通用工具。

Mollick 的結論是,我們正從 “聊天機器人時代” 邁向 “數字同事時代”。Gemini 3 雖然並非完美無瑕,但其所犯的錯誤已不再是無中生有的 “幻覺”,而更接近人類在判斷或意圖理解上的偏差。

這表明,人機協作的模式正在改變,人類所做的將不再是修正 AI 的低級錯誤,而是為其提供高階的戰略指引和方向。這或許是自 ChatGPT 發佈以來,AI 領域發生的最大變革。

以下為 Ethan Mollick 測評文章全文:

三年,從 GPT-3 到 Gemini 3

從聊天機器人到智能體

Ethan Mollick

2025 年 11 月 19 日

我一直在測試谷歌新發布的 Gemini 3 模型。它非常出色。但與其羅列基準數字,不如讓 AI 親自演示這三年我們走了多遠——我就是這樣做的。

ChatGPT 發佈至今已近三年。在它上線前幾天,我在這份 Substack 上寫了第一篇關於 OpenAI 更早期的 GPT-3 的文章。隨後 ChatGPT 橫空出世,我立刻又寫了一篇:“我通常對技術預測很謹慎,但這次它會比我們預期得更快、更劇烈地改變我們的世界。不再只是自動化重複、危險的工作,現在第一批被 AI 顛覆的,可能是更偏分析、創意、寫作與溝通的崗位。”

今天看來,我説對了。

(插圖:三年前我用 GPT-3.5 後的首篇文章截圖)

我可以口頭解釋初代 ChatGPT 與今天谷歌發佈的 Gemini 3 有多大差距,但沒必要。我把上面那張截圖扔給 Gemini 3,只寫了一句話:

我:“做點東西,讓大夥兒看看 AI 這三年進步了多少。”

Gemini:“當然可以。你這條推文來自 2022 年 11 月——現代 AI 熱潮的前夜。當時最大的 ‘哇點’ 是 AI 能寫一段通順的文字,或者給 ‘糖果動力超光速飛船逃離水獺’ 這種傻題目寫首小詩。

為了展示進步,我不僅用文字描述,而是直接給你做了一個可交互、可遊玩的 ‘糖果動力超光速飛船模擬器’。

2022 年,AI 只能描述引擎;2025 年,AI 能把引擎寫出來、把界面畫出來,還讓你親自開飛船。”

它真的做了一個迷你遊戲:我得靠糖果能量擺脱追殺的水獺,途中穿插小詩和各種搞笑更新。讀這篇博客的人大概早知道 AI 能寫代碼,但更有趣的是——當你不再把 Gemini 3 當成 “聊天框”,而當成 “別的東西” 時,它還能幹什麼。

會寫代碼的工具,不只是 “寫代碼的工具”

伴隨 Gemini 3,谷歌還發布了 Antigravity。程序員一看就懂:它跟 Claude Code、OpenAI Codex 類似,給你電腦權限,能在指導下自主寫程序。

如果你不是程序員,可能會忽略它——我覺得這是錯的。“會寫代碼” 不等於 “當程序員”,而是 “能完成任何在電腦上才能完成的活兒”。 於是,這些工具的本質被徹底改寫。

Gemini 3 極擅長寫代碼,這一點即使你不自認 “程序員” 也與你息息相關。AI 界的一個底層視角是:你在電腦上做的任何事,歸根到底都是代碼;只要 AI 能寫代碼,它就能建儀表盤、扒網站、做 PPT、讀文件…… 這讓 “會寫代碼的智能體” 成了通用工具。Antigravity 把這一理念產品化:給我一個 “收件箱”,我把任務派給智能體,它們需要批准或幫助時會通知我。

(插圖:四個智能體同時跑,一個在幹活,一個等我回應)

我跟它們不用代碼,用英語;它們用代碼替我幹活。Gemini 3 擅長做計劃,知道該幹什麼、何時請示。比如我把歷年 newsletter 的稿子全放在一個文件夾,然後吩咐:

“給我做一個漂亮的網頁,匯總我對 AI 的所有預測,再上網搜搜哪些説對了哪些説錯了。”

它讀完所有文件、跑代碼、先遞給我一份可編輯的方案——這是它第一次開口問我,理解之準確讓我驚訝。我小改幾處,放它去幹。

隨後它搜網頁、建站、接管瀏覽器驗效果,再把成品打包給我。我像對真人同事一樣提修改意見,它繼續迭代。

它並非完美無缺——智能體還沒到那一步。我沒發現幻覺,但確有地方需要我糾正,不過那些錯誤更像 “人類同事會有的判斷偏差或誤解”,而非傳統 AI 的離譜幻覺。重要的是,我感覺自己能夠掌控人工智能的決策,因為人工智能會定期檢查並確認其工作,而且我的操作過程清晰可見。這種感覺更像是管理一位隊友,而不是通過聊天界面與人工智能進行溝通。

博士級智力?

Antigravity 並非唯一驚喜。另一重震撼在於——它展現了真正的 “判斷力”。

我常吐槽:AI benchmark 已經卷成一鍋粥。Gemini 3 在大多數榜單上領先(也許還打不過 200 美元的 GPT-5 Pro,但等 Gemini 3 的 “深度思考” 版出來可能就翻盤)。行業愛用一句廣告詞:“博士級智力”。我決定真刀真槍測一下。

我把十年前眾籌研究的一堆舊文件扔給它——文件名像 “project_final_seriously_this_time_done.xls”,格式還是上古 STATA。命令只有一句:

“自己摸懂數據結構,把 STATA 文件清理好,準備做新分析。”

它真的把損壞的數據恢復了,把複雜環境摸透了。

接着我給了它一個典型 “博士二年級小論文” 任務,不加任何提示:

“很好,現在用這些數據寫一篇原創論文。深入調研領域,把主題拔高到創業或戰略理論的層面,做嚴謹統計,寫成期刊格式。”

它自己選題、提假設、跑統計、出圖表、排版成文——最難的 “選題與可執行性平衡” 它自己走鋼絲搞定了。我僅含糊地説 “再充實、再改進”,最終拿到 14 頁論文。

(插圖:論文前兩頁)

更驚豔的是,它自創了一個指標:用 NLP 把項目描述與海量描述做數學比對,衡量 “眾籌創意獨特性”。代碼自己寫,結果自己驗。

所以,這算 “博士級” 嗎?

如果你指 “能幹頂尖高校裏一個合格研究生的活”,部分答案是 “yes”。但它也有研究生通病:統計方法有瑕疵、理論跳躍過大、證據鏈不夠嚴謹…… 我們已越過 “幻覺” 階段,進入更微妙、更 “人類” 的缺陷區。有趣的是,當我像帶學生一樣給開放建議(“再多補眾籌文獻以確立方法”),它提升顯著——也許再多引導就能接近 “博士”。

Gemini 3 是什麼?

它是一個極出色的 “思考 + 執行” 夥伴,全球數十億人可隨手調用;也是一面鏡子,照出 AI 並未放緩、智能體崛起、人類需學會管理 “聰明 AI” 等多重趨勢。

三年前,我們為 “機器能寫水獺詩” 而驚歎;不到 1000 天后,我在跟一個自建研究環境的智能體辯論統計方法。

聊天機器人時代正在讓位於 “數字同事” 時代。

沒錯,Gemini 3 仍不完美,需要會指揮、會核查的 “人類經理”。但 “人在迴路” 正從 “人替 AI 擦屁股” 演變為 “人指導 AI 幹活”——這也許是 ChatGPT 發佈以來最大的範式遷移。

彩蛋:

我讓 Gemini“純用代碼給我做一張 Substack 封面圖,先查尺寸”,它先上網搜規格,再純靠數學畫圖,一條龍搞定。

** obligatory 警告:**

讓 AI 智能體獲得電腦權限有風險——它可能不經詢問就移動/刪除文件,甚至泄露文檔。等工具面向非程序員時會好很多;當下務必謹慎。