The significance of Gemini 3: AI has surpassed the "hallucination stage" and is approaching human capabilities, with "human-machine collaboration" shifting from "humans correcting AI" to "humans guiding AI work."

Ethan Mollick 認為，Gemini 3 的出現意味着具備自主行動能力的 “代理模型” 正在崛起，它雖然並非完美無瑕，但其所犯的錯誤已不再是無中生有的 “幻覺”，而更接近人類在判斷或意圖理解上的偏差。隨着 AI 能力的提升，人機協作正從 “人類修復 AI 的錯誤” 進化為 “人類指導 AI 的工作”。

谷歌最新發布的 Gemini 3 模型正標誌着人工智能領域的一個關鍵轉折點。

華爾街見聞此前提及，美東時間 18 日週二，谷歌正式發佈備受期待的該司迄今最強大人工智能（AI）模型 Gemini 3，並於發佈首日立即在谷歌搜索、Gemini 應用程序 App 及多個開發者平台同步上線，在多個盈利產品中投入使用。

谷歌高管在新聞發佈會上強調，在衡量人工智能模型性能的幾個熱門行業排行榜上，Gemini 3 處於領先地位。谷歌 AI 研究實驗室 DeepMind 的 CEO Demis Hassabis 表示，Gemini 3 是"世界上最好的多模態理解模型"，也是公司迄今最強大的智能體和代碼生成模型。

根據沃頓商學院教授 Ethan Mollick 的深度測評，Gemini 3 的發佈及其配套工具 “Antigravity” 展示了驚人的 “代理” 能力。與三年前的 GPT-3 模型相比，AI 不再僅僅是生成文本，而是能夠編寫代碼、構建可交互的應用、執行多步驟任務。

Mollick 指出，這種從 “描述” 到 “行動” 的飛躍，意味着 AI 正從一個對話夥伴，演變為一個可以接入計算機並完成實際工作的通用工具。

Mollick 的結論是，我們正從 “聊天機器人時代” 邁向 “數字同事時代”。Gemini 3 雖然並非完美無瑕，但其所犯的錯誤已不再是無中生有的 “幻覺”，而更接近人類在判斷或意圖理解上的偏差。

這表明，人機協作的模式正在改變，人類所做的將不再是修正 AI 的低級錯誤，而是為其提供高階的戰略指引和方向。這或許是自 ChatGPT 發佈以來，AI 領域發生的最大變革。

以下為 Ethan Mollick 測評文章全文：

三年，從 GPT-3 到 Gemini 3

從聊天機器人到智能體

Ethan Mollick

2025 年 11 月 19 日

我一直在測試谷歌新發布的 Gemini 3 模型。它非常出色。但與其羅列基準數字，不如讓 AI 親自演示這三年我們走了多遠——我就是這樣做的。

ChatGPT 發佈至今已近三年。在它上線前幾天，我在這份 Substack 上寫了第一篇關於 OpenAI 更早期的 GPT-3 的文章。隨後 ChatGPT 橫空出世，我立刻又寫了一篇：“我通常對技術預測很謹慎，但這次它會比我們預期得更快、更劇烈地改變我們的世界。不再只是自動化重複、危險的工作，現在第一批被 AI 顛覆的，可能是更偏分析、創意、寫作與溝通的崗位。”

今天看來，我説對了。

（插圖：三年前我用 GPT-3.5 後的首篇文章截圖）

我可以口頭解釋初代 ChatGPT 與今天谷歌發佈的 Gemini 3 有多大差距，但沒必要。我把上面那張截圖扔給 Gemini 3，只寫了一句話：

我：“做點東西，讓大夥兒看看 AI 這三年進步了多少。”

Gemini：“當然可以。你這條推文來自 2022 年 11 月——現代 AI 熱潮的前夜。當時最大的 ‘哇點’ 是 AI 能寫一段通順的文字，或者給 ‘糖果動力超光速飛船逃離水獺’ 這種傻題目寫首小詩。

為了展示進步，我不僅用文字描述，而是直接給你做了一個可交互、可遊玩的 ‘糖果動力超光速飛船模擬器’。

2022 年，AI 只能描述引擎；2025 年，AI 能把引擎寫出來、把界面畫出來，還讓你親自開飛船。”

它真的做了一個迷你遊戲：我得靠糖果能量擺脱追殺的水獺，途中穿插小詩和各種搞笑更新。讀這篇博客的人大概早知道 AI 能寫代碼，但更有趣的是——當你不再把 Gemini 3 當成 “聊天框”，而當成 “別的東西” 時，它還能幹什麼。

會寫代碼的工具，不只是 “寫代碼的工具”

伴隨 Gemini 3，谷歌還發布了 Antigravity。程序員一看就懂：它跟 Claude Code、OpenAI Codex 類似，給你電腦權限，能在指導下自主寫程序。

如果你不是程序員，可能會忽略它——我覺得這是錯的。“會寫代碼” 不等於 “當程序員”，而是 “能完成任何在電腦上才能完成的活兒”。於是，這些工具的本質被徹底改寫。

Gemini 3 極擅長寫代碼，這一點即使你不自認 “程序員” 也與你息息相關。AI 界的一個底層視角是：你在電腦上做的任何事，歸根到底都是代碼；只要 AI 能寫代碼，它就能建儀表盤、扒網站、做 PPT、讀文件…… 這讓 “會寫代碼的智能體” 成了通用工具。Antigravity 把這一理念產品化：給我一個 “收件箱”，我把任務派給智能體，它們需要批准或幫助時會通知我。

（插圖：四個智能體同時跑，一個在幹活，一個等我回應）

我跟它們不用代碼，用英語；它們用代碼替我幹活。Gemini 3 擅長做計劃，知道該幹什麼、何時請示。比如我把歷年 newsletter 的稿子全放在一個文件夾，然後吩咐：

“給我做一個漂亮的網頁，匯總我對 AI 的所有預測，再上網搜搜哪些説對了哪些説錯了。”

它讀完所有文件、跑代碼、先遞給我一份可編輯的方案——這是它第一次開口問我，理解之準確讓我驚訝。我小改幾處，放它去幹。

隨後它搜網頁、建站、接管瀏覽器驗效果，再把成品打包給我。我像對真人同事一樣提修改意見，它繼續迭代。

它並非完美無缺——智能體還沒到那一步。我沒發現幻覺，但確有地方需要我糾正，不過那些錯誤更像 “人類同事會有的判斷偏差或誤解”，而非傳統 AI 的離譜幻覺。重要的是，我感覺自己能夠掌控人工智能的決策，因為人工智能會定期檢查並確認其工作，而且我的操作過程清晰可見。這種感覺更像是管理一位隊友，而不是通過聊天界面與人工智能進行溝通。

博士級智力？

Antigravity 並非唯一驚喜。另一重震撼在於——它展現了真正的 “判斷力”。

我常吐槽：AI benchmark 已經卷成一鍋粥。Gemini 3 在大多數榜單上領先（也許還打不過 200 美元的 GPT-5 Pro，但等 Gemini 3 的 “深度思考” 版出來可能就翻盤）。行業愛用一句廣告詞：“博士級智力”。我決定真刀真槍測一下。

我把十年前眾籌研究的一堆舊文件扔給它——文件名像 “project_final_seriously_this_time_done.xls”，格式還是上古 STATA。命令只有一句：

“自己摸懂數據結構，把 STATA 文件清理好，準備做新分析。”

它真的把損壞的數據恢復了，把複雜環境摸透了。

接着我給了它一個典型 “博士二年級小論文” 任務，不加任何提示：

“很好，現在用這些數據寫一篇原創論文。深入調研領域，把主題拔高到創業或戰略理論的層面，做嚴謹統計，寫成期刊格式。”

它自己選題、提假設、跑統計、出圖表、排版成文——最難的 “選題與可執行性平衡” 它自己走鋼絲搞定了。我僅含糊地説 “再充實、再改進”，最終拿到 14 頁論文。

（插圖：論文前兩頁）

更驚豔的是，它自創了一個指標：用 NLP 把項目描述與海量描述做數學比對，衡量 “眾籌創意獨特性”。代碼自己寫，結果自己驗。

所以，這算 “博士級” 嗎？

如果你指 “能幹頂尖高校裏一個合格研究生的活”，部分答案是 “yes”。但它也有研究生通病：統計方法有瑕疵、理論跳躍過大、證據鏈不夠嚴謹…… 我們已越過 “幻覺” 階段，進入更微妙、更 “人類” 的缺陷區。有趣的是，當我像帶學生一樣給開放建議（“再多補眾籌文獻以確立方法”），它提升顯著——也許再多引導就能接近 “博士”。

Gemini 3 是什麼？

它是一個極出色的 “思考 + 執行” 夥伴，全球數十億人可隨手調用；也是一面鏡子，照出 AI 並未放緩、智能體崛起、人類需學會管理 “聰明 AI” 等多重趨勢。

三年前，我們為 “機器能寫水獺詩” 而驚歎；不到 1000 天后，我在跟一個自建研究環境的智能體辯論統計方法。

聊天機器人時代正在讓位於 “數字同事” 時代。

沒錯，Gemini 3 仍不完美，需要會指揮、會核查的 “人類經理”。但 “人在迴路” 正從 “人替 AI 擦屁股” 演變為 “人指導 AI 幹活”——這也許是 ChatGPT 發佈以來最大的範式遷移。

彩蛋：

我讓 Gemini“純用代碼給我做一張 Substack 封面圖，先查尺寸”，它先上網搜規格，再純靠數學畫圖，一條龍搞定。

** obligatory 警告：**

讓 AI 智能體獲得電腦權限有風險——它可能不經詢問就移動/刪除文件，甚至泄露文檔。等工具面向非程序員時會好很多；當下務必謹慎。