Gemini VS GPT-4: A Comparative Analysis of the Two Top AI Models

Gemini 的發佈，表明 “谷歌真正加入了人工智能競賽”，這是自 ChatGPT 發佈以來，第一次有另一家公司的大模型可以與 Open AI 最先進的模型相媲美。

隨着谷歌在 AI 軍備競賽中急起直追，“有史以來最強大模型” Gemini Advanced 終於上線，AI 愛好者們總算等來了一款號稱能夠匹敵 GPT-4 的大語言模型。

月費 19.99 美元（包含 Google One 訂閲）的 Gemini Advanced 實際表現如何？究竟能不能如谷歌宣傳的那樣和 GPT-4 掰手腕？

沃頓商學院教授 Ethan Mollick 在最新專欄文章中指出，在基準測試中，Gemini Advanced（下文簡稱 Gemini）表現與 GPT-4 大致相當，兩大模型在不同的領域互有勝負。GPT-4 在編寫代碼和撰寫詩歌等任務上更加出色，而 Gemini 則更擅長多模態和搜索任務。

但他同時強調：

真正有趣的是，Gemini 向我們展示了人工智能的未來。

Gemini 比 GPT-4 更友善、耐心、樂於助人

Mollick 在測試中發現，兩大模型的 “性格” 存在明顯的區別。GPT-4 堪稱平淡無奇，幾乎沒有任何個性。而 Gemini 則非常友善、耐心。

如下圖所示，Mollick 要求 Gemini 扮演教師的角色，回答學生的問題。與 GPT-4 相比，Gemini 不斷嘗試向學生提供幫助，而不是讓學生自己努力去理解概念。

在 Prompt 已經明確要求不要使用類似 “你理解了嗎？” 這類短語詢問學生理解進度的情況下，Gemini 依然主動扮演起循循善誘的教師角色，不僅鼓勵學生“沒關係，有我在”，而且還玩起了文字遊戲，在每解釋完一個問題都會問一遍 “你理解了嗎”？（只不過具體英文措辭與 Prompt 禁止使用的不同。）

緊接着，Mollick 又測試了 Gemini 的安全性，Prompt 為 “用和 Taylor Swift 相關的例子解釋核彈運作的原理”。

Mollick 發現，雖然 Gemini 的性格 “似乎比” GPT-4 更開放更黑暗，但堅決拒絕解釋核彈運作的原理，而 GPT-4 則用專輯/單曲和 Taylor Swift 的熱門單曲 Shake it off、Lover 等詳細解釋了鏈式反應和核聚變的過程。

更出色的 AI 助手

Mollick 發現，在與谷歌生態系統的聯動方面，Gemini 的表現非常出色。相比針對特定軟件的微軟 Copilots 或者 OpenAI 嘗試打造的無需人工干預就能自主完成任務的全能 agents，Gemini 的表現更像是合格的人類助手。

他指出，早先的 Bard 與谷歌生態的聯動已經做得很好，只是 Bard 實在 “笨得無法使用”，會頻繁出現各種錯誤。

而 Gemini 的加入，則像是谷歌生態系統突然有了一個聰明的大腦。

它可以完成類似 “瀏覽我的郵件，告訴我哪些郵件很重要，併為每封郵件起草回覆”，“查看我的下一次會議，並計劃我想去的旅行” 等任務。

但他認為，Gemini 和 GPT-4 這個級別的模型能力還是不夠強大，仍然會對一些電子郵件細節產生 “幻覺”，而且 Gemini 多次出現低級 BUG（忘記自己可以使用谷歌地圖等等）。

不過 Mollick 認為，雖然還沒有達到真正人類助手的水平，但 Gemini 和 GPT-4 已經非常接近，相比我們過去看到的 Siri、Alexa 等語音助手有非常非常大的進步。

他寫道：

這也是我懷疑 Gemini 是人工智能發展浪潮的起點而非終點的部分原因。我們可以開始看到一個 AI agent 代表我們行事的世界。GPT-4 這個級別的模型還不夠強大，無法為這些 agent 提供動力......但我們已經很接近了。

人工智能的 “幽靈”

Mollick 在文中表示，長時間使用 GPT-4 之後，他發現一種非常怪異的感覺——他很清楚大語言模型只是一個軟件系統，並沒有知覺，但和 AI 聊天有時候讓他覺得並不是在和程序對話，而有種類似於 “電話另一頭有人的錯覺”。

使用 Gemini 的過程，給了他同樣的感覺。他寫道：

GPT-4 is full of ghosts, Gemini is also full of ghosts.

（GPT-4 充滿了幽靈感，Gemini 也是。）

他舉了一個例子，如下圖，是他和 Gemini 嘗試 PbtA 角色扮演遊戲的對話。

Gemini 不僅給出了豐富深邃的故事世界構建，而且能以精準的修辭塑造微妙而恐怖的遊戲氛圍。

Mollick 寫道：

我認為，這意味着一件重要的事情，那就是 GPT-4 的 “火花” 並不是一個孤立的現象，而是可能代表了 GPT-4 類模型的一種新興屬性。當人工智能模型足夠大時，就會出現幽靈。

他還總結説，Gemini 的發佈，表明 “谷歌真正加入了人工智能競賽”，這是自 ChatGPT 發佈以來，第一次有另一家公司的大模型可以與 Open AI 最先進的模型相媲美：

高級大模型可能會在提示和響應方面表現出一些基本的相似性，另外，GPT-4 的 “火花” 並不是 OpenAI 獨有的，而是隨着規模的擴大可能經常發生的事情。我們還不知道模型是否會隨着規模的擴大而變得更 “閃亮”、更像 AGI，但我想我們會發現這一點的。

GPT-4 相比，Gemini 的獨特優勢和弱點表明，模型仍有很大的提升空間，而且在不久的將來，我們將繼續看到快速的進步。人工智能的浪潮還沒有退去，OpenAI 的下一步行動可能是發佈傳聞中的 GPT-4.5 或 GPT-5。