Did Alphabet-C "fake" the viral video of Gemini's "powerful multimodal capabilities"?

媒體報道稱，視頻中 Gemini 對畫面的描述、對玩具識別和提問的回答等互動都是人為設置的，視頻跳過了部分提示以及模型的推理過程，給觀眾營造一種 Gemini 智能又敏捷的假象。

週四，谷歌 YouTube 官方賬號發佈的一個名為 “與 Gemini 親密互動：與多模態 AI 交互” 的視頻引發了網友圍觀，一天之內觀看次數達到 140 萬次。

這個視頻之所以能吸引這麼多目光，是因為它展示了谷歌史上最強 Gemini 多模態模型在交互方面令人印象深刻的表現。

在這段時長 6 分 22 秒的視頻中，Gemini 對輸入的語音、圖像等提示做出了靈活、流暢的響應和理解，展現出強大的多模態理解和交互能力。

然而，據科技媒體 TechCrunch 最新報道，有用户仔細研究該視頻後，發現 Gemini 的驚豔表現幾乎都是 “偽造” 的。

視頻中 Gemini 對畫面的描述、對玩具識別和提問的回答等互動都是人為設置的，視頻跳過了部分提示以及模型的推理過程，給觀眾營造一種 Gemini 智能又敏捷的假象。

Gemini 可能沒有那麼智能

Gemini 在視頻中展示了多種交互技能，比如識別玩具鴨、跟蹤杯子戲法中的球、識別手勢、重排星球順序等。

比如，在第一個演示中，Gemini 識別了一個鴨子素描從一條線到完整畫面的演變過程。當演示者將鴨子素描填滿藍色顏料時，Gemini 指出鴨子通常是棕色、白色或黑色的，不會是藍色的。

然後，當 Gemini 看到一個藍色玩具鴨時，它驚訝地説道："這是什麼玩意！"接下來它回答了關於這個玩具鴨的各種語音提問。

整段視頻中，Gemini 的反應都很快，回答縱享絲滑，但問題在於，它的反應不夠真實。

媒體通過捕捉素材來測試 Gemini 在各種場景下的反應能力，重新制作了一個演示視頻。然後，用視頻素材中的靜態畫面框提示 Gemini，並通過文字輸入進行提示。

結果顯示， Gemini 確實具備視頻中展示的某些能力，但並沒有真正如視頻所示的那樣快速、流暢地完成所有互動任務。

但據 TechCrunch 稱，視頻中展示的交互效果，其實並不是真實的即時交互，而是事先設置好的。

視頻用的是一系列特意準備的文本提示，以及配套的靜態圖片，通過挑選和剪裁這些預設素材，製作成真實交互的效果。

這樣做其實是為了誤導觀眾，讓人們相信視頻中展示的是 Gemini 真正的即時交互能力。但很可能的是，Gemini 在交互速度、準確性等方面均沒有視頻中展示的那樣強大。

值得注意的是，當 TechCrunch 對比視頻和谷歌發佈的文檔演示時，發現兩者的提示存在差異。

比如，在視頻的 2 點 45 分處，一隻手做出了一系列手勢，沒有配合語音提示。Gemini 很快回應道：“我知道你在做什麼！你在玩石頭、剪刀、布！”

但谷歌的 Gemini 能力文檔一開始就明確指出，該模型不能通過識別單個手勢來推理，提示必須同時展示全部 3 個手勢，並給提示詞 “這是什麼遊戲”，只有這樣它才能識別出 “石頭、剪刀、布”。

所以視頻中的表現完全不符合文檔所述的提示限制，無法展示出 Gemini 的真正識別能力。

另外，Gemini 識別星球順序的場景也可能具有欺騙性。

演示者展示了貼有太陽、土星和地球塗鴉的便利貼，詢問 Gemini 行星順序是否正確，Gemini 給出了正確的太陽、地球、土星順序。

但文檔顯示真正的提示是，“這是正確的順序嗎？思考離太陽的距離並解釋你的推理”。

這兩種交互感覺上完全不同，視頻演示看起來像智能的及時評估，而在真正的交互中，Gemini 需要暗示性很強的提示。

另外，在追蹤杯子中紙團的演示中，也出現了不同於文檔記錄的提示的情況。

值得注意的是，如果一開始視頻就明確表示 “這是對我們研究人員測試過的交互的藝術化呈現”，大家都不會有異議，因為這類視頻本來就兼具事實和理想色彩。

但是這個視頻叫做 “與 Gemini 親密互動”，並標榜是 “我們最喜歡的交互”，這實際就是説，視頻中的交互就是真實交互的意思，但實際上並不是。

谷歌甚至沒有説明，視頻中展示的模型是已經面市的 Gemini Pro 版本，還是預計明年發佈的 Gemini Ultra。