
Did Alphabet-C "fake" the viral video of Gemini's "powerful multimodal capabilities"?

媒體報道稱,視頻中 Gemini 對畫面的描述、對玩具識別和提問的回答等互動都是人為設置的,視頻跳過了部分提示以及模型的推理過程,給觀眾營造一種 Gemini 智能又敏捷的假象。
週四,谷歌 YouTube 官方賬號發佈的一個名為 “與 Gemini 親密互動:與多模態 AI 交互” 的視頻引發了網友圍觀,一天之內觀看次數達到 140 萬次。
這個視頻之所以能吸引這麼多目光,是因為它展示了谷歌史上最強 Gemini 多模態模型在交互方面令人印象深刻的表現。
在這段時長 6 分 22 秒的視頻中,Gemini 對輸入的語音、圖像等提示做出了靈活、流暢的響應和理解,展現出強大的多模態理解和交互能力。
然而,據科技媒體 TechCrunch 最新報道,有用户仔細研究該視頻後,發現 Gemini 的驚豔表現幾乎都是 “偽造” 的。
視頻中 Gemini 對畫面的描述、對玩具識別和提問的回答等互動都是人為設置的,視頻跳過了部分提示以及模型的推理過程,給觀眾營造一種 Gemini 智能又敏捷的假象。
Gemini 可能沒有那麼智能
Gemini 在視頻中展示了多種交互技能,比如識別玩具鴨、跟蹤杯子戲法中的球、識別手勢、重排星球順序等。
比如,在第一個演示中,Gemini 識別了一個鴨子素描從一條線到完整畫面的演變過程。當演示者將鴨子素描填滿藍色顏料時,Gemini 指出鴨子通常是棕色、白色或黑色的,不會是藍色的。
然後,當 Gemini 看到一個藍色玩具鴨時,它驚訝地説道:"這是什麼玩意!"接下來它回答了關於這個玩具鴨的各種語音提問。
整段視頻中,Gemini 的反應都很快,回答縱享絲滑,但問題在於,它的反應不夠真實。
媒體通過捕捉素材來測試 Gemini 在各種場景下的反應能力,重新制作了一個演示視頻。然後,用視頻素材中的靜態畫面框提示 Gemini,並通過文字輸入進行提示。
結果顯示, Gemini 確實具備視頻中展示的某些能力,但並沒有真正如視頻所示的那樣快速、流暢地完成所有互動任務。
但據 TechCrunch 稱,視頻中展示的交互效果,其實並不是真實的即時交互,而是事先設置好的。
視頻用的是一系列特意準備的文本提示,以及配套的靜態圖片,通過挑選和剪裁這些預設素材,製作成真實交互的效果。
這樣做其實是為了誤導觀眾,讓人們相信視頻中展示的是 Gemini 真正的即時交互能力。但很可能的是,Gemini 在交互速度、準確性等方面均沒有視頻中展示的那樣強大。
視頻和文檔展示的提示,差別很大
值得注意的是,當 TechCrunch 對比視頻和谷歌發佈的文檔演示時,發現兩者的提示存在差異。
比如,在視頻的 2 點 45 分處,一隻手做出了一系列手勢,沒有配合語音提示。Gemini 很快回應道:“我知道你在做什麼!你在玩石頭、剪刀、布!”
但谷歌的 Gemini 能力文檔一開始就明確指出,該模型不能通過識別單個手勢來推理,提示必須同時展示全部 3 個手勢,並給提示詞 “這是什麼遊戲”,只有這樣它才能識別出 “石頭、剪刀、布”。
所以視頻中的表現完全不符合文檔所述的提示限制,無法展示出 Gemini 的真正識別能力。
另外,Gemini 識別星球順序的場景也可能具有欺騙性。
演示者展示了貼有太陽、土星和地球塗鴉的便利貼,詢問 Gemini 行星順序是否正確,Gemini 給出了正確的太陽、地球、土星順序。
但文檔顯示真正的提示是,“這是正確的順序嗎?思考離太陽的距離並解釋你的推理”。
這兩種交互感覺上完全不同,視頻演示看起來像智能的及時評估,而在真正的交互中,Gemini 需要暗示性很強的提示。
另外,在追蹤杯子中紙團的演示中,也出現了不同於文檔記錄的提示的情況。
值得注意的是,如果一開始視頻就明確表示 “這是對我們研究人員測試過的交互的藝術化呈現”,大家都不會有異議,因為這類視頻本來就兼具事實和理想色彩。
但是這個視頻叫做 “與 Gemini 親密互動”,並標榜是 “我們最喜歡的交互”,這實際就是説,視頻中的交互就是真實交互的意思,但實際上並不是。
谷歌甚至沒有説明,視頻中展示的模型是已經面市的 Gemini Pro 版本,還是預計明年發佈的 Gemini Ultra。
