
GPT-4o 幹掉初創全網實測,馬斯克 Karpathy 等大佬紛表不服:OpenAI 不過如此

OpenAI 推出的全能模型 GPT-4o 引起了廣泛關注,被認為在多個領域都有潛在的應用。馬斯克等大佬對其表達了質疑,認為 OpenAI 只是發佈了一個在同一神經網絡中結合文本 - 音頻 - 視頻三種模態並同時處理的模型。然而,GPT-4o 的實時語音視頻對話功能在教育、翻譯、視頻會議等領域已經引起了變革。同時,GPT-4o 還展示了其在客服索賠和解決問題方面的潛力。此外,GPT-4o 還可以識別手寫稿和為盲人提供實時助手。總體而言,GPT-4o 的發佈引發了行業的關注,並有望在未來發揮重要作用。
OpenAI 一夜之間,又幹掉了一大批初創公司。
官方公佈的全能模型 GPT-4o 的炸裂演示,即便過去了一天,依舊讓全網深陷其中,無法自拔。
憑藉實時語音視頻對話,GPT-4o 已經深入教育、翻譯、視頻會議等領域的變革。
OpenAI 科學家 Lilian Weng 稱,自己這次的日本之行,就用到了 ChatGPT 的實時翻譯能力,比如翻譯與壽司廚師對話,或在紀念品商店識別解釋不同類型岩石。
目前,一些用户已經灰度測試到了 GPT-4o,紛紛開啓了測試。
一大波演示來襲
瞧好了,科幻版 Her,正走進現實。
兩個 AI 自主交流,解決客服索賠
ChatGPT 可能最先搶走的工作,就是客服。
OpenAI 研究科學家 Joe Beutler 放出了,全新的 GPT-4o 提供客户服務支持的有趣演示。
一起看看兩個 AI 智能體,如何解決了客服索賠。
與客户合作構建變革性解決方案總能讓我備受鼓舞。我們可以利用這一最先進模型構建的潛在解決方案,令我興奮不已!
視頻中,兩個 AI 自主交流了起來,全程不用人類參與,就把問題解決了。
OpenAI 聯創 Greg 也轉發了這個經典示例。
還有網友表示,準備讓 GPT-4o 代替自己談判所有的賬單。
18 世紀手寫稿,一鍵轉錄
網友翻出 18 世紀的手寫稿,讓 GPT-4o 再轉寫一份。
在下圖右邊回應中,GPT-4o 成功將這份筆跡識別出來,不過還是會有一些小錯誤。
成為盲人的「眼睛」
在另一個 OpenAI 官方用例中,與 Be My Eyes 合作,為盲人提供實時助手。
在這個 1 分鐘演示視頻中,展示了 GPT-4o 強大到足以讓人震撼。
男主人公通過 ChatGPT 識別建築物,並講解了國旗上的國徽代表着什麼。
當他走到湖前,ChatGPT 非常悉心地講解了,湖水中的鴨子們在游來游去,不慌不忙悠閒自在,有的還在嬉戲打鬧,有的在尋找食物......
最後,盲人藉助 ChatGPT 的「眼睛」,打到了回家的車。
有網友將其稱之為,GPT-4o 最好的用例。它將為每個人改變世界,甚至它將為視障人士創造一個全新的世界。
GPT-4o 輸出速度碾壓 GPT-4
還有網友測試對比了,GPT-4o 和 GPT-4 針對同一問題的輸出,吞吐量有多快。
如下的對比,一眼明瞭。
GPT-4o+ 函數調用
將 GPT-4o 與函數調用結合起來用,更是讓人炸腦。
下面案例中,將一張錯誤的圖片上傳之後,GPT-4o 主打分析,然後函數調用工具便會搜索可能修復方法。
構建 Karpathy 大模型 OS
網友 Ashpreet Bedi 利用 GPT-4o,去構建了 Karpathy 曾提出的 LLM OS,沒想到運行速度,非常炸裂。
他還將代碼放了出來,以供大家自行操作。
GitHub 地址:https://github.com/phidatahq/phidata/tree/main/cookbook/llm_os
中國小姐姐談賽博戀愛
GPT Store 上線之後,各種鋪天蓋地的定製 AI 女友幾乎將其淹沒。
網友已經開始整活了
甚至,與 AI 女友相關的應用,直接成為 ChatGPT 商城上線首週中,最熱門的應用。
而現在,有了 GPT-4o 加持的 ChatGPT,談一場賽博戀愛更是恰到好處。
這不,抖音小姐姐「午夜狂暴哈士奇狗」在 GPT-4o 還沒放出之前,已經開啓了與 ChatGPT 談一場甜甜的戀愛。
下面視頻中,他們準備要去海邊約會去看落日,視頻中小姐姐還專門化了美美的妝。
而 ChatGPT 談情説愛的本領,讓人聽了瞬間肉麻。
視頻傳送門:https://v.douyin.com/i2QRdYET/
之前版本的 ChatGPT 還不能看到小姐姐美美的妝容、海邊的景色....
而現在 GPT-4o 升級後的版本,能夠識別表情和情緒,都不敢想象究竟有多強。
復刻「精靈寶可夢」
GPT-4o 還可以完美地復刻了任天堂的遊戲——寶可夢紅(Pokémon Red)。
未來的遊戲設計,就交由 AI 來做。
製作演示的網友表示,過去他曾用 Claude Opus 耗費大把時間,才做出一個勉強可以運行的同款遊戲。
而其他的模型,就更菜了,幾乎無法畫出一個畫面。
如下圖中,GPT-4o 就...直接玩起了這個遊戲。
它在終端的設計,細節非常準確,可以精準繪製地圖,並模擬戰鬥。

Jim Fan 預測全押中了
雖然 OpenAI 的這波更新在我們看來非常炸裂,但其實英雄所見略同,Jim Fan 大佬表示「我早就説過應該這麼幹」。
在昨天發佈會召開之前,他就發佈了一篇推文,深入淺出地講解了實時語音助手的技術路徑,基本可以當作 OpenAI 技術報告的大綱了。
推文中首先表示,幾乎所有的語音 AI 都需要經過 3 個階段的推理——語音識別、LLM 和語音合成。
然而,如果只是非常簡單地把三種模型集成在一起,每次回答問題就會有接近 5 秒的延遲時間,這會造成用户體驗斷崖級的下降,無法打造「沉浸式對話」。
要想解決延遲問題、打造實時語音 AI,就不能僅僅考慮三個子模型的加速,還需要重新考慮整個 pipeline,讓各個階段儘可能重疊在一起,就像人類對話時都是一邊聽一邊構思怎麼説。
用一句話總結就是,「端到端模型總能勝出。」
不僅如此,發佈會上展示的 ChatGPT 新特性,也都被 Jim Fan 一一點到,比如適時插入語氣詞、處理對話中的「打斷」等等,簡直是一波「神預言」。
OpenAI 究竟強在哪裏?
有意思的是,GPT-4o 放出後,坊間也同時出現了一些唱衰 OpenAI 的聲音。
有人説,這次放出的不是 GPT-5,也不是搜索,其實就代表着 OpenAI 的倒退。
馬斯克則嘲諷道,這些 AI 聊天的速度也太慢了吧。
此外,Andrej Karpathy 大佬也用十分平靜的語氣給出技術總結,得到了馬斯克的附議:
「他們發佈的是一個在同一神經網絡中結合文本 - 音頻 - 視頻三種模態並同時處理的模型,僅此而已。」
這就引起了網友們的討論:究竟是誰,在這裏淡化 OpenAI 做的事?
不可否認的是,OpenAI 讓《Her》中的 Samantha 成真了,這絕對是一件意義重大的事。
這位網友表示,「這是我見過的最令人驚奇的技術,那些失望的人大概本來是盼着 ASI 的吧。」
AI 開發者 Benjamin De Kraker 表示,這種能聽説能看還能推理的「虛擬人」,跟人都沒區別,這不就是 AGI 嗎?
對 OpenAI 感到不服的人,還有其他一些業內人士,比如沃頓商學院 AI 方向的教授 Ethan Mollick,他表示:「GPT-4o 並不是巨大的飛躍」。
還有一位 Meta 的研究科學家表示,OpenAI 的 GPT-4o 技術沒什麼大不了的,在 2 個月內,開源領域就會有人開始預訓練類似 GPT-4o 的模型了。包括他在內的研究者,都在加班加點地進行這項研究。
據他透露,Meta 雖然暫時落後,但跟 GPT-4 推出時相比,他們其實離 OpenAI 更近了。
原因在於,他們已經構建了可擴展、與多模態一致的架構,以及關於如何訓練這些模型的知識,而最重要的是,在這個研究領域,他們擁有除 OpenAI 以外最強大的團隊。
而在過去兩年中,這位研究者所在的團隊一直致力於為早期融合、多模態 token-in-token-out 方法奠定基礎。
在這方面,Meta 也是發表了多篇論文。包括最初的 CM3 論文,到 MM-scaling law,再到 CM3Leon,除了已發表的六篇論文,還有幾篇即將出版。
其實,這位老哥之所以着急澄清,也是因為被這位 Teortaxes 大 V 的言論逼急了。
在 Teortaxes 看來,Meta 和 OpenAI 之間的差距是越來越大了。
雖然 Armen 在前幾天就放消息説,Meta 預訓練的早期融合多模態模型已經獲得了成功(甚至核心突破在 2023 年 12 月就已經實現了),可 OpenAI 的 GPT-4o,都已經作為產品落地了啊,更何況還是給每個人免費可用。
看衰老一輩科技巨頭的絕不止 Teortaxes 一個人,知名諮詢公司 Gartner 副總裁 Chirag Dekate 在接受 Ventur Beat 採訪時表示,他認為 Meta、谷歌等公司和 OpenAI 之間的「能力差距」越來越大了。
博主「i 陸三金」總結道,其實 OpenAI 最被低估的,就是產品能力。
前有 Sora,今有 GPT-4o,能把一堆顯而易見的技術打造成一個亮眼的產品,業內目前有這種實力的,OpenAI 是無出其右。
看起來,這些產品背後的技術,如 DiT、ViT、VAE 或端到端的文本、視覺、音頻模型,並不罕見。但唯有 OpenAI,真正做出了產品。
文章來源:新智元,原文標題:《GPT-4o 幹掉初創全網實測,馬斯克 Karpathy 等大佬紛表不服:OpenAI 不過如此》
