OpenAI, Microsoft, and Meta Platforms have successively entered the stage, and the overseas AI terminal battle is focused on: glasses!

華爾街見聞
2023.12.15 08:46
portai
I'm PortAI, I can summarize articles.

報道稱,谷歌仍在開發智能眼鏡軟件,OpenAI 與 Snap 強強聯手,Meta 與 Ray-Bans 優勢互補,蘋果已在硬件上做好準備,亞馬遜計劃推出多模態 AI 新設備。

全球 AI 競爭必將在明年進入新一輪高潮,各大科技巨頭圍繞智能眼鏡展開的爭奪戰也將成為焦點。

隨着多模態 AI 強勢崛起,Meta、谷歌、微軟、OpenAI 等公司正競相將更強大的 AI 技術應用於智能眼鏡和其他可穿戴設備。

據 The Information 最新報道,谷歌雖然已經終止了增強現實(AR)眼鏡項目,但仍在為智能眼鏡開發軟件。上週,谷歌史上最強 AI 模型 Gemini 展示了其多模態功能,向打造一個 “始終在線” 的 AI 助手的目標邁出第一步,但這距離真正實現可能仍需要數年時間。

該媒體援引一位知情人士報道,OpenAI 最近考慮將其物體識別軟件 GPT-4 與 Vision 嵌入到 Snapchat 母公司 Snap 公司的 Spectacles 智能眼鏡產品中,這可能會為其帶來新的功能。

Meta 將一款多模態 AI 語音助手嵌入了他們正在與奢侈品墨鏡公司 Ray-Ban 合作開發的智能眼鏡,該助手可以描述佩戴者看到的東西,為襯衫搭配褲子提出建議,並可以將西班牙語文本翻譯成英語。

另外,近幾個月亞馬遜也在討論一種新型 AI 設備,據悉該設備也具備類似的視覺能力。

谷歌:仍在開發智能眼鏡軟件

據報道,谷歌雖然早在年中就取消了智能眼鏡的開發,但仍在為其開發軟件,谷歌計劃將軟件授權給硬件製造商,類似於為三星等手機制造商開發安卓移動操作系統的方式。

谷歌上週發佈視頻展示了 Gemini 的部分功能,比如自動識別用户表演的電影,對面前物品提出建議,以及學習新遊戲的能力。

Gemini 家族目前有 Gemini Ultra,Gemini Pro 和 Gemini Nano 三個成員,將向不同的客户羣開放,但谷歌並未在視頻中公開其所謂的高級版 Gemini,視頻中的用户交互也做了渲染。

儘管如此,該視頻展示了谷歌打造一個 “始終在線” 的 AI 助手的願景,它可以實時響應和理解用户正在做的事情和看到的東西。

知情人士向 The Information 透露,要實現這種 “環境計算” 仍需數年時間。作為第一步,谷歌正在重新設計 Pixel 手機的操作系統,嵌入小型的 Gemini 模型驅動 Pixie AI 助手,處理更加複雜和多模態的任務。據此前報道,Pixie 能夠根據用户拍的照片,推薦附近的商店買到相關商品。

谷歌的核心搜索技術就是預測和提供用户需要的信息,因此開發這樣的 AI 設備非常符合谷歌的定位。谷歌十年前試水的眼鏡就是一個失敗案例,由於外形尷尬、實用性有限,用户並不買單。

後來,谷歌對攝像頭設計進行了調整,並推動安卓手機廠商將手機攝像頭打造成 “第三隻眼”,可以掃描環境並將圖像發送到谷歌雲端分析,為用户提供上下文信息,但這個想法最終縮水成圖像搜索應用 Google Lens。

OpenAI:與 Snap 強強聯手

The Information 援引一位知情人士報道,OpenAI 最近考慮將其物體識別軟件 GPT-4 與 Vision 嵌入到 Snapchat 母公司 Snap 公司的 Spectacles 智能眼鏡產品中,這可能會為其帶來新的功能。

早在今年 3 月份,OpenAI 就展示了其 AI 軟件根據手繪草圖來構建網站的能力。或許是為了充分發揮大模型的強大功能,從那時起,OpenAI 首席執行官 Sam Altman 就多次表示,對構建一種新的基於 AI 的消費類設備感興趣。

值得注意的是,OpenAI 本身沒有設備團隊,但可以與其他公司合作,比如 Snap 這樣的設備製造商,或者 AI 芯片設計商。

另外,Altman 還正在投資一家名叫 “Humane” 的 AI 設備製造商,這家公司製造帶攝像頭的可穿戴設備 “AI brooch”,計劃製造可以取代智能手機的 AI 設備。

微軟:積極推進智能眼鏡相關 AI 技術開發

微軟正在積極推進可應用於智能眼鏡和其他小型設備的 AI 技術的研發,這些技術或基於語音或圖像識別,目的是賦能更多樣化的智能硬件。

The Information 認為,這些工作可能基於微軟現有的 HoloLens AR 頭顯來展開。

報道稱,微軟正在為 HoloLens 嵌入一種 AI 軟件,用户可以通過語音與 OpenAI 技術驅動的聊天機器人討論相機拍攝的物體。

蘋果:已在硬件上做好準備

蘋果在多模態 AI 技術上較競爭對手相對落後,但也在這一領域開展了一定工作。具體來説,

蘋果已通過即將發售的 Vision Pro 頭顯,在硬件上做好應用多模態 AI 技術的準備。

蘋果在 AI 算法方面落後於同行,直到今年才開始重點研究大型語言模型(LLM),此前相關研究僅停留在初步階段。

The Information 報道稱,目前沒有跡象表明 Vision Pro 會在近期具備複雜的物體識別等多模態功能。

但是,蘋果這些年致力於增強 Vision Pro 的計算機視覺能力,使其可以快速識別周遭環境,例如識別傢俱、判斷環境是客廳、卧室還是廚房,蘋果目前正在開發可以識別圖像和視頻的多模態模型。

Vision Pro 的一個主要障礙是體積較大、笨重,也不太適合户外佩戴。今年早些時候,蘋果據傳暫停了 AR 眼鏡的研發以專注推出頭顯產品。目前不清楚眼鏡項目何時重新啓動,但未來可能實現多模態功能。

Meta:與 Ray-Bans 優勢互補

12 月 12 日,Meta 和奢侈品墨鏡公司 Ray-Bans 合作的新產品——Meta Ray-Bans 智能眼鏡,開始推出多項 AI 功能:拍照、計算食物卡路里、識別植物、翻譯等。從媒體和扎克伯格的試用來看,Meta Ray-Bans 智能眼鏡 AI 功能的表現似乎還不錯。

早在今年 9 月接受媒體採訪時,扎克伯格就透露過,Meta 會在智能眼鏡上推出多模態 AI 功能。所謂的多模態,即支持文本、圖像、語音等多種形式的媒介輸入的 AI。

據報道,Meta 未來還計劃讓眼鏡能夠檢測人體的感官數據,進一步強化多模態能力。眼鏡上搭載的高通 AI 芯片目前似乎表現良好,Meta 未來還計劃進一步對使用流程進行優化。

目前,Meta 眼鏡已經上架銷售,售價為 300 美元,AI 功能處於早期測試階段,僅向部分用户開放。但值得指出的是,Meta 也表示,會使用匿名數據來幫助改進眼鏡的 AI 服務,可能會讓許多關心隱私的用户感到不適。

亞馬遜:計劃推出多模態 AI 新設備

據直接瞭解該項目的人士向 The Information 透露,今年夏天,亞馬遜 Alexa 團隊計劃推出一款能夠運行多模態 AI 的新設備。

這位人士表示,該團隊特別感興趣的是,如何減少在設備上處理圖像、視頻和語音的 AI 計算和內存需求。

報道稱,目前尚不清楚該項目是否獲得資金支持,也不清楚該設備打算為客户解決什麼問題,但它與亞馬遜老產品 Echo 語音助理設備系列是分開的。

Alexa 團隊多年來一直致力於新型設備的開發,其中包括一款名為 Echo Frames 的智能音頻眼鏡。然而,目前尚不清楚,亞馬遜是否會在該眼鏡的基礎上開發具有視覺識別功能的設備,因為它不搭載屏幕顯示器或攝像頭。