OpenAI, Microsoft, and Meta Platforms have successively entered the stage, and the overseas AI terminal battle is focused on: glasses!

報道稱，谷歌仍在開發智能眼鏡軟件，OpenAI 與 Snap 強強聯手，Meta 與 Ray-Bans 優勢互補，蘋果已在硬件上做好準備，亞馬遜計劃推出多模態 AI 新設備。

全球 AI 競爭必將在明年進入新一輪高潮，各大科技巨頭圍繞智能眼鏡展開的爭奪戰也將成為焦點。

隨着多模態 AI 強勢崛起，Meta、谷歌、微軟、OpenAI 等公司正競相將更強大的 AI 技術應用於智能眼鏡和其他可穿戴設備。

據 The Information 最新報道，谷歌雖然已經終止了增強現實（AR）眼鏡項目，但仍在為智能眼鏡開發軟件。上週，谷歌史上最強 AI 模型 Gemini 展示了其多模態功能，向打造一個 “始終在線” 的 AI 助手的目標邁出第一步，但這距離真正實現可能仍需要數年時間。

該媒體援引一位知情人士報道，OpenAI 最近考慮將其物體識別軟件 GPT-4 與 Vision 嵌入到 Snapchat 母公司 Snap 公司的 Spectacles 智能眼鏡產品中，這可能會為其帶來新的功能。

Meta 將一款多模態 AI 語音助手嵌入了他們正在與奢侈品墨鏡公司 Ray-Ban 合作開發的智能眼鏡，該助手可以描述佩戴者看到的東西，為襯衫搭配褲子提出建議，並可以將西班牙語文本翻譯成英語。

另外，近幾個月亞馬遜也在討論一種新型 AI 設備，據悉該設備也具備類似的視覺能力。

谷歌：仍在開發智能眼鏡軟件

據報道，谷歌雖然早在年中就取消了智能眼鏡的開發，但仍在為其開發軟件，谷歌計劃將軟件授權給硬件製造商，類似於為三星等手機制造商開發安卓移動操作系統的方式。

谷歌上週發佈視頻展示了 Gemini 的部分功能，比如自動識別用户表演的電影，對面前物品提出建議，以及學習新遊戲的能力。

Gemini 家族目前有 Gemini Ultra，Gemini Pro 和 Gemini Nano 三個成員，將向不同的客户羣開放，但谷歌並未在視頻中公開其所謂的高級版 Gemini，視頻中的用户交互也做了渲染。

儘管如此，該視頻展示了谷歌打造一個 “始終在線” 的 AI 助手的願景，它可以實時響應和理解用户正在做的事情和看到的東西。

知情人士向 The Information 透露，要實現這種 “環境計算” 仍需數年時間。作為第一步，谷歌正在重新設計 Pixel 手機的操作系統，嵌入小型的 Gemini 模型驅動 Pixie AI 助手，處理更加複雜和多模態的任務。據此前報道，Pixie 能夠根據用户拍的照片，推薦附近的商店買到相關商品。

谷歌的核心搜索技術就是預測和提供用户需要的信息，因此開發這樣的 AI 設備非常符合谷歌的定位。谷歌十年前試水的眼鏡就是一個失敗案例，由於外形尷尬、實用性有限，用户並不買單。

後來，谷歌對攝像頭設計進行了調整，並推動安卓手機廠商將手機攝像頭打造成 “第三隻眼”，可以掃描環境並將圖像發送到谷歌雲端分析，為用户提供上下文信息，但這個想法最終縮水成圖像搜索應用 Google Lens。

OpenAI：與 Snap 強強聯手

The Information 援引一位知情人士報道，OpenAI 最近考慮將其物體識別軟件 GPT-4 與 Vision 嵌入到 Snapchat 母公司 Snap 公司的 Spectacles 智能眼鏡產品中，這可能會為其帶來新的功能。

早在今年 3 月份，OpenAI 就展示了其 AI 軟件根據手繪草圖來構建網站的能力。或許是為了充分發揮大模型的強大功能，從那時起，OpenAI 首席執行官 Sam Altman 就多次表示，對構建一種新的基於 AI 的消費類設備感興趣。

值得注意的是，OpenAI 本身沒有設備團隊，但可以與其他公司合作，比如 Snap 這樣的設備製造商，或者 AI 芯片設計商。

另外，Altman 還正在投資一家名叫 “Humane” 的 AI 設備製造商，這家公司製造帶攝像頭的可穿戴設備 “AI brooch”，計劃製造可以取代智能手機的 AI 設備。

微軟：積極推進智能眼鏡相關 AI 技術開發

微軟正在積極推進可應用於智能眼鏡和其他小型設備的 AI 技術的研發，這些技術或基於語音或圖像識別，目的是賦能更多樣化的智能硬件。

The Information 認為，這些工作可能基於微軟現有的 HoloLens AR 頭顯來展開。

報道稱，微軟正在為 HoloLens 嵌入一種 AI 軟件，用户可以通過語音與 OpenAI 技術驅動的聊天機器人討論相機拍攝的物體。

蘋果：已在硬件上做好準備

蘋果在多模態 AI 技術上較競爭對手相對落後，但也在這一領域開展了一定工作。具體來説，

蘋果已通過即將發售的 Vision Pro 頭顯，在硬件上做好應用多模態 AI 技術的準備。

蘋果在 AI 算法方面落後於同行，直到今年才開始重點研究大型語言模型（LLM），此前相關研究僅停留在初步階段。

The Information 報道稱，目前沒有跡象表明 Vision Pro 會在近期具備複雜的物體識別等多模態功能。

但是，蘋果這些年致力於增強 Vision Pro 的計算機視覺能力，使其可以快速識別周遭環境，例如識別傢俱、判斷環境是客廳、卧室還是廚房，蘋果目前正在開發可以識別圖像和視頻的多模態模型。

Vision Pro 的一個主要障礙是體積較大、笨重，也不太適合户外佩戴。今年早些時候，蘋果據傳暫停了 AR 眼鏡的研發以專注推出頭顯產品。目前不清楚眼鏡項目何時重新啓動，但未來可能實現多模態功能。

Meta：與 Ray-Bans 優勢互補

12 月 12 日，Meta 和奢侈品墨鏡公司 Ray-Bans 合作的新產品——Meta Ray-Bans 智能眼鏡，開始推出多項 AI 功能：拍照、計算食物卡路里、識別植物、翻譯等。從媒體和扎克伯格的試用來看，Meta Ray-Bans 智能眼鏡 AI 功能的表現似乎還不錯。

早在今年 9 月接受媒體採訪時，扎克伯格就透露過，Meta 會在智能眼鏡上推出多模態 AI 功能。所謂的多模態，即支持文本、圖像、語音等多種形式的媒介輸入的 AI。

據報道，Meta 未來還計劃讓眼鏡能夠檢測人體的感官數據，進一步強化多模態能力。眼鏡上搭載的高通 AI 芯片目前似乎表現良好，Meta 未來還計劃進一步對使用流程進行優化。

目前，Meta 眼鏡已經上架銷售，售價為 300 美元，AI 功能處於早期測試階段，僅向部分用户開放。但值得指出的是，Meta 也表示，會使用匿名數據來幫助改進眼鏡的 AI 服務，可能會讓許多關心隱私的用户感到不適。

亞馬遜：計劃推出多模態 AI 新設備

據直接瞭解該項目的人士向 The Information 透露，今年夏天，亞馬遜 Alexa 團隊計劃推出一款能夠運行多模態 AI 的新設備。

這位人士表示，該團隊特別感興趣的是，如何減少在設備上處理圖像、視頻和語音的 AI 計算和內存需求。

報道稱，目前尚不清楚該項目是否獲得資金支持，也不清楚該設備打算為客户解決什麼問題，但它與亞馬遜老產品 Echo 語音助理設備系列是分開的。

Alexa 團隊多年來一直致力於新型設備的開發，其中包括一款名為 Echo Frames 的智能音頻眼鏡。然而，目前尚不清楚，亞馬遜是否會在該眼鏡的基礎上開發具有視覺識別功能的設備，因為它不搭載屏幕顯示器或攝像頭。