AI search engine is here! Google makes a big move, releasing the most powerful AI model, challenging OpenAI's voice capabilities

華爾街見聞
2024.05.14 17:10
portai
I'm PortAI, I can summarize articles.

Gemini 1.5 Pro 上下文窗口 200 萬 token,號稱聊天機器人中的全球最長窗口;Gemini 新增語音對話功能 Live,與 OpenAI 新模型 GPT-4o 一較高下;Gemini 將可根據用户需求定製;谷歌的多模態 AI 項目 Project Astra 可回答手機攝像頭所拍的物體相關問題,安卓端側 Gemini 增加多模態功能。

本文作者:李丹

來源:硬 AI

雖然被 OpenAI 搶在前面發佈了重磅新品演示,但谷歌後發制人,做到了 OpenAI 還沒能做到的事,率先發布人工智能(AI)搜索引擎,捍衞搜索領域的王者地位,同時對壘 OpenAI 新發布的旗艦模型 GPT-4o,以升級版的最強大 AI 模型 Gemini 迎戰。

美東時間 5 月 14 日週二舉行的年度 Google I/O 開發者大會上,谷歌 CEO Sundar Pichai 表示,谷歌所有的工作都圍繞生成式 AI 模型 Gemini 來做,“我們希望每個人都能從 Gemini 所做的事中受益。” 將生成式 AI 引入搜索的 AI 搜索引擎正是 Pichai 提到的 Gemini 融入谷歌多種服務之一。

Pichai 宣佈,本週,AI 技術生成摘要的功能將上線美國的谷歌搜索,它名為 AI Overviews,並很快會在更多國家地區推出。

通過多步推理,Gemini 可以代替用户研究,找到更好的搜索結果。比如谷歌搜索中的 Gemini 可以通過匯總一天中的所有膳食以及所有菜餚的食譜,為用户規劃膳食。如果用户覺得做飯太麻煩,谷歌搜索還可以在 Gemini 的幫助下,為用户找到可以購買用户所需餐食的地方。

在 Gemini 的幫助下,用户的搜索結果頁面也會發生變化,比如尋找有現場音樂的餐廳,它甚至可以根據不同的季節做推薦,比如顯示有屋頂的餐廳。

Pichai 現場演示,藉助 Gemini 的強大功能,在谷歌相冊 Google Photos 可以進行更多的相關搜索,比如通過名為 Ask Photos with Gemini 的新功能讓 Gemini 找到用户想要的車牌照號,Gemini 將根據上下文響應在相冊中搜索,並選出用户想要的照片,得到照片中拍到的車牌照號。

谷歌雲計算生產力和協作平台 Google Workspace 的許多服務將結合 Gemini,例如用 Gemini 在 Gmail 中搜索特定發件人發出的電郵,在線上網絡和視頻會議 Google Meeting 中找到亮點。

Gemini 可用於搜索用户的手機,幫用户查找收據、安排取貨窗口。如果用户計劃旅行,Gemini 可以用來搜索有趣的活動。Pichai 表示,谷歌正在 “讓 AI 對每個人都有幫助”。

谷歌稱,用户將可以直接在搜索中通過視頻提問。谷歌高管演示了,如何藉助視頻搜索修復損壞的電唱機。具體做法是,先錄製視頻展示損壞的問題,然後詢問,為什麼電唱機無法正常工作。谷歌搜索就能夠進行逐幀搜索,回答高管的問題。

Gemini 1.5 Pro 上下文窗口 200 萬 token 全球最長

谷歌稱,推出號稱有史以來最強大 AI 模型 Gemini Advanced 三個月內,已有超過 100 萬用户註冊。

從本週二起,谷歌在 Gemini Advanced 中加入新模型成員 Gemini 1.5 Pro,稱它擁有的上下文窗口在全球消費類聊天機器人中最長,窗口起始就有 100 萬個 token。Gemini 1.5 Pro 將向 150 多個國家地區的 Gemini Advanced 訂閲者提供,支持超過 35 種語言。

Pichai 稱,Gemini 1.5 Pro“提供了迄今為止所有基礎模型中最長的上下文窗口。” 他介紹,Gemini 1.5 Pro 將擁有 200 萬個 token 的上下文窗口,是當前模型 100 萬個 token 窗口的兩倍。

Gemini 新語音對話功能 Live 定製版 Gemini

谷歌稱,今年夏季將擴展 Gemini 的多模態功能,包括增加用語音進行深入雙向對話的能力,該功能被稱為 Live。通過 Gemini Live,用户可以與 Gemini 交談,並可以從各種自然的聲音中選擇它回應的聲音。 用户甚至可以按照自己的節奏説話,或者在回答過程中打斷並澄清問題,就像在任何人類對話中一樣。

有網友評論稱,想知道相比 OpenAI 週一發佈的最新旗艦模型 GPT-4o,Gemini 的對話功能會有多好。

谷歌稱,今年夏季,將在 Gemini Advanced 中添加新的旅行規劃功能。借助考慮時間和空間方面物流的先進推理,Gemini 將能夠創建個性化的行程,節省用户的工作時間。

未來幾周,谷歌將在 Gemini Advanced 中添加新的數據分析功能。用户只需上傳電子表格,Gemini 就可以分析數據、製作圖表,並更快地發掘見解。

谷歌將推出被稱為 Gem 的 Gemini 的定製版本。Gemini Advanced 訂閲者將很快可以獲得更個性化的體驗,根據自己的需要創建 Gemini,只需描述用户希望 Gem 做什麼以及希望它如何響應,就可以讓它化身健身夥伴、主廚幫手、編代碼的拍檔或者創意寫作指南。

例如,用户可以要求 Gemini:做我的跑步教練,給我一個每天跑步的計劃,而且保持積極、樂觀、激勵我。Gemini 將接收這些説明,用户只需單擊一下,即可強化這方面的特質,創建一個滿足特定需求的 Gem。

Project Astra 回答手機所拍物問題 安卓端側 Gemini 增加多模態功能

谷歌官宣推出新的多模態 AI 項目 Project Astra,它可以為用户解釋智能手機拍到的東西。在谷歌展示的視頻中,只要將手機攝像頭對準某個物體,Gemini 就可以識別它,比如一個紅蘋果,還可以回答諸如鏡頭中什麼東西是可以發聲的這種問題。

谷歌稱,將很快為模型 Gemini Nano 添加多模式功能。這意味着,用户的手機可以通過文本、圖像、聲音和口語,按照用户理解的方式理解世界。

谷歌稱,端側安卓系統手機版的 Gemini Nano 將更有幫助,更有上下文的意識。今年,安卓手機的用户將可以將生成的圖像拖放到 Google Messages 和 Gmail 中,並可以直接在手機上提出有關 YouTube 視頻和 PDF 文件的問題,得到解答。

谷歌稱,今年晚些時候,Gemini Nano 的輔助功能 TalkBack 將增強。圖像描述將更加清晰和豐富,幫助弱視用户和盲人用户通過語音反饋,更好地指示他們的手機。

對週二谷歌開發者大會的所有發佈和演示內容,前谷歌 Health AI 產品經理 Charlene Wang 在社交媒體 X 評論稱,除了 AI 代理和 AI Teammates 之外,她從中得到的主要收穫實際上是 Gmail、搜索、Workspace 甚至 Chat 未來幾個月會變得更有用。目前有大量具有殺手級用户體驗的產品引人注目,而將所有內容組織並同步在一個空間中的想法將是使用谷歌產品最令人信服的理由。

有網友則認為,谷歌的整場活動沒有達到蘋果的水準,呼籲谷歌的高管向蘋果學一學,稱喜歡 Project Astra 項目的東西,但並沒有覺得很興奮,因為 OpenAI 週一已經發布類似的了。

還有網友稱,週二的活動中沒有聽到任何和安卓 15 系統或相關硬件有關的東西,不知谷歌是不是要把它們保留到今年 10 月的發佈會再亮相。