AI 一週見聞:谷歌從模型到應用全面衝刺,OpenAI3D 建模只需 100 秒,Meta 開源新模型,AI 學會人類感知 | 見智研究

華爾街見聞
2023.05.14 01:07
portai
I'm PortAI, I can summarize articles.

谷歌從模型到應用全面進擊 AI,PaLM2 讓 Bard 更強大,Workspace 叫板 Office;3D 建模大突破,OpenAI3D 模型 Shap-E,生成 3D 模型從 2 分鐘優化到 100 秒;Meta 開源 ImageBind 新模型,AI 學會人類感知,圖片是嫁接橋樑;GPT4 最強對手 Claude 史詩升級,解讀百頁資料僅需一分鐘;此外還有三種黑科技。

每週日 AI 一週見聞與您相約。AI 一週見聞涵蓋四大部分:每週見聞、企業新品發佈、AI 黑科技、下週看點。

每週見聞

本週要點匯總:

1、谷歌從模型到應用全面進擊 AI,PaLM2 讓 Bard 更強大,辦公套裝 Workspace 叫板 Office。

2、3D 建模大突破,OpenAI 推出文本生成 3D 模型—Shap-E,生成 3D 模型從 2 分鐘優化到 100 秒。

3、Meta 開源 ImageBind 新模型,AI 學會人類感知,圖片是嫁接橋樑。

4、GPT4 最強對手 Claude 史詩升級,解讀百頁資料僅需一分鐘。

5、還有三種黑科技,AI 超寫實數字人為何凸顯商業價值、AI 更懂視頻等內容。

企業新品發佈

1、谷歌從模型到應用全面進擊 AI

本週谷歌的 I/O 發佈會備受矚目,新品發佈效果超出市場的預期。谷歌不僅僅發佈了新模型 PaLM2,還將 AI 全面接入辦公套裝 Workspace,直接叫板 Office。

值得關注的是,新推出 PalM2 模型有四種大小,包括 Gecko、Otter、Bison 和 Unicorn。Gecko 作為最輕量的版本,可以部署到移動端,易於微調各類細分模型,提供每秒處理 20 個 token 的能力。

此前大模型在邊緣側終端的應用主要是依靠 API 接口調用的方式,大模型的訓練和推理仍在雲端進行,對邊緣側終端及芯片形態更新沒有太大需求。

輕量化 Gecko 版本,能夠提供 AIGC 更為定製化、時延更低,安全性、隱私性更好的應用,開拓 AI 模型在終端芯片推理的場景,邊緣側智能終端以及 SoC 有望全面升級,進入新的更新換代週期。

見智研究認為:谷歌的 PalM2 模型推出,能夠更好的驅動機器人 Bard 升級,不僅能夠使用 100 中語言回覆用户,多模態版本的 Bard 還更新了圖像、編程、應用集成等功能;而且還在醫學上被認達到臨牀專家水平。

此外,PalM2 大模型的又一亮點就是全球首個支持移動端部署的大模型 AI,被看做是點燃移動邊緣端的 Ai 大模型競賽。意味着大模型競賽的路線現在已經從 PC 端拓展到手機和 IOT 領域。

從谷歌的研發力和生態的角度來看:

在 AI 基礎設施上:A3 虛擬機訓練速度目前比其他設施快 80%,成本低 50%;Vertex AI 平台能夠給開發者提供多種基礎模型,用於微調從而儘快得到專屬模型。

在應用生態上:谷歌搜索推出 Converse 的生成式 AI 功能,不僅能夠寫郵件、寫文案、做表格、PPT 能力直接對標 Office,而且在決定購買性價比更好的產品時候特別有用。

之後最值得關注的是谷歌將推出基於 Bard 的拓展插件,擴大機器人的應用場景,比如讓 Adobe 生成全新的圖像,用 REDFIN 進行一個地區的所有房地產市場研究,購物、訂酒店、找工作都不在話下。

2、3D 建模重大突破,OpenAI 推出文本生成 3D 模型—Shap-E

傳統 3D 模型需要開發者進行手動建模,而 Shap-E 模型可以只用過自然語言的描述創建 3D 模型,極大的提高了創作的效率和質量。Shap-E 模型可在 GitHub 上免費獲得,並支持在 PC 上本地運行。下載完所有文件和模型後,不需要聯網。最重要的是,它不需要 OpenAI API 密鑰,完全免費。

見智研究認為:Shap-E 應用於更常見的擴散模型,與此前發佈的 Point-E 模型區別在於:Shap-E 直接創建物體的形狀和紋理,並採用稱為神經輻射場 (NeRF) 的特徵來克服早期模型的模糊性,使三維場景看起來像逼真的環境。Point-E 是根據文本提示生成 3D 點雲。

此外,每個 Shap-E 樣本在單個 NVIDIA V13 GPU 上生成大約需要 100 秒,Point-E 將花費多達兩分鐘的時間在同一硬件上渲染。因此 Shap-E 比 Point-E 運行效率更快。

但該模型也仍有一定的缺陷,比如它在組合概念方面的能力有限,未來通過收集或生成更大的帶註釋的 3D 數據集可能有助於解決這些問題。生成的樣本通常看起來粗糙或缺乏細節,編碼器有時會丟失詳細的紋理。

雖然文字生成 3D 模型暫且比不上圖片的呈現效果,但仍舊是未來一個重要的方向。

3、Meta 開源 ImageBind 新模型,AI 學會人類感知

Meta 在開源大模型的路上一騎絕塵,繼兩個月前開源 LLaMA 大模型之後,再次於 5 月 9 日開源了一個新的 AI 模型—— ImageBind。這個模型與眾不同之處便是可以將多個數據流連接在一起,包括文本、圖像/視頻和音頻、視覺、IMU、熱數據和深度(Depth)數據。這也是業界第一個能夠整合六種類型數據的模型。

見智研究認為:ImageBind 無需針對每一種可能性進行訓練,而是直接預測數據之間的聯繫的方式類似於人類感知。

ImageBind 通過圖像的綁定屬性,將每個模態的嵌入與圖像嵌入對齊,即圖像與各種模式共存,可以作為連接這些模式的橋樑,例如利用網絡數據將文本與圖像連接起來,或者利用從帶有 IMU 傳感器的可穿戴相機中捕獲的視頻數據將運動與視頻連接起來。這對於多模態發展來説具有重大意義。

4、GPT4 最強對手 Claude 史詩升級,解讀百頁資料僅需一分鐘

據 Anthropic 官方介紹,升級後的 Claude-100k 版本,對話和任務處理能力雙雙得到極大提升。一方面,是 “一次性可處理文本量” 的增加,另一方面則是 “記憶力” 的增加。

見智研究認為:此前大模型都存在對讀取超長文本的困難,而 Claude-100k 打開此該領域的天花板,GPT-4 也不過才做到 3.2 萬 token,而 Claude-100k 能做到一次記憶 10 萬 token;能學習論文、幾小時的博客、財報等等都不在話下,更重要的是它不僅能通讀全文總結其中的要點,還能進一步完成具體任務,如寫代碼、整理表格等。本次更新對於機器文本學習來説是重大躍遷。

AI 黑科技

1、 AI 藝人、女友商業價值顯現

本週 AI 女友 Caryn、“AI 孫燕姿” 都爆火出圈;無論是和網友談戀愛收費每分鐘 1 美元 ,還是永生藝人,都讓數字人的商業價值備受矚目。

見智研究認為:AI 虛擬人、數字人商業價值的提高,本質原因是AI 讓建模數字人的成本大幅降低。此前,CG 建模數字人的製作週期通常需要 1-2 個月,報價在百萬元左右不等,而現在 AI 建模技術的快速迭代,讓 3D 寫實數字人的價格降至千元級別。這也是為什麼該應用能夠快速進行推廣的核心原因。

2、AI 看視頻:檢索關鍵字,精準卡位時間點

Twelve Labs 能夠做到讓 AI 讀懂視頻,並且通過關鍵字搜索的方式從視頻中提取特徵,例如動作、對象、屏幕上的文本、語音和人物。


見智研究認為:此功能必然是視頻創作者的福音,能夠讓機器批量檢索大量視頻,並且精準定位所需要的視頻畫面,效率非常高。此功能是將視頻中的信息逐一定義為向量,從而實現快速檢索的功能。

3、 4D 渲染—實現高清動態還原

Synthesia Research 發佈 HumanRF(運動中人類的高保真神經輻射場),通過視頻輸入來捕捉運動中人的全部外觀細節,能夠讓合成的視頻更加高清,從 4MP 的分別率升級到 12MP 運行。HumanRF 極大的解決了攝像機拍攝後進行高分辨率視頻合成的困難。


見智研究認為:4D 高清合成的突破性,對於視頻創作來説具有重大意義。當下看到可以應用場景包括電影製作、電腦遊戲或視頻會議等,邊界還能夠不斷拓展到超寫實數字人的視頻生成領域。

下週關注重點

OpenAI 向所有 ChatGPT Plus 用户開放聯網功能和眾多插件!從 Alpha 到 Beta,它們將允許 ChatGPT 訪問互聯網並使用 70 多個第三方插件。這些插件包括創建新網站,文本轉音頻,購物比價下單,總結和分析 PDF 文檔,創建專屬自己的智能工作流等等,涵蓋日常生活的衣食住行各個方面。