Track Hyper | Meta Joins the Competition in Edge AI Models

華爾街見聞
2023.07.23 01:17
portai
I'm PortAI, I can summarize articles.

站在高通的肩膀上,端側 AI 應用,指日可待?

ChatGPT 雖好,奈何閉源,而且使用門檻太高(不友好),因此 C 端商業化難以大規模落地。

但在 7 月 18 日,Meta 攜手微軟和高通,掀翻牌桌:微軟旗下雲服務 Azure 為 Meta AI 新一代開源大模型 Llama 2 提供雲服務;同時,Llama 2 還能在高通芯片上運行,實現智能端側 AI 能力。

華爾街見聞注意到,OpenAI 剛於 7 月 22 日宣佈,下週將發佈 ChatGPT 安卓 App。這相當於直面 Meta AI 的端側大模型 C 端應用挑戰。

若端側 AI 大模型真能實打實落地,那麼以智能終端為代表的消費電子創新春天,將有望再次來臨。

Meta 和微軟、高通想幹嘛

開源大模型本身,已屢見不鮮,算不上新奇。

Llama,簡單説,這是一個純文本(只接受文本輸入)的語義訓練大模型,稱為 “Llama-Chat” 可能更為準確。Llama 的特點在於開源(GPT 和 PaLM 閉源)和免費,初版於今年 2 月發佈,訓練時間是今年 1-7 月。整個過程用了 330 萬個 GPU 小時,硬件用英偉達 A100-80GB GPU,能耗 350W-400W,訓練總成本最高達到 4500 萬美元。

Llama2 全局批量規格(上下文長度)是 4M tokens,比初代 Llama 提高 1 倍,與 GPT-3.5 等同,參數規模最高 700 億(另包括 70 億、130 億和 340 億三種參數變體),訓練語料規模為 2 萬億 tokens。其中,700 億參數規模的以 GQA(分組查詢注意力機制:Grouped-Query Attention)提高推理可擴展性。

什麼是 token?

這是大模型處理與生成語言文本的基本單位。可以這麼理解,用於訓練的 tokens 越多,AI 智能水平也相應越高。

照例做個對比:谷歌新一代大模型 PaLM 2,訓練語料規模 3.6 萬億 tokens;GPT-3 是 3000 億,GPT-4 據推測可能也突破了數萬億。

就 AI 能力看,Llama2 與 GPT-4 仍有差距,也比不上 Google 的 PaLM2。Llama 2 性能難撼 OpenAI 的市場地位,通過免費商用,Meta 卻有望利用開源生態實現彎道超車。

這裏有必要做進一步解釋閉源模型的缺點。

最受關注的問題就一個:安全性。

用 ChatGPT 對話模型訓練時,由於閉源,因此對話內容的數據,實際上相當於進了一個黑盒。

當涉及隱私或敏感信息,比如金融數據、個人隱私或商業產品秘密等信息,通過 ChatGPT 對話模型,很可能會在其他訓練過程中成為 “公共信息” 而遭遇泄露。比如,著名的 “ChatGPT Grandma Exploit”,就直接公開了微軟的 Windows 11 的有效序列號。

在 B 端,這種黑盒效應的後果或許更嚴重。

相當多的企業,並不會限於調取標準 LLM 能力,他們會根據自己的業務需求,做 LLM 數據集的專有場景定製,以解決特定問題。但由於閉源黑盒問題,這些特定場景的業務數據很難保證私有用途。一旦泄露,很可能這些企業的業務會有重大損失,或優勢地位不再。

此次 Meta 與微軟和高通聯手部署端側模型,其意義遠超模型升級。若結合高通在今年 2 月首次推出端側 AI 模型能力演示,不難想像,消費電子——尤其是智能移動終端(手機,也包括 IoT)新一輪技術創新浪潮風暴,已在快速醖釀。

Meta AI 與微軟的主要合作內容,是向 Llama 2 的全球開發者提供 Azure 雲服務。也就是説,未來基於 Windows 系統,應用者都能用 Llama 2 的 AI 能力。這就大幅降低了 C 端應用 AI LLM 的門檻,無需用户自己配置軟件環境。

據微軟透露,Llama 2 已針對 Windows 做了優化,能直接在 Windows 本地實現部署進而運行。

一旦微軟推出基於 Llama 2 模型的 Windows 操作系統更新(Windows 目前是全球市場佔有率最高的操作系統),那麼全球用微軟視窗操作系統的 PC 用户,就能一鍵實現端側 AI 模型的 AGI 能力,個性化的 AI 應用浪潮將風起雲湧。

端側和混合 AI,孰重?

Meta AI 與高通的合作更具有想象空間。

華爾街見聞從高通獲悉,高通和 Meta 正在合作優化 Meta Llama 2 大語言模型直接在終端側的執行,這個過程無需僅依賴雲服務,就能在智能手機、PC、VR/AR 頭顯和汽車等終端上運行 Llama 2 一類的生成式 AI 模型。這將支持開發者節省雲成本,併為用户提供更加私密、可靠和個性化的體驗。

高通計劃支持基於 Llama 2 的終端側 AI 部署,以開發全新的 AI 應用。這將支持 B 端公司、合作伙伴和開發者構建智能虛擬助手、生產力應用、內容創作工具和娛樂等用例。這些運行在驍龍芯片上的終端側實現的新 AI 體驗,可在沒網絡連接的區域、甚至是飛行模式下工作。

高通計劃從 2024 年起,在搭載驍龍平台的終端上支持基於 Llama 2 的 AI 部署。現在開發者可以開始使用高通 AI 軟件棧(Qualcomm AI Stack)面向終端側 AI 做應用優化。高通 AI 軟件棧是一套支持在驍龍平台上更高效處理 AI 的專用工具,讓輕薄的小型終端也能支持終端側 AI。

與部分應用技術公司在端側嘗試單點 AI 模型應用不一樣,高通在此領域的佈局極具深度。

今年 2 月,高通第二代驍龍 8 移動平台已可支持參數超過 10 億的 AI 模型運行,做了全球首次端側運行超過 10 億參數模型(Stable Diffusion)的演示。

對於端側能有效支持的模型規模,高通全球副總裁兼高通 AI 負責人侯紀磊認為,在廣泛的用例中有很多基於 10 億參數為單位,從 10 億到 100 億便能涵蓋相當多數的生成式 Al,並可提供優異效果。

6 月中旬,高通也曾演示了 ControlNet 圖像生成圖像模型。這個模型擁有 15 億參數,可完全在手機上運行。ControlNet 是一項生成式 AI 解決方案,被稱為語言 - 視覺模型(LVM),能通過調整輸入圖像和輸入文本描述,更精準地控制生成圖像。

在這項演示中,高通只用不到 12 秒即可在移動終端上生成 AI 圖像,無需訪問任何雲端,便能提供高效、有趣、可靠且私密的交互式用户體驗。

據侯紀磊透露,未來數月內,高通有望支持參數超過 100 億的模型在終端側運行,2024 年將能支持參數超過 200 億的模型。此外通過全棧式 Al 優化,未來也將進一步縮短大模型的推理時間。

高通在做端側 AI 大模型部署時的技術創新主要包括:高通 AI 模型增效工具包(AIMET)、高通 AI 軟件棧和高通 AI 引擎。此外,高通 AI 研究的另一項全球首創的技術,即在移動終端上的 1080p 視頻編碼和解碼過程。

神經網絡編解碼器用途十分廣泛:可針對特定視頻需求做定製,通過生成式 AI 的優勢對感知質量做優化,可擴展至全新模態,在通用 AI 硬件上運行。但同時,這也後悔帶來難以在計算能力有限的終端上應對的諸多挑戰。為此,高通設計了神經網絡視頻幀間壓縮架構,支持在終端上做 1080p 視頻編碼。

高通在端側部署 AI 模型的技術雖然進展很快,但高通認為,混合 AI 才是 AI 的未來:混合 AI 架構在雲端和邊緣終端間分配並協調 AI 工作負載,雲端和邊緣終端如智能手機、汽車、個人電腦和物聯網終端協同工作,能實現更強大、更高效且高度優化的 AI。

節省成本是混合 AI 在未來佔據主流的主要推動因素。

舉例來説,據估計,每次基於生成式 AI 的網絡搜索查詢(Query),成本是傳統搜索的 10 倍。混合 AI 將支持生成式 AI 開發者和提供商利用邊緣終端的計算能力降低成本。混合 AI 架構或終端側 AI 能在全球範圍帶來高性能、個性化、隱私和安全等優勢。

若高通的判斷更符合未來 AI 應用的發展方向,那麼雲計算和端側 AI 計算必然會實現融合,而端側 AI 模型以何種形式(系統級還是單個節點?)實現持續落地,其間也充滿新的行業或商業模式的全新技術創新空間。無論如何,以 IoT 或智能手機為代表的消費電子,新一輪技術創新浪潮,已近在眼前。