
Track Hyper | Edge AI Model Deployment: How does Apple do it?

封閉的蘋果商業帝國,開了一絲門縫。
作者:周源/華爾街見聞
AI 已成為缺乏技術創新的智能手機行業走向 “新生” 的新技術焦點。
最早在端側實現 AI 語音助手 “Siri” 的蘋果公司,進入 2024 年以後,一改在最近兩年有意忽視 AI 的做派,開始頻頻向 AI 遞送秋波。
最近,蘋果公司在其新款 MacBook Air 新聞稿中,明確提到了這是一款 “用於 AI 的全球最佳消費級筆記本電腦”,這個提法在最近兩年非常罕見。此前,蘋果似乎有意迴避 “AI” 的提法,常常用 ML(機器學習:Machine Learning)代替 AI。
與國內一眾同行不一樣的地方在於,蘋果推動 AI 技術在端側的落地,採用 “論文先行” 的方式。
3 月,蘋果 Siri 團隊發表了一篇名為《利用大型語言模型進行設備指向性語音檢測的多模態方法》的論文,主要討論在 2023 年將 “Hey Siri” 簡化成 “Siri” 後,再簡化掉 “Siri”,從而將與蘋果手機的人機對話做到無縫銜接,自然而然。
這只是蘋果推動 AI 在端側落地的一個微小動作,畢竟 Siri 在 2011 年就推出了。
真正能體現蘋果在端側 AI 技術佈局和成果的是 4 月 24 日的那件事:蘋果推出 OpenELM。這是一個全新的開源大型語言模型(LLM)系列,能完全在單個設備上運行文本生成任務,無需連接雲服務器。
也就是説,OpenELM 就是眼下國內智能手機商説的 AI 手機在端側的大模型部署。最近有消息持續放出,主要涉及今年 6 月的蘋果 WWDC(蘋果全球開發者大會:Worldwide Developers Conference)推出的 iOS 18,會內置哪些端側 AI 功能。
進入 2024 年,蘋果開始真正啓動端側 AI 戰略。雖然蘋果從未這麼描述過,但就現實角度看,蘋果實際上也開始 “AII in AI”。
跟着微軟推動 AI 模型瘦身
作為智能手機的全新產品定義者、移動互聯網產業的開創者,蘋果公司,在軟件層面的受關注度不如硬件高,但實際上重要性絲毫不亞於硬件技術迭代。
4 月 24 日,蘋果在全球最大的 AI 開源社區——Hugging Face 發佈 OpenELM(Open-source Efficient Language Models)系列模型。這是蘋果 AI 賽道最近一年內最重要的舉措。
OpenELM 共有 8 個模型:4 個預訓練模型和 4 個指令調整模型,參數量分別為 2.7 億(0.27B)、4.5 億(0.45B)、11 億(1.1B)和 30 億(3B)。
所謂參數,是指 LLM(大語言模型:Large Language Model)中人工神經元之間的連接數。通常,參數越多,則性能越強、功能越多。
從參數規模上不難看出,OpenELM 模型實際上就是為端側 AI 而生。
什麼是預訓練?這是一種是 LLM 生成連貫文本的方法,屬於預測性練習;指令調整則是讓 LLM 對用户的特定請求做出相關性更強的輸出的方法。
蘋果 AI 團推發表的論文指出,OpenELM 模型基準測試結果在配備英特爾 i9-13900KF CPU 和英偉達 RTX 4090 GPU、運行 Ubuntu 22.04 的工作站上運行;同時,蘋果也在配備 M2 Max 芯片和 64GB RAM、運行 MacOS 14.4.1 的 MacBook Pro 上做基準測試。
OpenELM 模型的核心優勢是採用的層級縮放策略,這種策略通過在 Transformer 模型的每一層中有效分配參數,從而顯著提升了模型的準確率。
根據最近的測試結果統計結果顯示,OpenELM 在 10 次 ARC-C 基準測試中的得分率為 84.9%,在 5 次 MMLU 測試中的得分率為 68.8%,在 5 次 HellaSwag 測試中的得分率為 76.7%。
這不是蘋果在 AI 軟件上的首次動作。
2023 年 10 月,蘋果低調發布了具有多模態功能的開源語言模型 Ferret。與去年相比,4 月 24 日的模型,技術框架相對更完整,還涵蓋數據整理、模型構建與訓練/調整與優化。
不知是巧合還是有別的原因,4 月 23 日,微軟也發佈了可完全在智能手機(iPhone 15 Pro)上運行的 Phi-3 Mini 模型:參數規模 3.8B(38 億),性能可與 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。
更重要的是,無論是 Phi-3 Mini 模型,還是 OpenELM 模型,都能完全在智能終端的端側運行,無需聯網。
這就説明,蘋果正式開始在端側推動部署 AI LLM,其參數最小模型只有 0.27B,這與國內智能終端的端側 LLM 相比,就參數量來説,只有不到 10%。
國內為了能做到在端側本地化運行 LLM,通常依靠提高 LLM 壓縮率,以實現在有限的內存空間(12GB-24GB)“塞入” LLM,而蘋果直接減小了 LLM 的參數規模,但訓練和推理精度並沒有隨之也跟着降低。
雖然在 3 月,蘋果推出了參數規模高達 30B 的 MM1 大模型(多模態大型語言模型)——Forret 模型。但從蘋果開源的 LLM 大模型框架看,蘋果在大力推動 LLM 的 “瘦身計劃”。
前所未見的動作意向不明
很明顯,從 2023 年 10 月以來,蘋果開始推動 AI 技術在終端的落地,目標是 “讓人工智能在蘋果設備上本地運行”。今年 1 月蘋果發表的論文《LLM in a flash:Efficient Large Language Model Inference with Limited Memory》更明顯地顯示蘋果在向着這個目標邁進的努力。
通過 OpenELM 模型,蘋果展示了在 AI 領域的技術和目標框架:OpenELM 專為終端設備設計,這能優化蘋果現在的多終端體驗——目前展示在蘋果筆電上的運行能力;其次,在小規模的 LLM 上兼顧性能和效率;第三,開源。
儘管如此,蘋果這些自研的 LLM 或者一些技術框架,能否會內置在今年 6 月舉行的 WWDC 24 上即將推出的 iOS 18 中,目前無法明確。因為,蘋果還在與谷歌和 OpenAI 接觸,不排除會在 iOS 內置這些競對的 AI 技術。
外界現在很難獲知蘋果和谷歌以及 OpenAI 的溝通內容,也不知道蘋果會和哪個公司達成 AI 技術的商業合作。除了這兩家大名鼎鼎的技術公司,蘋果還在和一家名為 “Anthropic” 的 AI 技術初創公司接觸。
蘋果推動與合作伙伴的技術合作,有助於加速蘋果進入聊天機器人領域(與谷歌的接觸主要集中在機器人 Gemini 聊天方面)的進程,同時能規避風險。通過將生成式 AI 功能外包給另一家公司,蒂姆·庫克或許能減少蘋果平台的某些責任。
實際上,OpenELM 模型開源之所以受到關注,除了這是蘋果公司推出的 “高效語言模型”,也因為這套模型減小了參數量,能被部署在智能終端本地,無需做雲端聯網。
這是在為 AI 手機做技術準備?
AI 手機被國內產業界認為是重大的智能手機技術革命,但 AI 手機目前在體驗端,用户感知較弱,與 “傳統” 智能手機似乎並無區別。
蘋果公司在智能手機產業界的地位無需多説,所以蘋果的端側 AI 到底是什麼樣的?採用什麼技術框架?能帶來哪種驚豔的 AI 體驗?這是業界的期待。
值得一提的是,在 2024 蘋果股東會上,庫克表示今年蘋果在生成式 AI 領域將有 “重大進展”。另外,蘋果以往是以封閉式的生態系統 “軟硬一體” 構建其商業帝國,但這次卻選擇了開源端側 AI 技術框架,這是前所未見的變化。
這種變化到底意味着什麼?恐怕還是得等到 WWDC 24 那天揭曉。
