
全球最強開源 AI 大模型來了!Databricks 稱 DBRX 吊打 Llama 2 和 GPT-3.5

美國 AI 初創公司 Databricks 公佈,在語言理解、編程和數學方面,其將開源的模型 DBRX 的測試得分均高於 GPT-3.5、Mixtral、Meta 的 Llama 2-70B、馬斯克旗下 xAI 的 Grok-1。作為混合專家模型,DBRX 的輸出 token 速度高 Llama 2 一籌。
來源:硬 AI
作者:李丹
全球最強大的開源人工智能(AI)大語言模型(LLM)將要易主。
美國 AI 初創公司 Databricks 加州當地時間 3 月 27 日週三公佈,該司 Mosaic Research 團隊開發的通用 LLM DBRX 將開源。DRBX 由 Databricks 耗時幾個月、投入約 1000 萬美元訓練打造,設計類似於 OpenAI 的 ChatGPT。Databricks 將根據一種開源許可證發佈 DBRX。
Databricks 的首席神經網絡架構師兼開發 DBRX 團隊負責人 Jonathan Frankle 聲稱,DBRX 超越了其他任何開源模型。他分享的數據顯示,包括回答一般知識問題、進行閲讀理解、解決邏輯難題和生成高質量代碼等在內,在衡量 AI 模型能力的約十幾個基準測試中,DBRX 的表現都優於現有的一切開源模型。
Databricks 在公司博客文章中介紹,DBRX 在語言理解、編程、數學和邏輯方面輕鬆擊敗了 Meta 的 Llama 2-70B、法國 MixtralAI 公司的 Mixtral 和 馬斯克旗下 xAI 開發的 Grok-1 這類當前流行的開源模型。Databricks 的開源基準指標 Gauntlet 包含了 30 多種不同的最先進模型 (SOTA) 基準指標測試,DBRX 的測試性能均優於前述三種大模型。
下圖可見,在語言理解方面,DBRX 的分值為 73.7%,高於 GPT-3.5 的 70.0%;在編程能力方面,DBRX 的得分 70.1% 遠超 GPT-3.5 的 48.1%,在數學方面,DBRX 的得分 66.9% 也高於 GPT-3.5 的 57.1%。

DBRX 的大多數基準指標表現也強於 GPT-3.5。Databricks 認為,這點很重要,因為上個季度該司發現,1.2 萬餘名客户的行為發生了重大轉變。企業和組織越來越多地用開源模型取代專有模型提高效率和控制力。根據 Databricks 的經驗,許多客户可以通過根據特定的任務定製開源模型,這種量身定製的模型在質量和速度方面都能超越專有模型。
下圖可見,在語言理解方面,DBRX 的分值為 73.7%,高於 Llama 2-70B 的 69.8%、Mixtral 的 71.4% 和 Grok-1 的 73.0%;在編程能力方面,DBRX 的得分 70.1% 遠超 Llama 2-70B 的 32.3%、Mixtral 的 54.8% 和 Grok-1 的 63.2%,在數學方面,DBRX 的得分為 66.9%,也高於 Llama 2-70B 的 54.1%、Mixtral 的 61.1% 和 Grok-1 的 62.9%。

Databricks 介紹,DBRX 是一個基於 MegaBlocks 研究和開源項目構建的混合專家模型 (MoE),因此每秒輸出 token 的速度極快。Databricks 相信,這將為 MoE 未來最先進的開源模型鋪平道路。因為 MoE 本質上可以讓用户訓練更大的模型,並以更快的吞吐量提供服務。DBRX 在任何給定時間內僅使用 360 億個參數。但模型本身有 1320 億個參數,在速度(token/秒)與性能(質量)方面可以魚與熊掌兼得。
下圖可見 DBRX 和 Llama 2-70B 在收到編程方面具體任務指令時的反饋對比,DBRX 的反應速度,即輸出 token 超過了 Llama 2-70B。

有評論認為,在目前生成式 AI 熱潮中最富盛名的那些公司兑他們 LLM 的代碼嚴格保密,比如 OpenAI 和谷歌,DBRX 開源意味着,Databricks 為挑戰這種做法的努力添了一把火。
Databricks 表示,還希望公開創建其開源模型所涉及的工作。這比開源大模型的 Meta 更進一步。Meta 迄今尚未公開創建 Llama 2 模型的一些關鍵細節。
