全球最強開源大模型一夜易主!

華爾街見聞
2024.02.22 00:09
portai
I'm PortAI, I can summarize articles.

谷歌發佈全球最強開源大模型 Gemma,7B 性能超越 Llama 2 13B!谷歌和 OpenAI,已經卷出了新高度。這輪番放深夜炸彈的頻率,讓人不得不懷疑雙方都已經攢了一堆大的。

一聲炸雷深夜炸響,谷歌居然也開源 LLM 了?!

這次,重磅開源的 Gemma 有 2B 和 7B 兩種規模,並且採用了與 Gemini 相同的研究和技術構建。

有了 Gemini 同源技術的加持,Gemma 不僅在相同的規模下實現 SOTA 的性能。

而且更令人印象深刻的是,還能在關鍵基準上越級碾壓更大的模型,比如 Llama 2 13B。

與此同時,谷歌還放出了 16 頁的技術報告。

谷歌表示,Gemma 這個名字源自拉丁語「gemma」,也就是「寶石」的意思,似乎是在象徵着它的珍貴性。

歷史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold 和 AlphaCode,都是谷歌為開源社區貢獻的創新。

谷歌:今天我就來給你表演一個什麼是 Open AI

而谷歌今天在全球範圍內同步推出的 Gemma,必然會再一次掀起構建開源 AI 的熱潮。

同時也坐實了 OpenAI「唯一 ClosedAI」的名頭。

OpenAI 最近剛因為 Sora 火到爆,Llame 據稱也要有大動作,谷歌這就又搶先一步。硅谷大廠,已經卷翻天了!

谷歌:開源閉源我全都要

Hugging Face CEO 也跟帖祝賀。

還貼出了 Gemma 登上 Hugging Face 熱榜的截圖。

Keras 作者 François Chollet 直言:最強開源大模型,今日易主了。

有網友已經親自試用過,表示 Gemma 7B 真是速度飛快。

谷歌簡直是用 Gemini 拳打 GPT-4,用 Gemma 腳踢 Llama 2!

網友們也是看熱鬧不嫌事大,召喚 Mistral AI 和 OpenAI 今晚趕快來點大動作,別讓谷歌真的搶了頭條。(手動狗頭)

同規模刷新 SOTA,越級單挑 Llama 2 13B

可以看到,Gemma-7B 模型在涵蓋一般語言理解、推理、數學和編碼的 8 項基準測試中,性能已經超越了 Llama 2 7B 和 13B!

並且,它也超越了 Mistral 7B 模型的性能,尤其是在數學、科學和編碼相關任務中。

在安全性方面,經過指令微調的 Gemma-2B IT 和 Gemma-7B IT 模型,在人類偏好評估中都超過了 Mistal-7B v0.2 模型。

特別是 Gemma-7B IT 模型,它在理解和執行具體指令方面,表現得更加出色。

一整套工具:跨框架、工具和硬件進行優化

這次,除了模型本身,谷歌還提供了一套工具幫助開發者,確保 Gemma 模型負責任的使用,幫助開發者用 Gemma 構建更安全的 AI 應用程序。

- 谷歌為 JAX、PyTorch 和 TensorFlow 提供了完整的工具鏈,支持模型推理和監督式微調(SFT),並且完全兼容最新的 Keras 3.0。

- 通過預置的 Colab 和 Kaggle notebooks,以及與 Hugging Face、MaxText、NVIDIA NeMo 和 TensorRT-LLM 等流行工具的集成,用户可以輕鬆開始探索 Gemma。

- Gemma 模型既可以在個人筆記本電腦和工作站上運行,也可以在 Google Cloud 上部署,支持在 Vertex AI 和 Google Kubernetes Engine (GKE) 上的簡易部署。

- 谷歌還對 Gemma 進行了跨平台優化,確保了它在 NVIDIA GPU 和 Google Cloud TPU 等多種 AI 硬件上的卓越性能。

並且,使用條款為所有組織提供了負責任的商業使用和分發權限,不受組織規模的限制。

但,沒有全勝

不過,Gemma 並沒有能夠在所有的榜單中,都拿下 SOTA。

在官方放出的評測中,Gemma 7B 在 MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH 和 AGIEval 中,成功擊敗了 Llama 2 7B 和 13B 模型。

相比之下,Gemma 7B 在 Boolq 測試中,只與 Mistral 7B 打了個平手。

而在 PIQA、ARC-c、Winogrande 和 BBH 中,則不敵 Mistral 7B。

在 OBQA 和 trivalent QA 中,更是同時被 7B 和 13B 規模的 Llama 2 7B 斬於馬下。

技術報告

谷歌這次發佈的兩個版本的 Gemma 模型,70 億參數的模型用於 GPU 和 TPU 上的高效部署和開發,20 億參數的模型用於 CPU 和端側應用程序。

在 18 個基於文本的任務中的 11 箇中,Gemma 都優於相似參數規模的開源模型,例如問答、常識推理、數學和科學、編碼等任務。

模型架構方面,Gemma 在 Transformer 的基礎上進行了幾項改進,從而在處理複雜任務時能夠展現出更加出色的性能和效率。

- 多查詢注意力機制

其中,7B 模型採用了多頭注意力機制,而 2B 模型則使用了多查詢注意力機制。結果顯示,這些特定的注意力機制能夠在不同的模型規模上提升性能。

- RoPE 嵌入

與傳統的絕對位置嵌入不同,模型在每一層都使用了旋轉位置嵌入技術,並且在模型的輸入和輸出之間共享嵌入,這樣做可以有效減少模型的大小。

- GeGLU 激活函數

將標準的 ReLU 激活函數替換成 GeGLU 激活函數,可以提升模型的表現。

- 歸一化化位置(Normalizer Location)

每個 Transformer 子層的輸入和輸出都進行了歸一化處理。這裏採用的是 RMSNorm 作為歸一化層,以確保模型的穩定性和效率。

架構的核心參數如下:

兩種規模的參數如下:

預訓練

訓練數據

Gemma 2B 和 7B 分別針對來自網絡文檔、數學和代碼的主要英語數據的 2T 和 6Ttoken,進行了訓練。

與 Gemini 不同,這些模型不是多模態的,也沒有針對多語言任務的 SOTA 進行訓練。

谷歌使用了 Gemini 的 SentencePiece 分詞器的子集,來實現兼容性。

指令微調

團隊對 Gemma 2B 和 7B 模型進行了微調,包括有監督的微調(SFT)和基於人類反饋的強化學習(RLHF)。

在有監督的微調階段,研究者使用了一個由純文本、英文、由人工和機器生成的問題 - 答案對組成的數據集。

在強化學習階段,則是使用了一個基於英文偏好數據訓練出的獎勵模型,以及一套精心挑選的高質量提示作為策略。

研究者發現,這兩個階段對於提升模型在自動評估和人類偏好評估中的表現,至關重要。

監督微調

研究者根據基於 LM 的並行評估,選擇了數據混合物進行監督微調。

給定一組保留 prompt,研究者會從測試模型中生成響應,從基準模型中生成對相同提示的響應,隨機洗牌,然後要求一個更大、能力更強的模型在兩種響應之間表達偏好。

研究者構建了不同的提示集,以突出特定的能力,如遵循指令、實事求是、創造性和安全性。

我們使用了不同的基於 LM 的自動評委,採用了一系列技術,如思維鏈提示、使用評分標準和章程等,以便與人類偏好保持一致。

RLHF

研究者進一步利用來自人類反饋的強化學習(RLHF),對已經進行過有監督微調的模型進行了優化。

他們從人類評估者那裏收集他們的偏好選擇,並在 Bradley-Terry 模型的基礎上,訓練了一個獎勵函數,這與 Gemini 項目的做法相似。

研究者採用了一個改進版的 REINFORCE 算法,加入了 Kullback–Leibler 正則化項,目的是讓策略優化這個獎勵函數,同時保持與最初調整模型的一致性。

與之前的有監督微調階段相似,為了調整超參數並進一步防止獎勵機制被濫用,研究者使用了一個高性能模型作為自動評估工具,並將其與基準模型進行了直接對比。

性能評估

自動評估

谷歌在多個領域對 Gemma 進行了性能評估,包括物理和社會推理、問答、編程、數學、常識推理、語言建模、閲讀理解等。

Gemma2B 和 7B 模型與一系列學術基準測試中的多個外部開源大語言模型進行了比較。

在 MMLU 基準測試中,Gemma 7B 模型不僅超過了所有規模相同或更小的開源模型,還超過了一些更大的模型,包括 Llama 2 13B。

然而,基準測試的制定者評估人類專家的表現為 89.8%,而 Gemini Ultra 是首個超越此標準的模型,這表明 Gemma 在達到 Gemini 和人類水平的性能上,還有很大的提升空間。

並且,Gemma 模型在數學和編程的基準測試中表現尤為突出。

在通常用於評估模型分析能力的數學任務中,Gemma 模型在 GSM8K 和更具挑戰性的 MATH 基準測試上至少領先其他模型 10 分。

同樣,在 HumanEval 上,它們至少領先其他開源模型 6 分。

Gemma 甚至在 MBPP 上超過了專門進行代碼微調的 CodeLLaMA 7B 模型的性能(CodeLLaMA 得分為 41.4%,而 Gemma 7B 得分為 44.4%)。

記憶評估

近期研究發現,即便是經過精心對齊的人工智能模型,也可能遭受新型對抗攻擊,這種攻擊能夠規避現有的對齊措施。

這類攻擊有可能使模型行為異常,有時甚至會導致模型重複輸出它在訓練過程中記住的數據。

因此,研究者專注於研究模型的「可檢測記憶」能力,這被認為是評估模型記憶能力的一個上限,並已在多項研究中作為通用定義。
研究者對 Gemma 預訓練模型進行了記憶測試。

具體來説,他們從每個數據集中隨機選擇了 10,000 篇文檔,並使用文檔開頭的 50 個詞元作為模型的 prompt。

測試重點是精確記憶,即如果模型能夠基於輸入,精確地生成接下來的 50token,與原文完全一致,便認為模型「記住了」這段文本。

此外,為了探測模型是否能夠以改寫的形式記憶信息,研究者還測試了模型的「近似記憶」能力,即允許在生成的文本和原文之間存在最多 10% 的編輯差距。

在圖 2 中,是 Gemma 的測試結果與體量相近的 PaLM 和 PaLM 2 模型的對比。

可以發現,Gemma 的記憶率明顯更低(見圖 2 左側)。

不過,通過對整個預訓練數據集的「總記憶量」進行估算,可得一個更為準確的評估結果(見圖 2 右側):Gemma 在記憶訓練數據方面的表現與 PaLM 相當。

個人信息的記憶化問題尤為關鍵。如圖 3 所示,研究者並未發現有記憶化的敏感信息。

雖然確實發現了一些被歸類為「個人信息」的數據被記憶,但這種情況發生的頻率相對較低。

而且這些工具往往會產生許多誤報(因為它們僅通過匹配模式而不考慮上下文),這意味着研究者發現的個人信息量可能被高估了。

總結討論

總的來説,Gemma 模型在對話、邏輯推理、數學和代碼生成等多個領域,都有所提升。

在 MMLU(64.3%)和 MBPP(44.4%)的測試中,Gemma 不僅展現了卓越的性能,還顯示了開源大語言模型性能進一步提升的空間。

除了在標準測試任務上取得的先進性能,谷歌也期待與社區共同推動這一領域的發展。

Gemma 從 Gemini 模型計劃中學到了很多,包括編碼、數據處理、架構設計、指令優化、基於人類反饋的強化學習以及評估方法。

同時,谷歌再次強調使用大語言模型時存在的一系列限制。

儘管在標準測試任務上表現優異,但要創建出既穩定又安全、能夠可靠執行預期任務的模型,還需要進一步的研究,包括確保信息的準確性、模型的目標對齊、處理複雜邏輯推理,以及增強模型對惡意輸入的抵抗力。

團隊表示,正如 Gemini 所指出的,需要更具挑戰性和魯棒性的測試基準。

團隊成員

核心貢獻者:

其他貢獻者:

產品經理、項目經理、執行贊助、負責人和技術負責人:

文章來源:新智元,原文標題:《全球最強開源大模型一夜易主!谷歌 Gemma 7B 碾壓 Llama 2 13B,今夜重燃開源之戰》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。