
Google launches a groundbreaking new Scaling Law, will the future of intelligence be distributed? $3 trillion AI faces a crossroads

谷歌推出全新 Scaling Law,名為 DiLoCo,標誌着分佈式訓練的重大突破。研究表明,DiLoCo 在不同模型規模下表現出更穩健、更優越、更高效和更強大的特性,超越傳統的數據並行訓練。該研究由谷歌 Research、Search 和 DeepMind 三大團隊合作完成,強調了 DiLoCo 在大規模模型訓練中的潛力,預示着智能未來將是分佈式的。
測試時計算之後,谷歌三大團隊集眾人之力,發現了全新的 Scaling Law!
剛剛,谷歌研究員 Zachary Charles 宣佈:「在越來越大的模型上,分佈式訓練取得重大突破」。
這個核心算法,便是——DiLoCo 的 Scaling Law。
新的訓練方法無懼模型規模,未來,在「多個數據中心」訓練大模型的規模不再是問題。

論文得出四大發現,DiLoCo 訓練方法的 Scaling law,效果遠超「數據並行」:
更穩健(Harder):在不同模型規模下,DiLoCo 的超參數依然保持穩定且可預測。
更優越(Better):隨着模型規模擴大,DiLoCo 相較於數據並行訓練的優勢進一步提升。
更高效(Faster):DiLoCo 所需的帶寬比數據並行訓練少幾個數量級。
更強大(Stronger):DiLoCo 能夠容忍比數據並行訓練大得多的批大小。

值得一提的是,這篇鉅作集結了谷歌三大團隊:谷歌 Research、谷歌 Search、谷歌 DeepMind。
在固定計算預算下,研究人員探討了 DiLoCo 在訓練大模型時的 Scaling law。
論文中,重點分析了算法因素(如模型副本數量、超參數設置、token 預算)如何影響訓練過程,並證明這些影響可通過 Scaling law 準確預測。
結果表明,DiLoCo 在模型規模增長時,表現出穩定且可預測的擴展性。論文合著者 Arthur Douillard 再次強調:DiLoCo 生效了!

智能的未來將是分佈式的,而 DiLoCo 可能正是那個關鍵的要素
在合理調優的情況下,DiLoCo 比數據並行訓練更具擴展優勢,即使在小規模模型上也可能優於數據並行訓練。
這些發現,揭示了 DiLoCo 的強大優勢:不僅解決了通信瓶頸,還為大規模模型訓練開闢了全新的可能。
有網友驚歎地表示,「DiLoCo 可能會重新定義 LLM Scaling 的方式!更少的帶寬需求,更高的效率」。



「數據並行」訓練終結?
如果計算分佈較廣,通信就可能成為巨大的瓶頸,尤其是當模型規模增長時,問題會更加嚴重!
機器學習採用的解決方案,例如在聯邦學習和數據中心訓練中,就是讓多個獨立模型進行訓練,並定期同步。
隨着機器學習模型規模的擴大,數據並行方法固有的頻繁同步需求會導致顯著的性能下降,這對進一步擴展模型構成了關鍵挑戰。
那麼,如何在保持模型質量的同時,降低同步需求,以突破這一瓶頸呢?
答案或許就在,DiLoCo(Distributed Low-Communication)這一創新方法中。

每個 DiLoCo 模型副本都會獨立訓練 H 個內部優化(inner optimization)步驟。
這些模型通過外部優化(outer optimization)步驟進行同步,通常在外部優化步驟之間引入動量機制。
在下圖中,示例中共有 M=4 個模型副本。

DiLoCo 的成功已經被反覆驗證。它的運作方式與聯邦學習的 FedOpt 方法類似。
此外,研究人員也多次證明 DiLoCo 在大模型(LLM)訓練中的卓越表現。
那麼 DiLoCo 有什麼問題?簡單來説——規模。
DiLoCo 與數據並行訓練不同,它引入了額外的「外部」超參數,並且實際上的表現和理論上明顯不同。
這正是研究 scaling laws 的目的!
這次研究從零開始構建了 DiLoCo 和數據並行訓練的 Scaling law,用於預測它們在大規模模型上的表現對比。
在數據並行訓練中,每個訓練步長都會處理一個大小為 B 的數據批。
在本研究中,批大小指的是批中的 token 數量(而不是序列數量)。
計算批梯度,並使用學習率γ進行優化。
在 DiLoCo 訓練過程中,每個時間步 t 處理一個全局批大小為 B 的數據,並在序列級別將其均勻分配到 M 個 DiLoCo 副本中。
因此,全局批大小仍然是 B,而每個 DiLoCo 副本的本地批大小為 B/M。與數據並行訓練類似,每個副本都會計算批梯度,並使用學習率γ執行一次內部優化(inner optimization)。
但與數據並行不同的是,DiLoCo 每 H 步會執行一次「外部優化」(outer optimization),基於參數空間計算的外部梯度(outer-gradients),並使用學習率η進行更新。
一個重要的對比是數據並行 vs.DiLoCo(M=1)。
雖然它們相似,但並不完全相同。
DiLoCo 在 M=1 的情況下,仍然包含一個外部優化器(OuterOpt)步驟,因此它可以被視為 Lookahead 優化器的變體。
而在 DiLoCo 中,OuterOpt 通常使用帶有 Nesterov 動量的 GD,這意味着 DiLoCo(M=1)實際上是數據並行訓練的一個變體,但動量操作僅每 H 步執行一次。

還進行了大量實驗,涵蓋訓練過程的各個方面,全面分析了它們的擴展行為。
實驗方法
大部分實驗裏,研究團隊使用 C4 數據集的訓練集來訓練模型,評估指標用 C4 的驗證集。
另外,還在三個下游任務上算了零樣本評估指標:HellaSwag、Piqa 和 Arc-Easy。
模型架構:Chinchilla 變體
研究團隊用的是一個類似「Chinchilla」的純解碼器 Transformer 架構,加入了 QK-LayerNorm,還使用了 z-loss 正則化來讓訓練更穩定。
他們把多個序列打包到每個批裏,最大序列長度全程固定為 2,048。
所有模型都是從零開始訓練的,因為這次主要想研究預訓練階段的規模規律。
研究團隊訓練了一堆模型,調整了 Transformer 層數、注意力頭的數量、QKV 維度和前饋層的隱藏維度。
除非特別説明,他們都用 Chinchilla 的 token 預算,並且對除了最大的兩個模型(4B 和 10B 參數)外,其他模型都做了大量的超參數調整。
算法和優化器
研究團隊用 AdamW 作為數據並行(Data-Parallel)的優化器,也是 DiLoCo 的內層優化器。兩個算法的β1 設為 0.9,β2 設為 0.99。
訓練開始有 1000 步的預熱,然後用餘弦學習率衰減。權重衰減參數λ設為 T⁻¹,其中 T 是總訓練步數(取決於批大小和 token 預算)。到訓練結束時,學習率衰減到峯值的 5%。
為了訓練穩定,他們把(內層)梯度的全局ℓ2 範數剪裁到 1,外層梯度不剪裁。
對於 DiLoCo,他們用帶 Nesterov 動量的 SGD 作為外層優化器。動量設為 0.9,外層學習率保持不變。
從 0 構建,全新 Scaling Law 已來
發現 1:規模
DiLoCo 的評估損失隨着 N 的增加,相對於數據並行(Data-Parallel)有所改善。
Scaling law 預測,當 M=2 時,DiLoCo 在參數達到幾十億以上時,損失會比數據並行更低。這一現象在研究調優的最大模型以及 4B 和 10B 模型的訓練中都得到了驗證。
下圖 2 展示了 DiLoCo 和 Data-Parallel 兩種算法在不同模型規模(N)下的表現對比。
圖 (a) 顯示,隨着模型規模從 2^25 到 2^31 逐漸增大,DiLoCo(分別在 M=1、2、4、8 時)和 Data-Parallel 的評估損失(EvalLoss)都在下降,但 DiLoCo 的損失下降得更明顯,尤其是在 M 值較大時。
圖 (b) 進一步展示了 DiLoCo 相對於 Data-Parallel 的評估損失的百分比差異,可以看出,隨着模型規模增加,DiLoCo 的損失比 Data-Parallel 低得越來越多,説明 DiLoCo 在模型規模擴大時表現更優越。
這個發現有兩個獨立但相關的部分:
DiLoCo(M=1) 表現更好:就像上面提到的,DiLoCo 在 M=1 時,所有模型規模的評估損失都比 Data-Parallel 低。而且隨着模型參數規模 N 增加,Data-Parallel 和 DiLoCo(M=1) 之間的差距越來越大。
DiLoCo(M≥2) 的表現:在大多數模型規模下,DiLoCo 在 M≥2 時評估損失會更高。不過,如果看 DiLoCo 和 Data-Parallel 之間的百分比差異(帶正負號),會發現隨着 N 增大,DiLoCo 相對 Data-Parallel 的表現越來越好,甚至在 M=2、N=2.4 億參數時超過了 Data-Parallel。
比如,研究團隊在下表 4 中列出了 Data-Parallel 和 DiLoCo 在不同模型規模 N 下的評估損失。
可以看出,不管 M 是多少,百分比差異都隨着 N 增加嚴格減小。
這個趨勢在圖 2 中也有展示:隨着 N 增加,DiLoCo 的相對評估損失逐漸降低。

研究團隊還通過用縮放法則調好的超參數,訓練了 40 億和 100 億參數的模型來驗證這一點。
雖然圖 2 顯示的是「插值」範圍的結果(基於大量實驗掃描),但這些發現也可以推廣到外推狀態,能在 M=1 或 2 時用 DiLoCo 訓練出評估損失更低的 40 億和 100 億參數模型。
下表 5 展示了用外推超參數訓練的結果,展示了在較大規模的 4B 和 10B 模型上,DiLoCo 和 Data-Parallel 算法的評估損失對比,表明 DiLoCo 在更大規模下整體表現出色。

發現 2:單副本 DiLoCo
當副本數 M=1 時,DiLoCo 在不同模型規模下獲得的評估損失都比 Data-Parallel 低。
下圖 3 展示了當副本數 M=1 時,DiLoCo 與 Data-Parallel 在不同模型規模(35M、550M、1.3B、2.4B)和全局批大小(以 token 計,從 2^16 到 2^20)下的評估損失和 HellaSwag 零樣本準確率對比。
圖 (a) 顯示 DiLoCo 的評估損失始終低於 Data-Parallel,且差距隨着批大小增加而擴大;圖 (b) 表明 DiLoCo 在 HellaSwag 零樣本準確率上也優於 Data-Parallel,趨勢相似。

在幾乎所有情況下,在 M=1 時,DiLoCo 不僅評估損失更低,下游任務的零樣本準確率也比 Data-Parallel 高。
而且,DiLoCo(M=1) 的表現對批大小(batch size)的穩定性更強:把批大小翻倍或翻四倍,對 Data-Parallel 的性能影響很大,但對 DiLoCo(M=1) 幾乎沒啥影響,圖 3 裏畫得很清楚。
發現 3:批大小對性能的影響
DiLoCo 提高了最佳批大小,而且最佳全局批大小隨着副本數 M 的增加而變大。這意味着 DiLoCo 相比 Data-Parallel 改善了橫向擴展能力。
雖然 DiLoCo 在批大小 M>1 時,挑選所有超參數中最好的實驗結果,評估損失往往略遜一籌,但它在批大小方面的表現顯著提升。
Data-Parallel 和 DiLoCo(M=1) 在小批時表現都不錯,但隨着批大小增加,Data-Parallel 的性能下降很快。
相比之下,不管批大小 M 是多少,DiLoCo 的表現對批大小都穩定得多。
下圖 4 展示了評估損失的例子,結果表明,對於所有 M 值,DiLoCo 的最佳批大小都比 Data-Parallel 更大,且隨着 M 的增加,DiLoCo 的最佳批大小進一步增大。
例如,在 550M 模型中,Data-Parallel 的評估損失在批大小較小時最低,而 DiLoCo 在批大小更大時表現更優,類似趨勢在 1.3B 和 2.4B 模型中也成立。

下圖 5 展示了在 HellaSwag 數據集上的零樣本準確率。結果顯示即使在較小的模型規模下,DiLoCo 在 M=2 時也能在更大的全局批大小下實現更高的準確率。
例如在 550M 模型中,DiLoCo 的準確率曲線在批大小增加時優於 Data-Parallel;1.3B 和 2.4B 模型也表現出類似趨勢。

發現 4:外部學習率
最佳外部學習率基本上與模型規模 N 無關,但會隨着副本數 M 的變化而變化。
一個重要結果是,DiLoCo 在水平擴展上更自然。在所有情況下,token 預算 D,只跟模型規模 N 有關。這意味着如果用 4 倍大的批大小,訓練步數會減少到 1/4。
對 DiLoCo 來説,這依然能保持不錯的性能,還能一次性用更多資源,縮短總訓練時間。而 Data-Parallel 似乎更依賴串行訓練。這種訓練時間的減少還因為通信量降低而加倍明顯。
下圖 6 展示了理想的訓練時間(wall-clock time),模擬不同網絡帶寬下的情況。
可以看到,DiLoCo 對較大批大小的容忍度使其能夠顯著更快地實現與 Data-Parallel 相當的性能損失,而且在低帶寬設置中這種效果更為明顯。

發現 5:外部學習率
如下圖 7 所示,對於足夠大的模型(N≥3.35 億參數),每個 M 的最佳η是固定的。M 越大,η似乎也越大。這跟之前聯邦學習的研究一致:外層學習率應該隨着客户端數量增加而增加。


DiLoCo 同樣有助於解決過度訓練的問題!
過度訓練可能會相當昂貴,但是增加了批大小並減少了通信量意味着,通常可以在相同的時間內用 DiLoCo 進行 4 倍的過度訓練(OT),而使用數據並行訓練只能進行 1 倍的過度訓練。

論文中還有更多內容。其中包括 Scaling law 本身,以及甚至提供了預測最優超參數的方法。

Chinchilla 將死?AI 3 萬億美元的岔路

幾年後,谷歌研究人員更進一步,通過構建名為「Chinchilla」的模型證明,增加數據量能帶來更好的效果。
這種「計算 + 數據」的組合催生了如今的巨型模型,比如 GPT-4。

一是,「Chinchilla」繼續主導,鉅額算力和數據投入持續攀升; 二是,「停滯」替代方案,新型技術和模型以更少的資源實現更強性能。

這兩種路徑的資本支出差距高達 3 萬億美元以上,足以影響整個行業的走向。
「推理模型」崛起
推動這一潛在變革的,是「推理模型」的興起。
OpenAI 的 o1、o3、DeepSeek R1、谷歌 Gemini 2.0 Flash Thinking 等新模型,採用了一種名為「測試時計算」(test-time compute)的技術。
這種方法將複雜查詢分解為小任務,逐一處理,不再依賴長時間的預訓練。

相較於傳統模型,推理模型可能響應稍慢,但它們輸出更準確,運行成本也更低。
更重要的是,它們擺脱了對大規模預訓練的依賴。
DeepSeek R1 甚至展示了一種可能:開源推理模型能在短時間內實現性能飛躍。
這意味着,AI 公司可能不再需要花費 18-24 個月和巨資去打造下一個「巨無霸」模型。
此外,混合專家模型(MoE)也成為被廣泛採用的技術,通過訓練多個小型「專家」模型,讓它們與大模型協同工作,只在需要時調用部分算力。
這種方式,一步降低了基礎設施需求。
Chinchilla 何去何從?
過去五年,Chinchilla 策略推動了 AI 供應鏈的繁榮,許多公司股價因此飆升。
但如今,它的可持續性正受到質疑。
巴克萊分析師指出,「隨着投入成本激增,比如一次預訓練耗資 100 億美元,性能增益卻可能越來越小,這種模式的性價比正在下降」。

更嚴峻的是,訓練數據可能正在枯竭。
高質量數據的供應有限,而 AI 對數據的「胃口」卻越來越大。如果沒有足夠的「食物」,Chinchilla 還能活多久?
甚至,業內一些大佬預測,像 OpenAI 這樣的公司,可能會在 GPT-5 之後停止無休止的規模 Scaling。
面對數據枯竭,AI 行業將希望寄託於「合成數據」。研究者認為,這種「自給自足」的反饋循環能讓模型不斷自我進化,推動技術邁向新高度。
Chinchilla 們本質上可以通過「自我餵養」來生存。
「如果 AI 行業在合成數據和遞歸自我改進方面取得突破,那麼我們將重新走上 Chinchilla scaling 路徑,計算需求將繼續迅速上升」。
Chinchilla 死了嗎?這個問題,AI 市場會給出最終答案。
如果推理模型、MoE 技術成熟,AI 可能走向輕量化,高效率的未來,數萬億美金的基礎設施投資,或許不再必要。
但,如果「合成數據」讓 Chinchilla 重煥生機,算力競賽將捲土重來。
無論哪種未來到來,AI 的演進都在重塑整個世界。
來源:新智元,原文標題:《谷歌重磅推出全新 Scaling Law,搶救 Transformer!3 萬億美元 AI 面臨岔路》
