
Andrej Karpathy: We need to let large models "go to school," and reinforcement learning is just beginning

AI 專家 Andrej Karpathy 在推文中將大型語言模型 (LLM) 的訓練過程比作教育學生,闡述了 LLM 訓練的現狀與未來。他指出,LLM 的訓練可分為三個階段:預訓練階段類似於教科書的背景信息,監督式微調階段對應於例題及解答,而強化學習階段則像是練習題,強調通過試錯學習。
AI 大神 Andrej Karpathy 剛剛發了一篇推文,他將訓練大型語言模型 (LLM) 的過程巧妙地比作教育學生,並以教科書的結構為框架,闡述了當前 LLM 訓練的現狀和未來方向。
這可能是目前我看到過關於預訓練,監督式微調,強化學習最好最通俗易懂的解釋,分享給大家。
Karpathy 指出,當我們打開任何一本教科書,都會看到三種主要類型的信息:
-
1. 背景信息 / 闡述 (Background information / exposition): 這是教科書的核心內容,用於解釋各種概念和知識。學生通過閲讀和學習這些內容來構建知識體系,這就像是 LLM 的預訓練 (pretraining) 階段。在預訓練階段,模型通過閲讀海量的互聯網文本,學習語言的規律、世界的知識,積累廣泛的背景知識,為後續的學習打下基礎
-
2. 例題及解答 (Worked problems with solutions): 教科書會提供具體的例題,並詳細展示專家如何解決這些問題。這些例題是示範,引導學生模仿學習。這與 LLM 的 監督式微調 (supervised finetuning) 階段相對應。在微調階段,模型學習人類專家提供的 “理想答案”,學習如何生成高質量、符合人類期望的回覆,例如助手類應用的 “理想回答”
-
3. 練習題 (Practice problems): 教科書每章節末尾通常會設置大量的練習題,這些題目往往只提供最終答案,而不給出詳細的解題步驟。練習題旨在引導學生通過 試錯 (trial & error) 的方式進行學習。學生需要嘗試各種方法,才能找到正確的答案。卡帕西認為,這與 強化學習 (reinforcement learning) 的概念高度相似
Karpathy 強調,目前我們已經讓 LLM 經歷了大量的 “閲讀” 和 “示例學習”,也就是預訓練和監督式微調,但對於 “練習題” 這一環節,也就是強化學習,我們還處於一個新興的、尚待開發的階段。
他認為,當我們為 LLM 創建數據集時,本質上與為它們編寫教科書並無二致。為了讓 LLM 真正 “學會”,我們需要像編寫教科書一樣,提供這三種類型的數據:
大量的背景知識 (Background information): 對應預訓練,讓模型積累廣泛的知識
示範性的例題 (Worked problems): 對應監督式微調,讓模型學習高質量的輸出
大量的練習題 (Practice problems): 對應強化學習,讓模型在實踐中學習,通過試錯和反饋不斷改進
寫在最後
卡帕西總結道,我們已經讓 LLM 經歷了大量的 “閲讀” 和 “學習例題”,但更重要的是,我們需要引導它們進行大量的 “實踐練習”。 LLM 需要閲讀,更需要實踐。 只有通過大量的實踐練習,才能真正提升 LLM 的能力,讓它們更好地理解世界、解決問題。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。