Elon Musk: AI training data was exhausted last year, and synthetic data is the only supplementary method

華爾街見聞
2025.01.10 02:07
portai
I'm PortAI, I can summarize articles.

包括微軟、Meta、OpenAI、Anthropic 等在內的科技巨頭已經開始使用合成數據來訓練 AI 模型了。據信息技術研究和顧問公司 Gartner 估計,2024 年用於 AI 訓練和分析項目的數據中,有 60% 是合成的。

人工智能訓練數據耗盡了怎麼辦?

近日,馬斯克在社交平台 X 上的一場直播對話中表示,人工智能訓練數據已經耗盡

“我們基本上已經用盡了人類知識的累積總和來進行 AI 訓練,這種情況大約在去年就已經發生了。”

馬斯克的觀點與前 OpenAI 首席科學家 Ilya Sutskever 不謀而合。去年 12 月,Sutskever 在機器學習會議 NeurIPS 上表示,AI 行業已經達到了他所謂的 “數據峯值”,訓練數據的缺乏將迫使 AI 模型的開發方式發生轉變。

不過,面對數據耗盡的困境,馬斯克提出了一個可能的解決方案:

唯一的補充方法是使用合成數據,即由 AI 模型自己生成的數據。通過合成數據,AI 將對自身進行評分,並經歷一個自學習的過程。”

事實上,包括微軟、Meta、OpenAI、Anthropic 等在內的科技巨頭已經開始使用合成數據來訓練 AI 模型了。據信息技術研究和顧問公司 Gartner 估計,2024 年用於 AI 訓練和分析項目的數據中,有 60% 是合成的。

微軟最近開源的 Phi-4 模型就是使用合成數據和真實世界數據共同訓練的。谷歌的 Gemma 模型、Anthropic 的 Claude 3.5 Sonnet 系統以及 Meta 最新的 Llama 系列模型也都採用了類似的方法。

分析師表示,使用合成數據進行訓練還能夠節約成本。AI 初創公司 Writer 聲稱,其幾乎完全使用合成數據源開發的 Palmyra X 004 模型僅花費了 70 萬美元,而相比之下,OpenAI 同等規模模型的開發成本估計為 460 萬美元。

不過需要注意的是,使用合成數據也存在一些潛在風險。一些研究表明,合成數據可能導致模型崩潰,即模型的輸出變得不夠 “創新”,反而更加偏頗,最終嚴重影響模型的功能。由於合成數據是由模型生成的,如果用於訓練這些模型的數據本身存在偏見和侷限性,那麼它們的輸出也會受到同樣的影響。