The new challenge in the AI world: Not enough information on the Internet!

華爾街見聞
2024.04.01 17:02
portai
I'm PortAI, I can summarize articles.

AI 行業對高質量文本數據的需求可能在兩年內超過供應。報道稱,OpenAI 討論了使用公開 YouTube 視頻字幕訓練 GPT-5。

來源:硬 AI

作者:房家瑤

高質量數據的緊缺正成為 AI 發展的重要障礙。

4 月 1 日,據媒體報道,隨着 OpenAI、Google 等企業不斷深入發展 AI 技術,科技巨頭們遇到了一個新問題:現有的互聯網信息量可能不足以支撐他們訓練更先進的 AI 系統。

科技巨頭的 AI 系統,比如能與人類聊天的 ChatGPT,是通過學習網上的信息變得越來越聰明的。但現在,高質量、有用的信息日益緊缺,同時,一些網站開始限制 AI 公司訪問他們的數據。據業界一些高管和研究人員表示,AI 行業對高質量文本數據的需求可能在兩年內超過供應這將可能減緩 AI 技術的發展速度。

面對信息不足的問題,AI 公司正在嘗試各種方法來尋找新的信息源。比如OpenAI 正在考慮用 YouTube 視頻裏的對話來訓練它們的下一代智能模型 GPT-5。有的公司甚至創造合成數據來學習,儘管這種方法被許多研究人員認為可能會導致系統發生嚴重故障,但不失為克服數據短缺的一種潛在途徑。

據悉,這些努力大多保密進行,因為找到有效的解決方案可能成為企業在激烈競爭中的關鍵優勢。隨着數據需求不斷增長,找到新的學習材料、與數據所有者的合作,讓 AI 系統變得更加聰明,就成了這個行業的重要備戰區。

OpenAI 的 GPT-5 面臨 10 萬億到 20 萬億 tokens 的數據短缺

AI 語言模型的構建依賴於從互聯網上收集的大量文本數據,這些數據包括科學研究、新聞文章、維基百科條目等。這些材料被分解成 “tokens”,tokens 可以是完整的單詞或單詞的一部分。AI 模型通過分析和理解這些 tokens 之間的關係和模式,學會了如何生成流暢、自然的語言,從而能夠回答問題、撰寫文章甚至創作詩歌。

模型的能力在很大程度上取決於它訓練的數據量。通常情況下,數據越多,模型的性能就越好,因為它有更多的例子來學習不同的語言用法和複雜性。

OpenAI 通過為其 GPT 系列模型提供海量訓練數據,不斷提升性能,藉此成為世界頂尖 AI 公司。這展示了大數據訓練對於 AI 發展的重要性。

但是,隨着 GPT-4 模型的不斷擴大,OpenAI 對數據的需求也在急劇增長。Epoch 研究所的 AI 研究員 Pablo Villalobos 估計,GPT-4 訓練涉及的數據量高達 12 萬億 tokens,而未來模型,如 GPT-5,可能需要 60 萬億到 100 萬億 tokens。因此,即便是利用所有可用的高質量語言和圖像數據,研發 GPT-5 仍可能面臨 10 萬億到 20 萬億 tokens 的數據短缺。至於如何彌補這一巨大的數據缺口,目前尚無明確方案。

據媒體報道,為應對數據短缺挑戰,AI 公司正在嘗試各種方法來尋找新的信息源。Meta 創始人扎克伯格近期強調,公司通過 Facebook 和 Instagram 等平台擁有的大量數據,為其 AI 研發提供了重要優勢。扎克伯格表示,Meta 能夠利用網絡上數以百億計的公開共享圖片和視頻,這些數據的規模超過了大多數常用數據集,儘管其中高質量數據的比例尚不明確。

而 OpenAI 則考慮使用其自動語音識別工具 Whisper 轉錄的高質量視頻和音頻示例。此外,OpenAI 還在考慮建立一個數據市場,以評估每個數據點對模型訓練的貢獻並據此向內容提供者支付費用,這一創新想法也引起了 Google 的關注。

Epoch 研究所預測 AI 數據短缺危機將推遲至 2028 年

兩年前,Villalobos 和他的同事寫道,到 2024 年年中,對高質量數據的需求超過供給的可能性為 50%,到 2026 年發生這種情況的可能性為 90%。自那以後,他們變得更加樂觀,在 AI 研究員 Pablo Villalobos 及其團隊的審慎評估下,新的預期顯示,這種短缺風險將延遲至 2028 年。

這項樂觀的更新基於對當前數據質量和可用性的深刻洞察。Villalobos 指出,互聯網上的絕大多數數據並不適合作為 AI 訓練材料。在無盡的信息流中,只有一小部分數據(遠低於先前預計)能對 AI 模型的增長和發展做出實質性貢獻。

同時,各大社交媒體平台和新聞出版商已開始限制其數據被用於 AI 訓練。他們擔心如果數據被自由用於 AI 訓練,可能導致內容創造者和平台本身失去應得的經濟回報。

此外,普羅大眾對於個人隱私的保護意識顯著提升,許多人對於將私人對話如 iMessage 中的聊天記錄提供給 AI 訓練的意願較低,人們可能擔心他們的隱私可能會受到侵犯。

最近,一位女記者就 OpenAI 最新模型 Sora 的訓練數據向 CTO Murati 提問時,Murati 未能明確回答,這引發了業界對 OpenAI 管理層對於訓練數據來源的關注度的質疑。這一事件觸發了更廣泛的討論,關於公共領域數據的所有權問題——我們在網絡上發佈的內容,究竟是屬於個人私密還是公共共享的資產?

因此,這些因素共同導致了數據獲取的困境。隨着用户和監管機構對數據使用的監控趨嚴,研究者們必須在保護隱私與數據採集之間找到新的均衡。