DeepSeek shocks Silicon Valley, from data to technology, Meta urgently forms multiple teams to study replication

華爾街見聞
2025.01.27 02:10
portai
I'm PortAI, I can summarize articles.

這些小組的任務包括分析 DeepSeek 如何降低訓練和運行成本、研究其使用的數據集、以及探索如何改進 Meta 的 Llama 模型。Meta 希望通過這些努力,能夠在即將發佈的 Llama 4 中實現技術突破。

DeepSeek 引硅谷巨震,Meta 陷入恐慌,緊急組建研究小組。

近日,中國 AI 公司 DeepSeek 發佈的 R1 模型(DeepSeek R1)熱度飆升。1 月 24 日,在專業大模型排名 Arena 上,DeepSeek-R1 基準測試已經升至全類別大模型第三,其中在風格控制類模型(StyleCtrl)分類中與 OpenAI o1 並列第一;而其競技場得分達到 1357 分,略超 OpenAI o1 的 1352 分。

據報道,面對 DeepSeek 的挑戰,Meta 迅速採取行動,已組建了多個 “小組” 來研究 DeepSeek 的技術細節。

其中兩個小組正在試圖瞭解 DeepSeek 如何降低訓練和運行大模型的成本,第三小組正在試圖弄清楚 DeepSeek 使用的數據集,第四小組則正在考慮基於 DeepSeek 模型屬性重構 Meta 的 Llama 模型。

此外,DeepSeek 此前在技術論文中介紹的降本方法,也已被 Meta 的研究小組列為重點研究對象,包括模型蒸餾(distillation)等技術。Meta 希望通過這些努力,能夠在即將發佈的 Llama 4 中實現技術突破。

Meta 的 AI 基礎設施總監 Mathew Oldham 等高層領導此前公開表示,他們對 Llama 的表現感到擔憂,擔心其無法與 DeepSeek 競爭。

Meta 的開發者社區也反映,儘管 Llama 模型是免費的,但其運行成本往往高於 OpenAI 的模型——因為 OpenAI 能夠通過批量處理數百萬用户的查詢來降低成本,而使用 Llama 的小型開發者則無法達到這種規模。

OpenAI 高級研究員 Noam Brown 上週在 X 上表示:

“DeepSeek 表明你可以用相對較少的算力獲得非常強大的 AI 模型。”