
DeepSeek shocks Silicon Valley, from data to technology, Meta urgently forms multiple teams to study replication

這些小組的任務包括分析 DeepSeek 如何降低訓練和運行成本、研究其使用的數據集、以及探索如何改進 Meta 的 Llama 模型。Meta 希望通過這些努力,能夠在即將發佈的 Llama 4 中實現技術突破。
DeepSeek 引硅谷巨震,Meta 陷入恐慌,緊急組建研究小組。
近日,中國 AI 公司 DeepSeek 發佈的 R1 模型(DeepSeek R1)熱度飆升。1 月 24 日,在專業大模型排名 Arena 上,DeepSeek-R1 基準測試已經升至全類別大模型第三,其中在風格控制類模型(StyleCtrl)分類中與 OpenAI o1 並列第一;而其競技場得分達到 1357 分,略超 OpenAI o1 的 1352 分。
據報道,面對 DeepSeek 的挑戰,Meta 迅速採取行動,已組建了多個 “小組” 來研究 DeepSeek 的技術細節。
其中兩個小組正在試圖瞭解 DeepSeek 如何降低訓練和運行大模型的成本,第三小組正在試圖弄清楚 DeepSeek 使用的數據集,第四小組則正在考慮基於 DeepSeek 模型屬性重構 Meta 的 Llama 模型。
此外,DeepSeek 此前在技術論文中介紹的降本方法,也已被 Meta 的研究小組列為重點研究對象,包括模型蒸餾(distillation)等技術。Meta 希望通過這些努力,能夠在即將發佈的 Llama 4 中實現技術突破。
Meta 的 AI 基礎設施總監 Mathew Oldham 等高層領導此前公開表示,他們對 Llama 的表現感到擔憂,擔心其無法與 DeepSeek 競爭。
Meta 的開發者社區也反映,儘管 Llama 模型是免費的,但其運行成本往往高於 OpenAI 的模型——因為 OpenAI 能夠通過批量處理數百萬用户的查詢來降低成本,而使用 Llama 的小型開發者則無法達到這種規模。
OpenAI 高級研究員 Noam Brown 上週在 X 上表示:
“DeepSeek 表明你可以用相對較少的算力獲得非常強大的 AI 模型。”