DeepSeek shocks Silicon Valley, from data to technology, Meta urgently forms multiple teams to study replication

華爾街見聞

2025.01.27 02:10

I'm PortAI, I can summarize articles.

這些小組的任務包括分析 DeepSeek 如何降低訓練和運行成本、研究其使用的數據集、以及探索如何改進 Meta 的 Llama 模型。Meta 希望通過這些努力，能夠在即將發佈的 Llama 4 中實現技術突破。

DeepSeek 引硅谷巨震，Meta 陷入恐慌，緊急組建研究小組。

近日，中國 AI 公司 DeepSeek 發佈的 R1 模型（DeepSeek R1）熱度飆升。1 月 24 日，在專業大模型排名 Arena 上，DeepSeek-R1 基準測試已經升至全類別大模型第三，其中在風格控制類模型（StyleCtrl）分類中與 OpenAI o1 並列第一；而其競技場得分達到 1357 分，略超 OpenAI o1 的 1352 分。

據報道，面對 DeepSeek 的挑戰，Meta 迅速採取行動，已組建了多個 “小組” 來研究 DeepSeek 的技術細節。

其中兩個小組正在試圖瞭解 DeepSeek 如何降低訓練和運行大模型的成本，第三小組正在試圖弄清楚 DeepSeek 使用的數據集，第四小組則正在考慮基於 DeepSeek 模型屬性重構 Meta 的 Llama 模型。

此外，DeepSeek 此前在技術論文中介紹的降本方法，也已被 Meta 的研究小組列為重點研究對象，包括模型蒸餾（distillation）等技術。Meta 希望通過這些努力，能夠在即將發佈的 Llama 4 中實現技術突破。

Meta 的 AI 基礎設施總監 Mathew Oldham 等高層領導此前公開表示，他們對 Llama 的表現感到擔憂，擔心其無法與 DeepSeek 競爭。

Meta 的開發者社區也反映，儘管 Llama 模型是免費的，但其運行成本往往高於 OpenAI 的模型——因為 OpenAI 能夠通過批量處理數百萬用户的查詢來降低成本，而使用 Llama 的小型開發者則無法達到這種規模。

OpenAI 高級研究員 Noam Brown 上週在 X 上表示：

“DeepSeek 表明你可以用相對較少的算力獲得非常強大的 AI 模型。”