Tesla, Meta, and Figure – a "photon battle" is underway

摩根士丹利表示，視覺數據成為 AI 訓練的新 “金礦”，擁有數據收集能力的公司將在 AI 機器人競賽中佔據優勢地位。目前特斯拉轉向 “純視覺” 訓練方法，Meta 通過智能眼鏡收集日常活動數據，而 Brookfield 與 Figure AI 合作在龐大的房地產組合中部署數據收集。

人工智能機器人領域正在經歷一場前所未有的 “光子爭奪戰”，各大科技巨頭正在瘋狂收集現實世界的視覺數據來訓練 AI 機器人。

據硬 AI，摩根士丹利在最新研報中表示，隨着 AI 機器人和具身人工智能的發展，特斯拉、Meta 和 Figure AI 等大規模收集視覺數據來訓練視覺語言行動 (VLA) 模型。

具體來看，特斯拉轉向 “純視覺” 訓練方法，Meta 通過智能眼鏡收集日常活動數據，而 Brookfield 與 Figure AI 合作在龐大的房地產組合中部署數據收集。

這一趨勢對投資者意味着，視覺數據成為 AI 訓練的新 “金礦”，擁有數據收集能力的公司將在 AI 機器人競賽中佔據優勢地位。

摩根士丹利用"肥金槍魚"比喻來解釋視覺數據的價值：2019 年一條 612 磅的藍鰭金槍魚在東京拍賣會上售價 310 萬美元，但如果沒有捕撈工具，這條魚的價值為零。同樣，如果沒有處理能力（yottaflops 級算力，1 yottaflop = 1 萬億 teraflops），世界的視覺數據價值也為零。但一旦具備了收集和處理能力，這些數據就變得極其珍貴。

特斯拉的戰略轉型：從遙控操作到純視覺訓練

大摩表示，特斯拉在 Optimus 機器人訓練方面正在經歷重大戰略轉變。

據 Business Insider 報道，特斯拉內部消息人士透露，公司已將 Optimus 機器人訓練轉向 “純視覺” 方法，放棄了傳統的遙控操作、動作捕捉服裝和 VR 技術，轉而記錄工人執行任務的視頻作為訓練數據。

2025 年 5 月，特斯拉前 Optimus 負責人在 X 平台發佈了一系列視頻片段，展示 Optimus 執行據稱從人類視頻中學習的自主任務。這些視頻最初採用第一人稱視角（攝像頭安裝在人類演示者身上），但最終目標是擴展到由 “隨機攝像頭” 以及互聯網上的內容捕獲的第三人稱視角。

這一戰略轉變凸顯了視覺數據在 AI 機器人訓練中的核心價值。正如大摩報告所述：“當你駕駛特斯拉時，你不僅僅是在物理空間中行駛，你還在玩一個視頻遊戲……將數據輸入模擬世界以訓練特斯拉最新的 FSD 模型。”

Meta 的智能眼鏡：將日常生活轉化為訓練數據

摩根士丹利互聯網團隊認為，Meta 的可穿戴設備雖然是"長期看漲期權"，在未來幾年內不太可能影響財務數據，但其戰略意義不容小覷。Meta 正在推進其多年願景，將領先的大模型和代理能力整合到下一代可穿戴設備中。

大摩報告指出：

當你佩戴 Meta 眼鏡時，你正在教授模型如何彈鋼琴、織毛衣、倒咖啡或倒垃圾。
想象一下，如果 2 年內有 2000 萬台這樣的設備投入運營——這幾乎是道路上特斯拉車輛數量的兩倍——每個 Meta 眼鏡用户都可能在元宇宙中訓練一個在數十億場景中迭代的人形化身。

Brookfield 與 Figure AI：房地產帝國的數據收集網絡

摩根士丹利另類投資團隊將 Brookfield 視為執行大規模 AI 基礎設施解決方案的領導者。Brookfield 與 Figure AI 的合作被視為在快速發展的人形機器人領域創建專業知識的重要步驟。

Brookfield 的全球龐大足跡使其成為幫助 Figure AI 構建最大預訓練數據的獨特合作伙伴。Brookfield 是最大的房地產所有者之一，擁有超過 10 萬個住宅單元、超過 5 億平方英尺的商業辦公空間和 1.6 億平方英尺的物流辦公空間。

該合作將允許 Figure AI 積累關鍵的 AI 訓練數據，教授人形機器人如何在各種以人為中心的空間中移動、感知和行動。數據收集工作已經在 Brookfield 環境中展開，預計該項目將在未來幾個月內擴大規模。