
NVIDIA's Jim Fan: The robotics field is still in a chaotic state, and even the development direction may be wrong

Jim Fan 表示,機器人硬件可靠性成為軟件迭代最大障礙,行業標準缺失導致評估體系混亂,當前主流的視覺 - 語言 - 動作模型(VLA)技術路線” 感覺不對”,其基於視覺語言模型(VLM)的預訓練方式與機器人實際需求存在根本性錯位。他表示正押注於視頻世界模型作為替代方案。
近日,英偉達機器人業務負責人、GEAR 實驗室聯合負責人 Jim Fan 在社交媒體上發表長文,對機器人行業現狀提出嚴厲批評。他認為,儘管硬件技術取得顯著進展,但整個行業在軟件迭代、標準制定和技術路線選擇上仍處於混亂狀態。
Jim Fan 指出,當前主流的視覺 - 語言 - 動作模型(VLA)技術路線"感覺不對",其基於視覺語言模型(VLM)的預訓練方式與機器人實際需求存在根本性錯位。他表示正押注於視頻世界模型作為替代方案。
這一表態引發業內關注,在人工智能其他領域快速發展的背景下,機器人技術的基礎性問題凸顯出該行業距離商業化應用仍有較大距離,可能影響投資者對相關公司的估值預期。
Jim Fan 總結了 2025 年在機器人領域學到的三個教訓,涵蓋硬件可靠性、行業標準和技術路線等核心問題,為理解當前機器人產業瓶頸提供了一線視角。
硬件可靠性成為軟件迭代最大障礙
Jim Fan 指出,儘管 Optimus、e-Atlas、Figure、Neo、G1 等機器人展現了精湛的工程技術,但硬件可靠性嚴重限制了軟件開發速度。他表示,當前最先進的人工智能尚未充分發揮這些前沿硬件的全部能力,"身體的能力超過了大腦的指揮能力"。
與人類不同,機器人無法從損傷中自我修復。過熱、電機損壞、固件異常等問題每天都在發生,而錯誤是不可逆且無法容忍的。照看這些機器人需要整個運營團隊的支持。
Jim Fan 感嘆:"唯一能隨着規模增長的,只有我的耐心。"這一表述揭示了機器人研發中人力成本高企、迭代效率低下的現實困境。
行業標準缺失導致評估體系混亂
Jim Fan 將機器人領域的基準測試(Benchmarking)狀況稱為"史詩級災難"。他指出,與大語言模型領域已形成 MMLU、SWE-Bench 等共識性標準不同,機器人行業在硬件平台、任務定義、評分標準、模擬器或真實世界設置等方面均無統一標準。
當前行業普遍現象是,每家公司在發佈新聞時臨時定義自己的基準測試,並據此宣稱達到"當前最佳"(SOTA)水平。更嚴重的是,演示視頻往往是從 100 次嘗試中挑選出的最佳效果。
Jim Fan 呼籲:"2026 年我們必須做得更好,停止將可復現性和科學紀律視為二等公民。"這一批評直指行業缺乏科學嚴謹性的根本問題。
主流技術路線遭遇根本性質疑
Jim Fan 對當前占主導地位的 VLA 模型提出了根本性質疑。VLA 模型的常見做法是在預訓練的視覺語言模型基礎上嫁接動作模塊,但這一路線存在兩個核心問題。
首先,VLM 中的大多數參數是為語言和知識服務的,而非為物理學服務。其次,為了實現高層次理解,視覺編碼器會主動丟棄低級細節,但這些微小細節對機器人的靈巧操作至關重要。
Jim Fan 認為,VLM 是為視覺問答等基準測試高度優化的,其預訓練目標與機器人需求存在錯位,"沒有理由相信 VLA 的性能會隨着 VLM 參數的增加而擴展"。他表示正押注於視頻世界模型作為更適合機器人策略的預訓練目標。
Jim Fan 的觀點引發了業內討論。網友 Stewart Alsop 質疑,如果視頻世界模型更優,為何 Helix、GR00T N1 和π0 等實際交付成果的模型仍構建在 VLM 基礎上,且世界模型目前主要用於策略評估和合成數據,而非直接運動控制。
Jim Fan 回應稱,這些是 2025 年的模型,期待 2026 年的下一代大模型。
