
Li Auto heavily bets on "Smart Driving Veteran"

下一階段入場券。

作者 | 柴旭晨
編輯 | 王小娟
一週前,理想重金 “改造” 的首款純電 i8 登台。與它同時上陣交付的,還有董事長李想的 AI 願景,其中核心之一就是 VLA“司機大模型”。
兩年前,在決心重押智駕後,理想嚐到了踩中風口的甜頭,銷量持續攀升且高配的 Max、Ultra 版本更為暢銷。理想希望更進一步,引入新技術架構,來夯實自己在智駕領域的優勢,旋即祭出了 VLA(視覺、語言、行動)大模型,理想將其命名為 “VLA 司機大模型”。
它祭出了 VLA(視覺、語言、行動)大模型,理想將其命名為 “司機大模型”。
以前,不小心錯過路口要手忙腳亂地尋找掉頭點,自己打方向盤、看路況,慌亂之下容易出錯。現在,只要説一句:“理想同學,前面掉頭”,VLA 立刻聽懂指令自動執行。
“我認為 VLA 能夠解決到全自動駕駛”,李想直言,“今天輔助駕駛的這些規則算法、端到端跟人類差距還是太大了。而司機大模型能力是最接近人類,甚至有機會超過人類能力的智駕方案”。
為何 VLA 能擁有如此強大的潛質?在近期的一場訪談中,理想自動駕駛研發高級副總裁郎鹹朋向華爾街見聞詳細解讀了 VLA 背後的原理。
回溯來看,自動駕駛技術這幾年飛快發展,從原來的人工時代到現在 AI 時代,分水嶺是從無圖到端到端。人工時代的核心是用規則算法來控制車輛運作、運行。因此,決定人工時代性能的核心就是工程師。
但在郎鹹朋看來,人都是有不足的,很多場景需要 “堆人” 去研發才能解決。且很多場景是按下葫蘆起來瓢,“把這個規則弄完了,那個規則又不行了”。基於此,行業就進入了端到端的 AI 時代。
郎鹹朋指出,端到端 +VLM 的核心是用人類駕駛的數據模仿學習。“其實我們也不知道這個車是怎麼開起來的,只知道我訓練的模型可以開車。” 但端到端不具備深度的邏輯思考能力,“就像猴子開車一樣,頂多算是一個應激反應”。
理想在去年就意識到了這個問題,並開創了端到端 +VLM 的先河,把視覺語言大模型加了進去。在需要深度決策的時候,VLM 模型可以提供更好的決策。
但這依舊不是最優解,“VLM 的推理速度慢了一點,關鍵是 VLM 有很多好決策無法被端到端模型吸收,因為端到端沒有思考能力也不理解 VLM 在説什麼。”
VLA 由此而來。據瞭解,VLA 的所有模塊經過全新設計,空間編碼器通過語言模型,並結合邏輯推理,給出合理的駕駛決策,並通過 Diffusion 預測其他車輛和行人的軌跡,進一步優化出最佳的駕駛軌跡,選出最像 “老司機” 的那一條,提升了車輛對複雜環境的理解和博弈能力。
“能思考、能溝通、能記憶、能自我提升”,這是郎鹹朋對 VLA 能力的總結,基於這幾個能力,產品上帶給用户的實際體驗就是安全、舒適、高超的駕駛技巧和自然的交互能力。
VLA 的強大潛力,已引來眾多友商和供應商的迅速跟進,紛紛宣佈將湧入這條新賽道。如今,理想選擇重押 “智駕老司機”。這場由 VLA 引領的技術變革,能否幫助它在激烈的市場競爭中穩固王座,並最終拿到通往完全自動駕駛的終極門票?市場正在拭目以待。
以下是與理想自動駕駛研發高級副總裁郎鹹朋、理想自動駕駛高級算法專家詹錕、湛逸飛的對話實錄:
問:VLA 司機具備推理能力,並且表現更像人了,但是需要幾秒鐘的推理時間,請問在突發場景下,VLA 司機是怎麼進行快思考的?
郎鹹朋:實際上現在 VLA 的推理幀率在 10Hz 左右,相比之前的 VLM(3Hz)提升了三倍多。
詹錕:自研基座模型對部署 VLA 有很大作用,VLA 是 4B 模型,比以前更大但推理速度更快。市面上並不是業界任何一個開源模型都能達到這個效率,我們是 MoE 的 0.4×8 的架構,目前沒有任何一個架構是這樣的,這是我們與基座團隊共同研發的。
VLA 的推理幀率在 10Hz 左右,每一幀都會經過語言模型,這其中會有比較快的思考,也有會有比較長的思考,我們做了很多的優化,把思考過程儘可能地能夠在車端推理出來。
問:如何判斷自動駕駛落地的時間表,如何進行商業變現?
郎鹹朋:技術層面,VLA 模型是可以走向更高級別的自動駕駛,但它現在處於起步階段。目前,起步階段 VLA 模型約等於端到端的上限,它還有很長一段路要走。但我認為這個過程不會特別慢,因為端到端從 10MPI 到現在 100MPI 只用了一年左右的時間,可能明年就迭代到 1000MPI 了。
但前提是要有完備的基礎能力,如算法、算力和數據等,並且要有工程能力的支撐才能夠實現。尤其 VLA 的訓練和端到端是不一樣的,它需要更多的和成熟和仿真環境來進行強化學習的訓練,和之前只是單純依靠實車的數據模仿學習訓練是完全不同的。
商業變現的影響因素非常多,最核心的是國家的法律政策。理想也在積極參與國家相關政策法規的討論小組,從技術上來看 L4 級別的自動駕駛落地是非常快的,但從商業角度上看,還有很多問題需要考慮,比如保險,事故之後的賠償等。
問:VLA 模型的難度在哪裏,如果一個企業想要落地 VLA 模型會面臨哪些挑戰?
郎鹹朋:如果車企想做 VLA 模型,是不是可以跳過前面的規則算法和端到端階段,我認為不行。雖然 VLA 的數據、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前基礎上的,如果沒有完整的通過實車採集的數據閉環,是沒有數據能夠去訓練世界模型的。
理想之所以能夠落地 VLA 模型,是因為我們有 12 億數據,只有在充分了解這些數據的基礎上,才能夠更好的生成數據。如果沒有這些數據基礎,首先不能訓練世界模型,其次也不清楚要生成什麼樣的數據。同時,基礎訓練算力和推理算力的支撐需要大量資金和技術能力,如果沒有之前的積累是不能完成的。
問:未來理想把自動駕駛能力推升的過程中,對於算力儲備和卡的規劃是怎樣的?
郎鹹朋:算力增長過程與技術方案相關。在規則算法時代,訓練的卡只是用於訓練 BEV 模型和感知模型,但在端到端時代,我們的訓練卡從不到 1EFLOPS 增長到去年的 10EFLOPS,增長了 10 倍左右。我們認為訓練算力是一方面,同時要增加推理算力。
問:智能駕駛存在一個 “不可能三角”,效率、舒適和安全三個目標之間是互相制約的,理想如何思考的?
郎鹹朋:理想車主的人駕數據是 60 萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是 350 到 400 萬公里發生一次。我們的目標是比人駕安全 10 倍,600 萬公里才出一次事故,但這必須等到 VLA 模型提升之後才能做到。
我們也做過分析,可能一些安全風險問題會導致接管,但舒適度不好也會導致接管,比如急剎、重剎等,如果駕駛舒適度不好,用户依然不想用輔助駕駛,我們重點提升了 i8 的行車舒適度。
效率是排在安全和舒適之後的,比如走錯路,雖然效率有所損失,但我們不會通過一些危險的動作立刻糾正,還是要在安全和舒適的基礎上去追求效率。
問:剛提到今年實車測試是 2 萬公里,請問大幅減少實車測試的依據是什麼?
郎鹹朋:成本是一方面,主要是我們在測試驗證一些不可能完全復現發生問題時的場景,並且實車測試的效率太低,我們現在的仿真效果完全可以媲美實車測試,現在的超級版本和理想 i8 的 VLA 版本中 90% 以上的測試都是仿真測試。
從去年端到端版本我們就已經開始進行仿真測試的驗證,目前我們認為它的可靠性和有效性都很高,所以我們以此替代了實車測試。但仍有一些測試是無法替代的,比如硬件耐久測試,但和性能相關的測試我們基本上會使用仿真測試替代,效果也非常好。
仿真測試效果好,成本低,我們保留實車測試是為了一些必要內容,任何技術的提升一定伴隨着研發流程的變革。進入了 VLA 大模型時代,測試效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影響快速迭代的因素迭代掉,如果這其中仍有大量的實車和人工介入,速度是會降低的。
問:剛剛分享了端到端的瓶頸和一些無法解決的問題,VLA 是當時唯一考慮的路線嗎?
郎鹹朋:我們一直保持着對前沿算法的預言和探索,做端到端的時候我們也在考慮下一代人工智能技術,當時業內最有前途的就是 VLA 技術方案,但並不是只是用於自動駕駛,它是具身智能領域的技術。我們認為它也是未來機器人領域的通用技術框架。其實自動駕駛也是一種機器人,如果未來我們希望做其它機器人,也都可以基於類似的 VLA 框架。
VLA 架構有很多優勢,相對 VA 模型,或者端到端模型,VLA 模型是有思考能力的,這是它不可否認的一個優勢。如果不是用這種大語言模型的預訓練、後訓練的思路,是很難把這樣的知識融進去。自動駕駛想要往 L4 或者往更高的能力前進,L 是一個必經之路。現在無論是大語言模型,還是其他的模型,也都開始做端到端的 L。
問:如果量化精度高的話可以在 Thor 芯片上實現翻倍的算力,為什麼理想汽車能夠最大限度壓榨芯片的能力?基於這個能力,理想汽車是否還會自研智駕芯片?
詹錕:我們從去年開始用 Orin 芯片做大模型部署,當時英偉達覺得這是不可能的,我們工程團隊、部署團隊魔改了 CUDA 的底層,重寫 PTX 底層指令,才能實現現在的效果。
理想自動駕駛團隊的工程部署能力是一以貫之的,從早期在地平線 J3 部署高速 NOA,到在 Orin 芯片上部署大模型,再到現在 Thor 芯片上部署 VLA 高頻快速的大模型。這些都是有工程積累和工程實踐的。
芯片能否被壓榨最主要的事做底層分析,VLA 從最初推理一幀需要 500-600 毫秒到最後實現 10Hz,提升了近 10 倍的效率,這其中有非常多的細節都是我們在遇到問題後拆解當前芯片適配的算法,調整算子,讓算子和芯片目前的能力更匹配。大家會常用的推理模型會用 FP16,我們把它降到 FP8,性能做了非常的提升,同時 FP4 也是英偉達在最新的 Blackwell 架構中非常推崇的,我們會進一步把芯片算力壓榨出來。
郎鹹朋:自研芯片的核心原因,是作為一個專用芯片能針對自己的算法進行特定地優化處理,性價比和效率都會很高。現在我們依然使用 Thor 是因為英偉達對一些新算子支持較好,算力也比較充足,在整體 VLA 迭代過程中依然有變化的可能性,如果未來算法鎖定,為了更好的效率和成本會考慮自研芯片。
問:VLA 是偏向於工程能力的創新嗎?
詹錕:如果關注具身智能,會發現這波浪潮伴隨着大模型對物理世界的應用,本質是提出了 VLA,我們的 VLA 模型就是想把具身智能的思想和路徑引用在自動駕駛領域。
VLA 也是一種端到端,因為端到端的本質是場景輸入,軌跡輸出,VLA 也是如此,但算法的創新是多了思考。端到端可以理解為 VA,沒有語言模型,語言對應的是思考和理解,我們在 VLA 中加入了這一部分,把機器人的範式統一,讓自動駕駛也能成為機器人的一類,這是算法創新。
對於自動駕駛而言,很大的挑戰是必須要有工程創新。因為 VLA 是一個大模型,大模型部署在邊緣端算力上是非常具有挑戰的。很多團隊並不是認為 VLA 不好,而是因為 VLA 部署有困難,把它真正落地是非常具有挑戰性的事,尤其是在芯片算力不夠的情況下是不可能完成的。
問:大語言模型可能缺乏長期記憶能力和長期規劃,在這方面理想做了怎樣的改進?
詹錕:近一年,大模型和 Agent 的發展非常快,記憶就是 RAG 能力。當我們發出指令之後可以外掛在 RAG 中,當下次到這裏的時候可以很容易調度它,它能夠記得之前到這個地方的時候發出過這樣的指令,就能夠加到提示詞中。我們會進行提示詞的微調,本質是把這些知識放入 VLA 輸入中,大模型會具備這樣的能力。
當我們把大模型系統看做一個 Agent,本質是它是一個以大模型為中心構建的系統,這其中有 tools,RAG 外掛系統來增強它的記憶和規劃能力,讓他形成一個真正的完整的智能體,我們做了很多工作才實現了這樣的功能。
問:從行業角度來看,目前智駕體驗是比較趨同的,未來理想汽車是否會將自己的智駕能力向行業輸出或開源或向其他車企售賣?
郎鹹朋:我認為是可以的,我們希望為行業做貢獻。但前提是,第一我們是不是能夠很好地驗證這套系統,因為 VLA 的發展還是在技術週期的初期階段;第二,是否其他人有能力和我們一起去做這件事,他也需要有自己的評測方式、仿真環境,以及強化學習訓練能力。明年溝通的時候可能會討論一下開源問題。
問:郎博提到了 VLA 語言交互是很重要的一部分,何時能實現更自然的 “怎麼説就怎麼做” 的交互體驗?
詹錕:未來有一個很重要的趨勢是,整個車會有一個統一的大腦,當這個車對統一大腦做的迭代更好的時候,不光是理解智駕、理解車機、理解整車,它還可以做出更精準的,到底我是在操縱車的行為,還是在操縱空調,還是在打開窗户,還是在播放音樂,這方面會有更好的理解,這是我們後續長期會去做的方向。
另一個是我們現在對語言的交互、泛化理解,隨着數據量增加,會越來越多,而且會有很快的迭代,也可以想象其實大語言模型早期也會有一些很傻的行為,當我們收集到更多反饋,收集更多迭代以後,進步會非常快,這其實是我們逐漸使用過程中會快速迭代的一個能力。
問:VLA 還處於起步階段,在駕駛風格或 “司機性格” 的個性化定製方面,未來是否會有更多可能性?
郎鹹朋:我們也在考慮給不同的車、不同的使用者跟你相類似的駕駛風格的體驗,不會所有車都是一套駕駛風格,因為之前端到端可能還不具備這樣的能力,而強化學習是有這個能力來支撐它這個車越開越像你的風格或體驗。
問:VLA 更多在做大腦的事情,在感知方面還有什麼可以做的更好?
郎鹹朋:還是要繼續提升技術能力,在 VLA 中我們現在對感知有一個比較大的升級,能看得更遠、更精細,從原來 150 擴到了 200 米純視覺的範圍,OCC 通用物體檢測從原來的 80 擴到了 125,這都是目前在 VLA 上做的更多技術能力提升,包括數據、包括推理性能的提升才能做到。
問:理想是國內 VLA 模型最早落地的車企,研發過程中哪方面挑戰是最大的地方?
郎鹹朋:挑戰最大的是,迭代整個研發流程進行。每一個技術革新也伴隨着研發流程或研發方式的迭代,去年端到端需要一個數據驅動流程,我們之前做得很好,到今年一定要做強化學習的流程,就必須要快速驗證我們世界模型的可靠性、有效性,也需要快速搭建我們高效仿真環境。我們今年很多推理卡也需要大量的去購買、去部署等等。
問:後續還有很多國內友商也在跟進 VLA,理想在整個研發過程中,踩過最大的坑能給大家介紹一下嗎?
郎鹹朋:對整個行業的判斷或整個自動駕駛認知決定了你是否會踩坑。我們是不斷持續迭代對自動駕駛甚至人工智能認知的,去年做端到端的時候一直也在反思,是不是端到端就夠了,如果不夠的話我們還需要再做什麼,去年我們一直在做 VLA 的一些預研,它預研代表的是我們對人工智能的理解並不是一個模仿學習,一定像人類一樣是有思維的,是有自己推理能力的,換句話説它一定要去有能力解決它沒有見過的事情或未知的場景,因為這個在端到端裏可能有一定的泛化能力,但並不是足以説有思維。
就像猴子一樣,它可能也會做出一些你覺得超越你想象的事情,但它不會總做出來,但人不是,人是可以成長的、可以迭代的,所以我們一定要按照人類的智能發展方式去做我們的人工智能,我們就很快從端到端切換到了 VLA 方案去做。
我們一直認知還是比較好的,小坑肯定有,比如算力儲備的多少,交付快點慢點等,小的工程細節、優化,但不要遇到大的判斷失誤,我覺得我們運氣還是可以的。
詹錕:我們之前是相信 ScalingLaw,下一步就是現在的 testtimesScalingLaw。當我們能給更多的數據、更大的訓練時長,它總能出更好的效果,我覺得這就是一個需要堅信的或者 AI 界現在叫 “thebitterlesson,苦澀的教訓”,我們要堅信這個地方。
問:感覺配合 Thor 芯片上車的過程不太容易,雙方當時是怎麼磨合的?
郎鹹朋:其實我們積累的很多跟芯片廠商的供應商的這種合作經驗,包括再往前推算 J3 芯片,當時 J3 芯片設計很有缺陷。但是我們會跟合作伙伴一起,去做一些優化和迭代。一個新的芯片應用,一定是伴隨着一些相互之間的磨合和迭代。我們的迭代速度會比較快,不會死扣着一個方案不放,還會根據芯片自己的特點去做一些調整和優化。
Thor 芯片它是一個全新的芯片,在應用、部署方面有什麼問題,我覺得這都很正常的。敢於採用新的首發芯片的企業,它都會遇到這些問題並且把它解決掉。比如 J3 上的問題,它在 J5 上解決了;Orin-X 問題,可能在 Thor 上解決了,Thor 上問題可能也會在其他的方面去解決。
問:雲端大模型是越大越好嗎,車企到底用多少 B 的模型是最合適的?
郎鹹朋:各有各的好,但是你是否能把模型訓練到的能力能落到自己的芯片上,並且轉換成用户的實際價值才是重要的。
模型的參數量越大,訓練消耗的資源、消耗的東西就會越多,可能效率也會低一點。如果你還想把一個更大的模型蒸餾成一個非常小的模型,在蒸餾過程當中,它的能力損失也是可能存在的,這裏面也很考驗各家工程師的量化優化的一些部署能力。對於消費者來説,我們還是要看最終的產品體驗以及最終給用户帶來的價值。
問:在 VLA 的訓練中,在語言模型上怎麼避免大模型跟人類理解不同,產生的反常識指令?
詹錕:現在的技術而言大模型已經有了一些初步的共識方法和思路。
第一,我們需要對不好的數據做精細的清洗,清洗的越多,質量就越好;第二,生成數據。之前會有很多大語言模型會有幻覺,本質上因為 “大模型” 對這個東西是不理解的或者沒見過的,在它這個領域之外回答問題。所以我們需要構建很多數據,甚至生成數據,去讓它把這個領域理解到位,能把所有的知識能夠知道,甚至知道它什麼不知道,這是它很重要的一個能力。
通過這兩個思路,其實大幅能降低語言模型的幻覺能力,甚至反常識的東西。第三,超級對齊,讓它去更做到符合人類價值觀,比如剛剛那個例子,不能跨對向車道,就是類似的思路,這是第一個問題。
問:有沒有一些相關數據可以支撐純電的用户會對智駕更加偏好?
郎鹹朋:市場部的調研結論肯定是需要,都是排在首選 top3 裏的。現在新購車的人對智駕的要求一定是排在它的首先選要素裏的。
問:今年下半年開始各家車企都會推進 VLA,理想的技術優勢是什麼?
詹錕:我們的技術棧是有延續性的,並不是從之前的規則時代突然跳到 VLA,我們現在做 VLA 其實是一個延續性的技術架構,甚至把原來的優勢都利用起來,站在巨人的肩膀上繼續做。
我們在 RD 預研方面其實投入非常多,VLA 在自動駕駛領域是相對新的一個方向和領域,理想在研發上面也專門立了 TBP 的項目推進 VLA 的技術探索,我們一直在堅持的 “預研一代、研發一代、交付一代” 的思路,相比其他友商或者競爭對手更有優勢。
郎鹹朋:理想最核心的技術壁壘還是世界模型仿真的壁壘,這個別人很難短時間去複製出來。因為它的迭代速度得確保,且還得用實車去測試,所以是很難超越我們的。第二肯定是可以拓展的,我們也成立了各種其他的機器人部門。VLA 是一個很好的具身智能的技術框架,可能可以延續到其他方向。
問:理想對於 VLA 的壁壘的理解?
郎鹹朋:5 年前確實理想作為一個追隨者進入了自研的自動駕駛賽道,但我們對自動駕駛的思考並不是從 2020 年開始的,當時李想面試的時候跟我聊,説你覺得最重要的是什麼,比如想在自動駕駛做成功或者做到第一?
我説現在來看就是數據,雖然説別的都很重要,但數據必須要提前開始準備,我們是從理想 ONE 開始做數據閉環的一些工作,當然那時候數據還比較少。2020 年我們通過第一個完整的交付年,累計了 1500 萬左右的有效回傳數據,樣本是從這積累出來的。
這 5 年做下來,從去年端到端開始,業界或我們的競爭對手真正把理想自動駕駛當回事了,但他們為時已晚,因為這些能力建設不是一天兩天就能完全建立起來或者達到我們效果的,今年開始做 VLA,我們是第一個提出並馬上是第一個交付的,很多人還在嘴上説,還在用端到端的方式去做 VLA。
如果還是沿着端到端思路去做所謂 VLA 的話,你的速度一定會變慢,哪怕是 1 個億的 Clips,首先你要訓 1 億個 Clips 需要多大的訓練算力,另外你的迭代速度會變慢。
VLA 現在可能看起來很慢,就像去年端到端一樣,其實端到端已經非常快了,從 2021 年我們走到端到端走了 3 年多時間,其實還是站在巨人的肩膀上,如果再往前走,整個行業如果從規則算法走到端到端的話,我可以説走了 10 年左右,但是從端到端開始迭代會非常快,因為那時候整個工程、整個數據都會成熟起來,到 VLA,我認為也是這樣一個速度,一年之後你看到一個 1000MPI 的產品放在你面前的時候,相信大家都會覺得自動駕駛真的開來了。
我相信在這裏面真正有技術、真正有能力、真正有責任心的企業一定會率先跑出來,我相信理想肯定是這裏面第一個會走出來的。
問:大家都説多模態模型還沒有進入所謂的 GPT 時刻,這時候你們需要做一個量產方案去推送到市場上,你覺得這個方案是一個足夠好的解法了嗎?它抵達 GPT 時刻還需要花多長時間?
詹錕:現在 VLM 已經完全滿足一個非常創新的 GPT 時刻,如果針對物理 AI,現在的 VLA,特別是在機器人領域、具身領域可能並沒有達到 GPT 時刻,因為它沒有那麼好的泛化能力,但在自動駕駛領域,VLA 解決的是一個相對統一的駕駛範式,是有機會用這個方式做到一個 GPT 時刻的。
我們想用 VLA 來探索一個新的路徑,它有很多需要去落地的探索的點,不是説不能做到 GPT 時刻就一定不能去做量產落地。它我們的評測、仿真去驗證它能不能做到量產落地,能不能給用户 “更好、更舒適、更安全” 的體驗,做到以上三點就可以給用户更好的交付。
GPT 時刻更多指的是具有很強的通用性和泛化性,在這個過程可能隨着我們自動駕駛往空間機器人或往其它具身領域去拓展的時候會產生出更強的泛化能力或者更綜合的統籌能力,我們也會在落地以後隨着 “用户數據迭代、場景豐富、思維邏輯性越來越多、語音交互越來越多” 逐漸往 ChatGPT 時刻遷移,不是一定要達到 GPT 時刻才能做一個自動駕駛模型,比如我們落地了 VLA 以後不能往 ChatGPT 去遷移,這是我們 VLA 落地第一個版本後逐漸會往 “更豐富、更通用、更多樣化” 能力去做的 VLA 模型。
