Waymo collaborates with DeepMind to create a world model: based on Genie 3, allowing autonomous driving to "imagine" rare scenarios

華爾街見聞
2026.02.07 12:19
portai
I'm PortAI, I can summarize articles.

Waymo 與 DeepMind 合作推出了 Waymo World Model,基於 Genie 3 構建,旨在提升自動駕駛仿真能力。該模型能夠生成高度逼真的 3D 環境,模擬罕見事件,如龍捲風和大象,支持高保真多傳感器數據生成。Waymo 表示,其自動駕駛系統已在虛擬環境中行駛數十億英里,Waymo World Model 是其核心基礎設施,幫助系統在現實世界中應對複雜交通場景。

剛剛,Alphabet 旗下的自動駕駛汽車公司 Waymo,推出了最新世界模型 Waymo World Model,其基於 DeepMind 的 Genie 3 構建,在大規模、超真實自動駕駛仿真方面樹立了全新的行業標杆。

DeepMind CEO、諾獎得主 Demis Hassabis 也轉推分享説這個基於 Genie 3 模擬的用例「超酷」。

Waymo World Model 建立在 Google DeepMind 的通用世界模型 Genie 3 之上,能夠生成高度逼真且可交互的 3D 環境,並針對自動駕駛的嚴格需求進行了專業化適配。憑藉 Genie 豐富的世界知識,它可以模擬極為罕見的事件 —— 從龍捲風到偶遇大象 —— 這些在現實中幾乎無法大規模復現。

同時,模型架構高度可控,工程師可通過簡單的語言提示、駕駛輸入或場景佈局快速調整仿真內容。更重要的是,Waymo World Model 支持生成高保真、多傳感器數據,包括攝像頭圖像和激光雷達點雲,為自動駕駛系統提供全面、逼真的訓練與測試環境。

Waymo 表示,Waymo Driver 已累計完成近 2 億英里的完全自動駕駛行駛,成為美國多個主要城市運行體系中的一部分,並持續提升道路安全性。但公眾往往看不到的是,在真正駛上公共道路之前,這套系統早已在虛擬世界中行駛了數十億英里,反覆演練各種複雜、罕見甚至極端的交通場景。Waymo World Model 正是支撐這一能力的核心基礎設施,使自動駕駛系統能夠在現實世界之外,提前掌握應對真實世界的能力。

接下來我們看看 Waymo 世界模型在實際運行中的表現,包括 Waymo Driver 在各種罕見、極端邊緣場景中的仿真駕駛過程。

湧現的多模態世界知識

自動駕駛行業中的大多數仿真模型,都是僅基於自身採集的道路數據從零開始訓練的。這種方式意味着系統只能從有限的真實經驗中學習。相比之下,Genie 3 在極其龐大且多樣化的視頻數據上進行預訓練,由此獲得了強大的世界知識,從而可以探索車隊從未直接經歷過的場景。

通過專門設計的後訓練流程,Waymo 將這些龐大的 2D 視頻世界知識遷移到了 Waymo 硬件套獨有的 3D 激光雷達輸出中。攝像頭擅長呈現豐富的視覺細節,而激光雷達則提供了提供了寶貴的互補信號,如精確的深度信息。Waymo 世界模型可以跨多種傳感器模態生成幾乎任何場景 —— 從日常駕駛到極為罕見的「長尾」場景。

極端天氣與自然災害示例

車輛行駛在覆蓋着薄雪的金門大橋上,前置攝像頭畫面中還能看到 Waymo 的影子;

在極端天氣中,車輛遭遇龍捲風的情況:

罕見且對安全至關重要的事件

在車輛行駛過程中,魯莽的駕駛員操作不當,駕着車駛離公路:

行走在道路上,一輛故障卡車逆向行駛,堵塞了道路:

遇到諸如大象、長角牛等動物或事物時的罕見情況

車輛行駛在道路上,迎面遇到一隻大象:

車輛行駛在道路上,與一隻德克薩斯長角牛相遇:

強大的模擬可控性

Waymo 世界模型提供了強大的模擬可控性。而這仰賴三種主要機制:駕駛行為控制、場景佈局控制和語言控制。

駕駛行為控制能夠創造一個響應迅速的仿真器,遵循特定的駕駛輸入。這使得我們能夠模擬「如果…… 會怎樣」的反事實事件,例如在特定情況下,Waymo 駕駛系統是否可以更自信地安全駕駛,而不是讓行。

反事實駕駛。下面 Waymo 展示了在過往記錄駕駛的原始路徑或全新路徑下的仿真結果。雖然純重建式仿真方法(例如 3D 高斯濺射,或 3DGS)在模擬路徑與原駕駛路徑差異過大時,由於缺少觀測數據而容易出現視覺失真,但完全基於學習的 Waymo 世界模型憑藉其強大的生成能力,仍能保持良好的真實感和一致性。

場景佈局控制允許自定義道路佈局、交通信號燈狀態以及其他道路使用者的行為。通過這種方式,可以通過選擇性放置其他道路使用者,或對道路佈局應用自定義變異,來創建定製場景。

場景佈局條件控制遵從

語言控制是 Waymo 世界模型最靈活的工具,可以用來調節一天中的時間、天氣狀況,甚至生成完全合成的場景(例如前文展示的長尾場景)。

世界變異:時間

世界變異:天氣

行車記錄視頻的轉換

在一次風景優美的行程中,人們常會用手機或行車記錄儀記錄沿途視頻,可能拍到堆積的雪牆,或是夕陽下的高速公路。Waymo 世界模型可以將這類視頻,以及任何普通相機拍攝的視頻,轉換為多模態仿真,呈現 Waymo Driver 在同一場景下的「所見」。Waymo 表示,由於仿真直接來源於真實影像,這一過程在真實感和事實準確性上達到了最高水平。

可擴展推理

一些需要模擬的場景可能需要較長時間才能完整呈現,例如在狹窄車道中通行的情況。長時間仿真通常更具挑戰性,因為隨着仿真時長增加,計算負擔加重,同時保持穩定高質量也更困難。不過,通過 Waymo World Model 的高效變體,可以在顯著降低計算量的同時模擬更長的場景,並保持高真實感與高保真度,從而支持大規模仿真。

在高效變體上進行的長時段仿真(4 倍速):

通過模擬這些極為罕見的情況,Waymo Driver 可以提前為複雜、長尾的駕駛場景做好準備。這一能力為自動駕駛系統設立了更嚴格的安全基準,確保其在現實道路上遇到類似挑戰之前,已具備應對能力。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。