
Meta's "Segment Everything" model has been upgraded! It can "understand human language" and process images containing hundreds of objects in just 30 milliseconds

更多消息,持續更新中
美東時間 19 日週三,Meta 發佈第三代"分割一切"模型 Segment Anything Models(SAM)——SAM 3,實現了重大突破,首次支持用户通過自然語言描述和圖像示例來識別、分割和追蹤視頻中的任何物體。Meta 同時發佈了用於 3D 重建的開源模型 SAM 3D,並計劃將這些技術整合到 Instagram 視頻創作應用 Edits 和 Meta AI 應用中。
SAM 3 最核心的創新在於引入了簡稱 PCS 的"可提示概念分割"(Promptable Concept Segmentation)能力。用户只需輸入 “條紋紅色雨傘” 這類自然語言提示詞,模型就能自動識別並分割圖像或視頻中所有符合條件的實例,突破了傳統模型依賴固定標籤集的限制。
在處理速度方面,SAM 3 模型在一塊英偉達 H200 GPU 上處理含 100 多個物體的單張圖像僅耗時 30 毫秒,在約五個併發目標物體的視頻場景中,可維持接近實時的性能。
Meta 發佈的 SA-Co 基準測試顯示,SAM 3 的性能相比現有系統提升了一倍。在 LVIS 數據集的零樣本分割任務中,SAM 3 的準確率達到 47.0,顯著超越此前的 38.5。在用户偏好測試中,SAM 3 的輸出效果以約三比一的比例優於最強基準模型 OWLv2。
Meta 介紹,上述技術突破將率先應用於 Facebook Marketplace 的新功能"房間預覽"(View in Room),幫助用户在購買家居裝飾品前將產品在個人空間中的擺放效果可視化。Meta 還推出了 Segment Anything Playground 平台,讓普通用户無需技術背景即可體驗這些前沿 AI 模型的能力。
突破固定標籤限制,支持開放詞彙分割
傳統圖像分割模型面臨的最大挑戰是難以將自然語言與圖像中的具體視覺元素關聯。現有模型通常只能分割"人"等預定義概念,卻難以理解"條紋紅色雨傘"這類更細緻的描述。
SAM 3 通過引入可提示概念分割能力解決了這一侷限。該模型接受短語形式的文本提示和圖像示例提示,完全擺脱了固定標籤集的束縛。為評估大詞彙量檢測和分割性能,Meta 創建了 SA-Co 基準數據集,包含 21.4 萬個獨特概念、12.4 萬張圖像和 1700 個視頻,概念覆蓋範圍達到現有基準的 50 倍以上。
該模型同時支持多種提示方式,既包括簡單名詞短語和圖像示例等概念提示,也支持 SAM 1 和 SAM 2 引入的點、框、掩碼等視覺提示。這大大提升了分割的靈活性和可用性,特別是對於罕見或難以用文字描述的概念。
SAM 3 還可作為多模態大語言模型的感知工具,處理更復雜的提示,例如"坐着但沒有拿禮物盒的人"。當與多模態大語言模型配合使用時,SAM 3 在 ReasonSeg 和 OmniLabel 等需要推理的複雜文本分割基準測試中表現優於此前研究,且無需在任何指代表達分割或推理分割數據上進行訓練。
創新數據引擎,人機協作提速 5 倍
獲取帶有分割掩碼和文本標籤的高質量標註圖像是一項重大挑戰,特別是在視頻中詳盡標註每個物體類別的出現位置既耗時又複雜。構建覆蓋大量多樣化詞彙和多個視覺領域的全面數據集需要大量時間和資源。
Meta 通過創建可擴展的數據引擎解決這一問題,該引擎將 SAM 3、人類標註者和 AI 模型結合在一起,顯著加快了標註速度。對於負提示(圖像或視頻中不存在的概念),標註速度比純人工快約 5 倍,對於正提示即使在具有挑戰性的細粒度領域也快 36%。這個人機混合系統使團隊能夠創建包含超過 400 萬個獨特概念的大規模多樣化訓練集。
由包括 SAM 3 和基於 Llama 的圖像描述系統在內的 AI 模型組成的流水線會自動挖掘圖像和視頻,生成描述,將描述解析為文本標籤,並創建初始分割掩碼。人類和 AI 標註者隨後驗證和修正這些提議,形成快速擴展數據集覆蓋範圍的反饋循環,同時持續提升數據質量。
AI 標註者基於經過專門訓練的 Llama 3.2v 模型,在標註任務上達到或超過人類準確度,例如驗證掩碼質量或檢查圖像中某概念的所有實例是否已被詳盡標記。通過將部分人類標註任務委託給 AI 標註者,吞吐量相比純人工標註流水線提高了一倍以上。
SAM 3D 開創物理世界 3D 重建新標準
SAM 3D 包含兩個新的業界領先模型:用於物體和場景重建的 SAM 3D Objects,以及用於人體姿勢和形狀估計的 SAM 3D Body。這兩個模型在物理世界場景的 3D 重建方面樹立了新標準。
SAM 3D Objects 代表了一種處理視覺定位 3D 重建和物體姿態估計的新方法,能夠從單張自然圖像重建詳細的 3D 形狀、紋理和物體佈局。該模型的創新來自於突破了長期存在的物理世界 3D 數據障礙。通過構建強大的數據標註引擎,結合為 3D 設計的新多階段訓練方案,SAM 3D Objects 標註了近 100 萬張不同的圖像,生成了約 314 萬個模型參與的網格。
在頭對頭的人類偏好測試中,SAM 3D Objects 相對其他領先模型的勝率至少達到 5 比 1。該模型通過擴散捷徑和其他工程優化,可在幾秒鐘內返回質量相當的完整紋理重建,這使得 3D 近實時應用成為可能,例如作為機器人的 3D 感知模塊。
SAM 3D Body 專注於從單張圖像進行準確的 3D 人體姿勢和形狀估計,即使在涉及異常姿勢、遮擋或多人場景的複雜情況下也能勝任。該模型支持交互式輸入,如分割掩碼和 2D 關鍵點,使用户能夠引導和控制模型的預測。
SAM 3D Body 利用大規模高質量數據實現了準確穩健的 3D 人體姿勢和形狀估計。研究團隊從包含數十億張圖像的大型數據集開始,使用來自大規模多樣化照片集合的圖像、各種多攝像頭捕捉系統的高質量視頻以及專業構建的合成數據。然後使用可擴展的自動化數據引擎挖掘高價值圖像,選擇具有異常姿勢和罕見捕捉條件的圖像。團隊組建了約 800 萬張圖像的高質量訓練數據集,訓練模型對遮擋、罕見姿勢和多樣化服裝具有魯棒性。SAM 3D Body 在多個 3D 基準測試中的準確性和魯棒性實現了階躍式提升,表現超越了以往模型。
應用拓展至野生動物保護和海洋研究
SAM 3 已開始應用於科學研究領域。Meta 與 Conservation X Labs 和 Osa Conservation 合作,結合現場野生動物監測與 SAM 3 構建了一個開放的研究級原始視頻數據集。公開的 SA-FARI 數據集包含超過 1 萬個相機陷阱視頻,涵蓋 100 多個物種,每一幀中的每隻動物都標註了邊界框和分割掩碼。
FathomNet 是由蒙特雷灣水族館研究所(MBARI)領導的獨特研究合作項目,致力於推進海洋探索的 AI 工具。專為水下圖像定製的分割掩碼和新的實例分割基準現已通過 FathomNet 數據庫向海洋研究界開放。SA-FARI 和 FathomNet 可供更廣泛的 AI 社區使用,以開發創新的方法來發現、監測和保護陸地和海洋野生動物。
Meta 還與 Roboflow 合作,使用户能夠標註數據、微調並部署 SAM 3 以滿足特定需求。作為代碼發佈的一部分,Meta 分享了微調方法,供社區利用這些方法使 SAM 3 適應其用例。
儘管取得了顯著進展,SAM 3 在某些場景下仍存在侷限。該模型難以以零樣本方式泛化到細粒度的領域外概念,特別是需要專業領域知識的特定術語,如醫學或科學圖像中的"血小板"。應用於視頻時,SAM 3 以類似 SAM 2 的方式追蹤每個物體,這意味着推理成本隨被追蹤物體數量線性增長。每個物體單獨處理,僅利用共享的每幀嵌入,沒有物體間的通信。
