人形機器人和自動駕駛汽車等新一代 AI 機器人依賴于高保真、物理感知的訓練數據 。如果沒有多樣化且具有代表性的數據集,這些系統將無法獲得適當的訓練,并且由于泛化性差、對現實世界變化的影響有限以及邊緣案例中的行為不可預測,因此會面臨測試風險。收集大量真實數據集進行訓練成本高昂、耗時費力,而且往往受限于各種可能性。
NVIDIA Cosmos 通過加速 世界基礎模型 (WFM) 開發來應對這一挑戰。Cosmos WFM 是其平臺的核心,可加快合成數據的生成 ,并作為后訓練的基礎,以開發下游領域或特定任務的 物理 AI 模型 來解決這些挑戰。 本文將探討最新的 Cosmos WFM、其推進物理 AI 的關鍵功能,以及如何使用它們。
Cosmos Transfer 用于基于物理學的照片級真實感視頻
Cosmos Transfer WFM 根據結構化輸入生成高保真世界場景,確保精確的空間對齊和場景構成。
通過采用 ControlNet 架構,Cosmos Transfer 可保留預訓練知識,從而實現結構化、一致的輸出。它利用時空控制圖來動態對齊合成和真實世界的表示,從而實現對場景構圖、對象位置和運動動力學的精細控制。
輸入 :
- 結構化視覺或幾何數據:分割圖、深度圖、邊緣圖、人體運動關鍵點、LiDAR 掃描、軌跡、HD 地圖和 3D 邊界框。
- 真值標注:用于精確對齊的高保真引用。
輸出:具有受控布局、物體放置和運動的逼真視頻序列。


圖 1。左側是在 NVIDIA Omniverse 中創建的虛擬模擬或“真值”。右側是使用 Cosmos Transfer 實現的逼真轉換
主要功能:
- 生成與真實物理特性相符的可擴展、逼真的合成數據,例如使用 NVIDIA GPU 和 PyTorch 等技術。
- 通過結構化的多模態輸入控制對象交互和場景構圖。
使用 Cosmos Transfer 獲取可控的合成數據
借助生成式 AI API 和 SDK, NVIDIA Omniverse 可加速物理 AI 仿真 。開發者使用 基于 OpenUSD 構建的 NVIDIA Omniverse 創建 3D 場景,以準確模擬現實世界環境,從而 訓練和測試機器人和自動駕駛汽車 。這些模擬可作為 Cosmos Transfer 的真值視頻輸入,并與標注和文本指令相結合。Cosmos Transfer 可在改變環境、照明和視覺條件的同時增強逼真度,從而生成可擴展的多樣化世界狀態。
此工作流可加速高質量訓練數據集的創建,確保 AI 智能體從仿真有效推廣到實際部署。


Cosmos Transfer 通過在 用于合成操作運動生成的 Isaac GR00T Blueprint 和 用于自動駕駛汽車模擬的 Omniverse Blueprint 中實現逼真的照明、顏色和紋理來增強機器人開發,從而為訓練提供不同的環境和天氣條件。這種逼真的數據對于訓練后的策略模型至關重要,可確保將仿真平穩地遷移到現實,并支持感知 AI 和 GR00T N1 等專用機器人模型的模型訓練。
使用 Cosmos Transfer 運行推理
以下是使用 Cosmos-Transfer1-7B 模型進行推理的一些示例命令。
Cosmos Transfer 已根據 NVIDIA Open Model License 在 Hugging Face 上公開可用。生成 Hugging Face 訪問令牌,使用 CLI 登錄,接受 LlamaGuard-7b 條款,并按照 Cosmos-Transfer1 GitHub 說明操作。
以下命令可下載 Cosmos-Transfer1 的基礎模型、tokenizer 和 guardrail 模型:
PYTHONPATH = $(pwd) python scripts / download_checkpoints.py - - output_dir checkpoints / |
使用以下命令運行模型。您可以使用 JSON 文件自定義設置,單獨或組合啟用模糊、Canny、深度或分割 ControlNets 等功能。
export CUDA_VISIBLE_DEVICES = 0 PYTHONPATH = $(pwd) python cosmos_transfer1 / diffusion / inference / transfer.py \ - - checkpoint_dir checkpoints \ - - input_video_path path / to / input_video.mp4 \ - - video_save_name output_video \ - - sigma_max 70 \ - - controlnet_specs spec.json |
Cosmos WFM 可以后訓練為 VLA 策略模型,其中視頻輸出被機器人執行的動作輸出所取代。對于上下文,策略模型根據當前觀察結果和給定任務生成物理 AI 系統要執行的操作。經過良好訓練的 WFM 可以對世界的這種動態模式進行建模,并作為策略模型的良好初始化。
在 GitHub 上詳細了解 Cosmos Transfer 示例。
Cosmos Predict 生成未來世界狀態
Cosmos Predict WFM 旨在將未來世界狀態建模為來自多模態輸入 (包括文本、視頻和開始端幀序列) 的視頻。它使用基于 Transformer 的架構構建,可增強時間一致性和幀插值。
主要功能:
- 直接根據文本提示生成逼真的世界狀態。
- 通過預測缺失幀或擴展運動,根據視頻序列預測后續狀態。
- 在開始和結束圖像之間生成多幀,創建完整、流暢的序列。
Cosmos Predict WFM 為訓練機器人和自動駕駛汽車的下游世界模型奠定了堅實的基礎。您可以對這些模型進行 后期訓練 ,以生成用于策略建模的動作而不是視頻,也可以對其進行調整以實現視覺語言理解,從而創建自定義感知 AI 模型。
Cosmos 以智能方式進行感知、推理和響應的推理
Cosmos Reason 是一個完全可定制的多模態 AI 推理模型,專為理解運動、物體交互和時空關系而構建。該模型使用 chain-of-thought (CoT) 推理來解釋視覺輸入,根據給定的提示預測結果,并獎勵最佳決策。與基于文本的 LLM 不同,它為現實世界的物理推理奠定了基礎,以自然語言生成清晰的上下文感知響應。
輸入 :視頻觀察和基于文本的查詢或指令。
輸出:通過長視距 CoT 推理生成的文本響應。
主要功能:
- 了解物體如何隨時間移動、交互和變化。
- 根據輸入觀察結果預測并獎勵下一個最佳動作。
- 不斷完善決策制定。
- 專為后期訓練而構建,旨在構建感知 AI 和 具身 AI 模型。
訓練管線
Cosmos Reason 分為三個階段進行訓練,增強其在現實世界場景中推理、預測和響應決策的能力。
- 預訓練:使用視覺 Transformer(ViT)將視頻幀處理為結構化嵌入,并將其與文本對齊,以共享對物體、動作和空間關系的理解。
- 監督式微調 (SFT) :使模型在兩個關鍵級別上專門進行物理推理。常規微調可使用多樣化的視頻文本數據集增強語言基礎和多模態感知,而對物理 AI 數據進行更多訓練可提高模型推理現實世界交互的能力。它可以學習物體的行為,例如如何在現實世界中使用物體、動作序列、確定多步驟任務的展開方式,以及空間可行性,以區分現實和不可能的放置。

強化學習 (RL) :該模型會評估不同的推理路徑,并僅在通過試驗和獎勵反饋做出更好的決策時自我更新。它不依賴人工標記的數據,而是使用基于規則的獎勵:
- 實體識別:獎勵準確識別對象及其屬性的行為。
- 空間限制:懲罰物理上不可能進行的放置,同時強化逼真的物體定位。
- 時間推理:鼓勵根據因果關系進行正確的序列預測。
開始使用
Hugging Face 上提供了 Cosmos WFMs,并在 GitHub 上為 Cosmos-Predict1 和 Cosmos-Transfer1 提供了推理腳本。
在 build.nvidia.com 上試用 Cosmos Predict 預覽 NIM。
使用此 工作流指南 使用 Cosmos Transfer 生成合成數據。
探索免費的 NVIDIA GTC 2025 Cosmos 會議。敬請觀看我們即將于 3 月 26 日 (星期三) 上午 11:00 (PDT) 舉行的直播,了解有關最新平臺更新的更多信息。
?
?