• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 生成式人工智能/大語言模型

    NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步

    隨著機器人和 自動駕駛汽車 的發展,加速 物理 AI 的發展變得至關重要,而物理 AI 使自主機器能夠感知、理解并在現實世界中執行復雜的操作。這些系統的核心是 世界基礎模型 (WFMs),即通過物理感知視頻模擬物理狀態的 AI 模型,使機器能夠做出準確決策并與周圍環境無縫交互。

    NVIDIA Cosmos 平臺可幫助開發者大規模為物理 AI 系統構建自定義世界模型。它為從數據管護、訓練到定制的每個開發階段提供開放世界基礎模型和工具。

    視頻 1、NVIDIA Cosmos:適用于物理 AI 的世界基礎模型平臺

    本文將介紹 Cosmos 及其加速物理 AI 開發的主要功能。Cosmos 是一種開源的 Python 庫,用于加速物理 AI 開發。

    借助 NVIDIA Cosmos 加速世界模型開發

    構建物理 AI 極具挑戰性,需要精確的模擬以及真實世界的行為理解和預測。克服這些挑戰的一個關鍵工具是世界模型,該模型根據過去的觀察結果和當前的輸入結果預測未來的環境狀態。這些模型對于物理 AI 構建者來說非常重要,使他們能夠在受控環境中模擬、訓練和優化系統。

    然而,開發有效的世界模型需要大量數據、計算能力和真實世界的測試,這可能會帶來重大的安全風險、物流障礙和高昂的成本。為了應對這些挑戰,開發者通常會使用通過 3D 仿真生成的 合成數據 來訓練模型。雖然合成數據是一種功能強大的工具,但創建合成數據需要大量資源,可能無法準確反映現實世界的物理特性,在復雜或邊緣情況下尤其如此。

    端到端 NVIDIA Cosmos 平臺 可加速物理 AI 系統的世界模型開發。Cosmos 基于 CUDA 構建,結合了先進的世界基礎模型、視頻標記器和 AI 加速的數據處理流程。

    開發者可以通過微調 Cosmos 世界基礎模型或從頭開始構建新模型來加速世界模型的開發。除了 Cosmos 世界基礎模型之外,該平臺還包括:

    Diagram showing NVIDIA Cosmos platform that includes Cosmos world foundation models, NeMo Curator, Cosmos tokenizers and NeMo Framework.
    圖 1、NVIDIA Cosmos 是一個世界性的基礎模型開發平臺,包含生成式模型、數據管護器、標記器和框架,可加速物理 AI 開發

    適用于物理 AI 的 預訓練世界基礎模型

    Cosmos 世界基礎模型是預訓練的大型生成式 AI 模型,使用 9000 萬億個令牌進行訓練,其中包括來自 自動駕駛 機器人 開發、合成環境和其他相關領域的 2000 萬個小時的數據。這些模型可創建有關環境和交互的逼真合成視頻,為訓練復雜系統 (從模擬執行高級動作的類 人型機器人 到開發端到端自動駕駛模型) 提供可擴展的基礎。

    這些模型使用兩種架構:自回歸和擴散。這兩種方法都使用 Transformer 架構,因為其可擴展性和有效性可用于處理復雜的時間依賴項。

    自回歸模型

    Cosmos 自回歸模型專為視頻生成而設計,可根據輸入文本和過去的視頻幀預測下一個令牌。它使用 Transformer 解碼器架構,并針對世界模型開發進行了關鍵修改。

    • 3D RoPE (Rotary Position Embeddings) 可分別對空間和時間維度進行編碼,確保精確的視頻序列表示。
    • 交叉注意力層支持文本輸入,從而更好地控制世界生成。
    • QK 標準化可增強訓練穩定性。

    此模型的預訓練是漸進式的,首先從單個輸入幀預測多達 17 幀的未來幀,然后擴展到 34 幀,最終達到 121 幀 (或 50,000 個 tokens)。引入文本輸入以將描述與視頻幀相結合,并使用高質量數據對模型進行微調,以實現強大的性能。這種結構化方法使模型能夠生成長度和復雜性各不相同的視頻,無論是否輸入文本。

    Autoregressive model architecture including text embedding, discrete tokenizer, and cross-attention layers.
    圖 2、Cosmos 自回歸模型使用 Transformer 解碼器架構,并對世界模型開發進行了關鍵修改

    擴散模型

    Diffusion 模型在生成圖像、視頻和音頻方面很受歡迎,因為它們能夠解構訓練數據并根據用戶輸入進行重建,從而生成高質量、逼真的輸出。

    擴散模型分為兩個階段:

    1. 前向擴散過程: 通過在多個步驟中添加高斯噪聲,有效地將其轉換為純噪聲,訓練數據會逐漸損壞。
    2. 反向擴散過程: 模型會逐步學習反向噪聲,通過對損壞的輸入降噪來恢復原始數據,例如使用 Stable Diffusion 模型。

    經過訓練后,擴散模型通過對隨機高斯噪聲進行采樣并將其傳遞給學習的降噪過程來生成新數據。此外,Cosmos 擴散模型還獲得了一些專為物理 AI 開發打造的關鍵更新。

    • 3D Patchification 將視頻處理為更小的分塊,從而簡化時空序列表示。
    • 混合位置嵌入可處理空間和時間維度,支持具有不同分辨率和幀率的視頻。
    • 交叉注意力層整合文本輸入,從而更好地控制基于描述生成的視頻。
    • 采用 LoRA 的自適應層歸一化可將模型大小減少 36%,從而以更少的資源保持高性能。
    Diffusion model architecture including text input, visual input, and time embeddings into transformer based architecture, resulting in video output.
    圖 3、Cosmos 擴散模型架構將先進的視頻壓縮、靈活的位置編碼和文本集成相結合,可生成具有物理感知的高質量視頻

    滿足不同需求的模型大小

    開發者可以從以下三種模型大小中進行選擇,以滿足性能、質量和部署需求。

    • Nano: 針對實時、低延遲推理和邊緣部署進行優化。
    • Super: 設計為高性能基準模型。
    • Ultra:專注于最大化質量和保真度,適合提取自定義模型。

    優點和局限性

    Cosmos 世界基礎模型生成低分辨率、真實世界準確的合成視頻數據,這對于訓練 機器人 和自動駕駛汽車系統至關重要。雖然它們缺乏藝術天賦,但其輸出結果密切復制了物理世界,因此非常適合在物理 AI 模型訓練中實現精確的物體持久性和逼真的場景。

    用于安全使用 Cosmos World 基礎模型的護欄

    AI 模型需要護欄來確保可靠性,具體方法包括減少幻影、防止有害輸出、保護隱私,以及符合 AI 標準以實現安全可控的部署。Cosmos 通過可定制的雙階段護欄系統確保其 World Foundation 模型的安全使用,該系統符合 NVIDIA 對值得信賴的 AI 的承諾。

    Cosmos Guardrails 分為兩個階段:Pre-guard 和 Post-guard。

    預防護

    此階段涉及基于文本提示的安全措施,使用兩層:

    • 關鍵字屏蔽:屏蔽列表檢查器會掃描不安全關鍵字的提示,使用引言化來檢測變異,并阻止非英語術語或拼寫錯誤。
    • Aegis Guardrail: 經過 NVIDIA 微調的 Aegis AI 內容安全模型可以檢測并阻止語義上不安全的提示,包括暴力、騷擾和冒犯等類別。不安全提示停止視頻生成并返回錯誤消息。

    護衛隊隊員

    Post-guard Stage 通過以下方式確保生成視頻的安全性:

    • 視頻內容安全分類器: 多類別分類器評估每個視頻幀的安全性。如果任何幀被標記為不安全,則整個視頻將被拒絕。
    • 面部模糊濾鏡: 使用 RetinaFace 模型對生成的視頻中的所有人臉進行模糊處理,以保護隱私并減少基于年齡、性別或種族的偏見。

    NVIDIA 專家使用對抗示例進行嚴格測試,標注超過 10,000 個提示視頻對,以優化系統并解決邊緣案例。

    評估 Cosmos 世界基礎模型,以實現 3D 一致性和物理對齊

    Cosmos 基準測試在評估世界基礎模型為物理 AI 應用準確高效地模擬真實物理的能力方面發揮著至關重要的作用。雖然公開可用的視頻生成基準測試側重于保真度、時間一致性和生成視頻的速度,但 Cosmos 基準測試增加了新的維度來評估通用模型:3D 一致性和物理對齊,確保根據物理 AI 系統所需的準確性評估視頻。

    3D 一致性

    Cosmos 模型在 開放數據集 中的 500 個精選視頻子集中進行了靜態場景的 3D 一致性測試。生成描述視頻的文本提示是為了避免與動作相關的復雜性。并與基準生成模型 VideoLDM 進行了比較。

    所用指標

    • 幾何一致性:使用 Sampson 誤差和攝像頭姿態估計成功率等指標通過外極性幾何約束條件進行評估。
    • 查看合成一致性: 通過峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)、結構相似性指數 (Structural Similarity Index, SSIM) 和學習感知圖像塊相似性 (Learned Perceptual Image Patch Similarity, LPIPS) 等指標進行評估。這些指標用于測量從插入的攝像頭位置合成視圖的質量。

    更低的 Sampson 誤差和更高的成功率表明 3D 對齊效果更好。同樣,較高的 PSNR 和 SSIM 以及較低的 LPIPS 都表示質量有所提高。

    模型 Sampson 錯誤* 姿態估計成功率 (%)* PSNR* SSIM LPIPS
    VideoLDM 0.841 4.40% 26.23 0.783 0.135
    Cosmos 1.0 Diffusion Text2World 7B 0.355 62.60% 33.02 0.939 0.070
    Cosmos 1.0 Diffusion Video2World 7B 0.473 68.40% 30.66 0.929 0.085
    Cosmos 1.0 Autoregressive 4B 0.433 35.60% 32.56 0.933 0.090
    Cosmos 1.0 Autoregressive Video2World 5B 0.392 27.00% 32.18 0.931 0.090
    真實視頻 (參考) 0.431 56.40% 35.38 0.962 0.054
    表 1、評估 Cosmos 世界基礎模型與基礎 VideoLDM 模型的 3D 一致性

    成果

    Cosmos 世界基礎模型在 3D 一致性方面的表現優于基準 (表 1),具有更高的幾何對齊和攝像頭姿態成功率。其合成視圖與真實世界的質量相匹配,證實了其作為世界模擬器的有效性。

    物理對齊

    物理對齊測試 Cosmos 模型在模擬真實物理 (包括運動、重力和能量動力學) 時的效果。借助 NVIDIA PhysX NVIDIA Isaac Sim ,設計出八個受控場景,用于評估虛擬環境中的重力、碰撞、扭矩和慣性等屬性。

    所用指標

    • 像素級指標 :峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)可測量模型輸出的像素值與參考視頻的匹配程度。值越高表示噪點越小,準確性越高。結構相似性指數指標(Structural Similarity Index Measure,SSIM)用于評估生成的幀與真實幀之間在結構、亮度和對比度方面的相似性。較高的 SSIM 值反映了更高的視覺保真度。
    • 特征級別指標 :DreamSim 測量從兩個視頻中提取的高級特征之間的相似性。這種方法評估生成內容的語義一致性,重點關注物體和運動,而不是單個像素。
    • 目標級別指標: 交集并集比 (Intersection-over-Union,IoU) 用于計算視頻中預測的目標區域與實際目標區域之間的重疊。這對于在整個模擬過程中追蹤特定物體特別有用,可確保其行為符合物理預期。

    PSNR、SSIM、DreamSim 和 IoU 越高,表示物理對齊越好。

    模型 調節 PSNR* SSIM DreamSim? 平均值。IoU*
    Cosmos 1.0 Diffusion Video2World 7B 提示符 = 1 幀 17.34 0.54 0.84 0.332
    Cosmos 1.0 Diffusion Video2World 7B 提示符 = 9 幀 21.06 0.69 0.86 0.592
    Cosmos 1.0 Diffusion Video2World 14B 提示符 = 1 幀 16.81 0.52 0.84 0.338
    Cosmos 1.0 Diffusion Video2World 14B 提示符 = 9 幀 20.21 0.64 0.86 0.598
    Cosmos 1.0 Autoregressive 4B 1 幀 17.91 0.49 0.83 0.394
    Cosmos 1.0 Autoregressive 4B 9 幀 18.13 0.48 0.86 0.481
    Cosmos 1.0 Autoregressive Video2World 5B 提示符 = 1 幀 17.67 0.48 0.82 0.376
    Cosmos 1.0 Autoregressive Video2World 5B 提示符 = 9 幀 18.29 0.48 0.86 0.481
    Cosmos 1.0 Autoregressive Video2World 12B 1 幀 17.94 0.49 0.83 0.395
    Cosmos 1.0 Autoregressive Video2World 12B 9 幀 18.22 0.49 0.87 0.487
    Cosmos 1.0 Autoregressive Video2World 13B 提示符 = 1 幀 18 0.49 0.83 0.397
    Cosmos 1.0 Autoregressive Video2World 13B 提示符 = 9 幀 18.26 0.48 0.87 0.482
    表 2、物理對齊結果,計算指標超過 33 幀 (Cosmos 世界基礎模型的自回歸變體支持的最大長度)

    成果

    Cosmos 世界基礎模型非常遵守物理定律 (表 2),尤其是在條件數據增加的情況下。與基線模型相比,在攝像頭調節數據集上進行后訓練后,姿態估計的成功率提高了兩倍。然而,物體無常 (物體意外消失或出現) 和難以置信的行為 (如違反重力) 等挑戰凸顯了需要改進的領域。

    使用 Cosmos 和 NVIDIA Omniverse 定制物理 AI 應用

    1. 視頻搜索和理解: 通過了解空間和時間模式來簡化視頻標記和搜索,從而更輕松地準備訓練數據
    2. 可控的 3D 到真實合成數據生成: 借助 NVIDIA Omniverse ,開發者可以創建 3D 場景,并使用 Cosmos 生成逼真的視頻,這些視頻由 3D 場景精確控制,用于高度定制的合成數據集。
    3. 策略模型開發和評估: World foundation models 針對動作條件視頻預測進行了微調,可實現策略模型的可擴展、可再現評估 (將狀態映射到動作的策略),從而減少對障礙物導航或對象操作等任務進行風險真實測試或復雜模擬的依賴。
    4. 行動選擇前瞻: Cosmos 為物理 AI 模型配備預測功能,以評估潛在行動的結果。
    5. Multiverse 模擬: 借助 Cosmos 和 NVIDIA Omniverse,開發者可以模擬多種未來結果,幫助 AI 模型評估和選擇實現目標的最佳策略,從而使預測性維護和自主決策等應用受益。

    從通用模型到定制的專業模型

    Cosmos 為世界模型訓練引入了一種分為兩個階段的方法。

    多面手模型:Cosmos 世界基礎模型以多面手的身份構建,基于涵蓋各種真實物理和環境的大量數據集進行訓練。這些開放模型能夠處理從自然動力學到機器人交互的各種場景,為任何物理 AI 任務提供堅實的基礎。

    專業模型:開發者可以使用更小的定向數據集微調通用模型,為特定應用(如自動駕駛或人形機器人)打造量身定制的專家模型,也可以生成定制的合成場景,如夜間場景中的緊急車輛或高保真工業機器人環境。與從頭開始訓練模型相比,這種微調過程可顯著減少所需的數據和訓練時間。

    Cosmos 通過高效的視頻處理流程、高性能的 tokenizer 和高級訓練框架加速訓練和微調,使開發者能夠滿足運營需求和邊緣案例,推動物理 AI 的發展。

    借助 NVIDIA NeMo Curator 加速數據處理

    訓練模型需要精心挑選的高質量數據,而且需要耗費大量時間和資源。NVIDIA Cosmos 包含由 NVIDIA NeMo Curator 提供支持并針對 NVIDIA 數據中心 GPU 進行優化的數據處理和管護流程。

    借助 NVIDIA NeMo Curator,機器人和自動駕駛(AV)開發者能夠高效處理龐大的數據集。例如,20 million 小時的視頻可以在 40 天內在 NVIDIA Hopper GPU 上處理完畢,或僅在 14 天內在 NVIDIA Blackwell GPU 上處理完畢——相比之下,未經優化的 CPU 流水線需要 3.4 年。

    主要優勢包括:

    • PyTorch、pandas、LangChain、Megatron、NVIDIA、cuOpt、Stable Diffusion、Llama、Jetson、Google、Python、Hugging Face、Arm、Anaconda、Siemens、DPU、GPU 和 Github 等技術的 89 倍管護速度:顯著縮短處理時間
    • 可擴展性: 無縫處理 100 多個 PB 的數據
    • 高吞吐量:高級過濾、字幕和嵌入可在不犧牲速度的情況下確保質量
    Graph showing performance compared with ISO power consumption on 2,000 Sapphire Rapids CPUs and 128 DGX nodes?.
    圖 4、Cosmos 包含 NeMo Curator,可將視頻數據處理速度提高 89 倍

    使用 Cosmos Tokenizer 實現高保真壓縮和重建

    整理數據后,必須對其進行標記化以進行訓練。標記化將復雜的數據分解為可管理的單元,使模型能夠更高效地處理數據并從中學習。

    Cosmos 標記器可簡化此過程,加快壓縮和視覺重建速度,同時保持質量,降低成本和復雜性。對于自回歸模型,離散分詞器可將數據壓縮為時間的 8 倍,在空間中壓縮為 16 × 16,一次最多處理 49 幀。對于擴散模型,連續分詞器可實現 8 倍的時間和 8 × 8 的空間壓縮,最多可處理 121 幀。

    使用 NVIDIA NeMo 進行微調

    開發者可以使用 NVIDIA NeMo 框架微調 Cosmos 世界基礎模型。NeMo 框架可以在 GPU 驅動的系統上加速模型訓練,無論是增強現有模型還是構建新模型,從本地數據中心到云端。

    NeMo 框架通過以下方式高效加載多模態數據:

    • 將 TB 大小的數據集分片到壓縮文件中,以減少 IO 開銷。
    • 決定性地保存和加載數據集,以避免重復并盡可能減少計算浪費。
    • 在使用優化的通信交換數據時降低網絡帶寬。

    開始使用 NVIDIA Cosmos

    Cosmos World Foundation 模型現已開放,可在 NGC Hugging Face 上獲取。開發者還可以在 NVIDIA API Catalog 上運行 Cosmos World Foundation 模型。API Catalog 上還提供了用于增強文本提示以提高準確性的 Cosmos 工具、支持未來輕松識別 AI 生成序列的內置水印系統,以及用于解碼視頻序列以用于增強現實應用的專用模型。如需了解詳情,請觀看演示。

    NeMo Curator for accelerated data processing pipelines is available as a managed service and SDK. Developers can now apply for early access . Cosmos tokenizers are open neural networks available on GitHub and Hugging Face .

    開始使用 NVIDIA Cosmos

    ?

    +3

    標簽

    人人超碰97caoporen国产