自主機器開發是一個數據生成和收集、模型訓練和部署的迭代過程,其特點是跨異構計算資源的復雜的多階段、多容器工作流。
涉及多個團隊,每個團隊都需要共享和異構計算。此外,團隊希望將某些工作負載擴展到云中,這通常需要 DevOps 專業知識,同時在本地維護其他工作負載。
到目前為止,還沒有一個統一的平臺可供開發者輕松提交所需計算的工作負載。
在本周的 GTC 大會上,NVIDIA 宣布推出 OSMO,這是一個云原生工作流程編排平臺,它提供一個單一界面,用于跨異構共享計算環境調度和管理各種自主機器工作負載。這些工作負載包括:
- 合成數據生成 (SDG)
- DNN 訓練和驗證
- 強化學習
- SIL 或 HIL 中的機器人 (重新) 仿真
- 基于 SIM 或真實數據的感知評估
跨異構共享計算部署復雜的工作流程
借助 OSMO 統一計算資源調度,您可以輕松地在 Kubernetes 集群上部署和編排多階段工作負載。這包括共享的異構多節點計算資源,例如 aarch64 和 x86-64,可確保跨不同架構的靈活性和兼容性。
輕松設置基于 YAML 的多階段多節點任務,并簡化從 SDG 和訓練到模型驗證的端到端開發流程。OSMO 還可以集成到現有的 CI/CD 流程中,以動態調度任務,用于夜間回歸測試、基準測試和模型驗證。
該服務還使用 OIDC 等開放標準進行身份驗證,并通過一鍵鍵旋轉支持憑據和數據集安全的最佳實踐。在合規性方面,團隊可以管理和追蹤用于模型訓練的所有數據的沿襲,并在開發中進行版本控制。此功能對于可再現性也非常有價值。
編排本地和云 SDG 工作負載
合成數據生成尤其受益于分布式環境,因為它通常從本地開始生成較小批量的數據,但隨著需要生成大量數據,則需要進行云擴展。OSMO 使用彈性資源調配,在降低 SDG 等離線批量流程的成本方面發揮著關鍵作用,從而實現高效且經濟高效的大規模數據生成。
高效運行 SIL 和 HIL 測試
OSMO 支持的另一個重要工作負載是軟件在環 (SIL) 機器人測試,該測試涉及多傳感器和多機器人場景或一套測試場景的模擬。這些場景最適合易于訪問計算資源的云環境。OSMO 能夠跨分布式環境調度和管理工作負載,可確保利用云資源的可擴展性和可訪問性高效執行 SIL 測試。
另一方面,由于特定機器人或機器硬件的可用性,硬件在環 (HIL) 測試需要本地部署。
異構計算對于 HIL 測試也是必要的,因為仿真和調試等工作負載需要 x86,并且在 aarch64 上運行正在測試的軟件,從而提供其他方式無法提供的準確性能和硬件功能。直接在目標硬件上運行 HIL 還可以減少對昂貴的模擬器的需求。
同時生成和訓練基礎模型
OSMO 支持 GR00T 基礎模型,該模型需要在 NVIDIA DGX 上進行模型訓練,同時在 OVX 上進行實時強化學習。此工作負載包括在一個循環中以迭代方式生成和訓練模型。
OSMO 可以跨分布式環境管理和調度工作負載,從而實現 DGX 和 OVX 系統的無縫協調,從而實現高效的迭代模型開發。

跟蹤數據沿襲
數據沿襲和管理對于模型審計和確保整個開發過程的可跟蹤性至關重要。借助 OSMO,您可以跟蹤從來源到經過訓練的模型的數據沿襲,從而提供透明性和可靠性。
借助 OSMO,可以輕松管理大型數據集和創建集合,從而實現高效的數據組織和分類。這包括管理真實數據、合成數據或混合數據集合的能力,從而為用于模型訓練和評估的數據集提供靈活性和控制力。
申請搶先體驗
目前,NVIDIA OSMO 正處于搶先體驗階段。立即申請,開始加速您的自主機器開發工作負載。
?