R2D2：利用 NVIDIA Research 的新型工作流和AI基礎模型提升機器人移動能力和全身控制

歡迎閱讀第一版 NVIDIA 機器人研發摘要 (R²D²) 。此技術博客系列將為開發者和研究人員提供更深入的見解，并讓他們了解各種 NVIDIA 研究實驗室的物理 AI 和機器人研究新突破。

開發強大的機器人存在重大挑戰，例如：

數據稀缺 ：為 AI 模型生成多樣化的真實訓練數據。
適應性 ：確保解決方案在各種機器人類型和環境中推廣，并適應動態、不可預測的設置。
集成：有效結合移動性、操控、控制和推理。

我們通過在平臺上驗證的先進研究來應對這些挑戰。我們的方法將尖端研究與工程工作流相結合，并在 NVIDIA Omniverse 、 Cosmos 、 Isaac Sim 和 Isaac Lab 等 AI 和機器人平臺上進行了測試。生成的模型、策略和數據集可作為研究和開發者社區的可定制參考，以適應特定的機器人開發需求。我們期待分享我們的發現，共同創造機器人的未來。

在此版本的 R2D2 中，您將了解以下機器人移動性和全身控制工作流程和模型，以及它們如何解決關鍵的機器人導航、移動性和控制挑戰：

MobilityGen ：基于仿真的工作流，使用 Isaac Sim 快速生成大型合成運動數據集，用于為不同實施和環境中的機器人構建模型，并測試機器人在新環境中的導航能力，與現實世界的數據收集相比，減少了成本和時間。
COMPASS (Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis)：用于開發交叉嵌入移動策略的工作流，可促進使用 Isaac Lab 進行微調，以及零樣本仿真到現實部署。
HOVER (Humanoid Versatile Controller) ：Isaac Lab 中用于人形機器人各種控制模式的工作流和統一的全身控制多面手策略。
ReMEmbR (一種適用于具身機器人的檢索增強內存) ：一種支持機器人使用 LLMs、VLMs 和 RAG (檢索增強生成) 進行推理并采取移動行動的工作流。

NVIDIA 機器人移動工作流和 AI 模型

像人形機器人、四足動物和自主移動機器人（AMRs）這樣的移動機器人越來越多地應用于各種環境，因此需要強大的導航系統，以便在地圖和未知環境中安全運行，同時避免障礙物并減少停機時間。當前的導航軟件難以滿足適應性要求，因為不同類型的機器人（例如 AMRs 與人形機器人）之間的算法差異很大，并且需要針對環境變化進行大量微調，從而增加工程復雜性，并阻礙可擴展性。

視頻 1。NVIDIA 機器人移動工作流和 AI 模型

NVIDIA Research 通過開發 AI 驅動的端到端基礎模型、高效的數據生成流程和訓練工作流 (支持零樣本部署) 來應對這些挑戰，使機器人能夠在雜亂的空間中導航，而無需依賴昂貴的傳感器。

High-level diagram showing major steps in the mobility workflow. The first step is data generation in simulation, the second step is training and fine-tuning models on the generated data and the third step is testing and deploying the model on the real robot. — *圖 1。移動工作流包括三個主要步驟，即數據生成、基于生成數據訓練和微調模型，以及在真正的機器人上零樣本部署之前測試模型。*

用于數據生成的 MobilityGen

MobilityGen 是一個使用 NVIDIA Isaac Sim 輕松為移動機器人 (包括人形機器人、四足機器人和輪式機器人) 生成合成運動數據的工作流。您可以使用這些數據來訓練和測試機器人移動模型以及感知算法 —— 解決訓練機器人時的數據稀缺問題。

MobilityGen 使用戶能夠通過以下方式為數據集添加多樣性：

添加動態對象
添加機器人動作數據
結合人類演示
增強數據（例如光照條件）

MobilityGen 以占用地圖、姿態信息、速度信息、RGB、深度和分割圖像以及可定制的動作和渲染數據的形式提供真值數據。它支持鍵盤或游戲手柄遠程操作等數據采集方法，以及自動隨機操作或可定制的路線規劃。

通過解決數據稀缺問題，MobilityGen 增強了集成機器人堆棧的感知能力和移動性基礎。如需詳細了解 MobilityGen，以及如何使用遠程操作為 Unitree H1 人形機器人生成運動和導航數據集，請訪問 Deep Learning Institute (DLI) 的免費自學課程。

High-level steps included in synthetic data generation for robot mobility. — 圖 2。機器人移動性的合成數據生成包括四個主要步驟：在仿真中構建或導入環境、導入機器人模型、在仿真中移動機器人并記錄軌跡，最后渲染數據以用于訓練和測試。

視頻2。MobilityGen 用戶使用 Isaac Sim 生成合成數據

適用于跨實施移動性策略的 COMPASS

COMPASS 是一個用于開發跨實施移動性策略的工作流。它提供了一個通用的端到端移動工作流程和模型，可跨多個機器人實施實現零樣本仿真到現實的部署。這旨在解決機器人專家開發和測試周期緩慢造成的擴展問題。

COMPASS 將基于視覺的端到端模仿學習 (IL) 與 X-Mobility 殘差強化學習 (RL) 以及策略蒸餾方法，以跨不同的機器人平臺進行擴展。雖然基于 IL 的 X-Mobility 策略是在使用 MobilityGen 生成的數據的特定實施上進行預訓練的，但 COMPASS 的通用策略可以將不同實施的成功率提高 5 倍。這使得不同的機器人能夠使用統一策略在復雜環境中高效導航。它還為用戶提供了針對特定實施和環境微調策略的靈活性和便利性。

Image of the components in COMPASS showing three blocks for imitation learning, residual RL and cross-embodiment distillation — *圖 3。COMPASS 工作流*

該工作流的第一階段使用基于 IL 的方法進行世界建模，以訓練環境狀態和動作的移動性“常識”表征。此類“常識”的一些示例包括世界動態理解、障礙物檢測和避障、路徑規劃和環境意識。

第二階段使用殘差 RL 逐步優化 IL 策略，從第一步到具體化特定的專家。第三階段使用來自每個專家的數據，并使用策略蒸餾將這些數據合并到一個交叉實施模型中。通過這種方式，每位專家的專業知識都融入到最終蒸餾策略中，從而提高不同平臺的適應性。

COMPASS 實現了零樣本多機器人交互，展示了機器人在不同環境中的功能。它還可用于連接 loco-manipulation 控制器，以執行 loco-manipulation 相關的任務。

視頻 3。使用 COMPASS 策略的人形機器人

COMPASS 通過解決跨實施的通用性問題，增強了集成式機器人堆棧的移動性基礎。

用于人形機器人全身控制的 HOVER

到目前為止，我們已經了解了使機器人能夠從一個點移動到目標位置的移動策略。這還不足以實現穩健的運動，此外，我們還需要實現平衡和全身控制，以實現安全、流暢的運動。 HOVER 旨在為此提供參考工作流程。

傳統上，人形機器人需要不同的控制模式來執行各種任務，例如用于導航的速度追蹤和用于桌面操作的上半身關節追蹤。HOVER 是一個在 Isaac Lab 中訓練的工作流，它將所有這些控制模式整合到一個統一的人形機器人策略中。其他控制器也可用于代替 HOVER，用于具有其他工作流的機器人，如本博客中所述。

通過將復雜的人形機器人的幾個運動部件集成到統一的神經全身控制器中，HOVER 增強了集成機器人堆棧的控制基礎。HOVER (Humanoid Versatile Controller) 是一個多模式策略蒸餾框架，可將不同的控制模式統一到單個策略中，實現它們之間的無縫過渡。一個 oracle 策略經過訓練，可使用 RL 模擬人類運動數據，然后使用策略蒸餾流程將技能從 oracle 策略轉移到通用策略。

HOVER 代碼還包括一個在 Unitree H1 機器人上使用的工作部署代碼示例。它使用戶能夠使用機器人來復制下圖中展示的運動和穩定性。

video of HOVER policy is trained in Isaac Lab, tested in MuJoCo and deployed to a real robot — 圖 4。HOVER 策略在 Isaac Lab 中進行訓練，在 MuJoCo 中進行測試并部署到真正的機器人上； (左) 使用 MuJoCo 在仿真中進行測試， (右) 部署到真正的機器人上。

A humanoid robot balances while executing some arm motions. — *圖 5。HOVER 策略執行 arm 運動，同時保持平衡。*

用于機器人推理的 ReMEmbR

到目前為止，我們探索的工作流程涉及人形機器人的數據集創建、移動策略和全身控制。為了通過對話式智能實現完全的自主移動，我們需要整合機器人推理和認知。機器人如何記住它在環境中看到的東西，并根據用戶輸入采取相應行動？

ReMEmbR 是一個結合了 LLM、VLM 和 RAG (檢索增強生成) 的工作流，使機器人能夠使用長時間的內存操作進行推理、回答問題并在大片區域中執行導航操作。這可用作“內存” 具身機器人有助于基于感知的問答和語義行動。

High-level diagram of the ReMEmbR workflow. There is a Memory Building Phase that takes a video and prompt and stores the embeddings in a database. The second phase is the Querying Phase, that takes a user’s question and uses relevant information from the database to generate an answer in natural language. — *圖 6。ReMEmbR 工作流程*

ReMEmbR 可用于為我們在本博客中了解到的其他工作流提供輸入，并將所有這些工作流匯集在一起，幫助解決機器人移動性的復雜性。我們還發布了用于評估的 NaVQA 數據集（Navigation Visual Question Answering），其中包含包含空間、時間和描述性問題的示例，輸出類型多種多樣。

A high-level diagram showing how the following four workflows fit together - MobilityGen, ReMEmbR, COMPASS, and HOVER. MobilityGen is used to generate training data in Isaac Sim. ReMEmbR provides the ‘robot memory’ and long horizon reasoning . The data from MobilityGen is used to train the COMPASS policy in Isaac Lab. Once you have a trained policy, you can use a controller like HOVER for smooth robot movement. — *圖 7。MobilityGen、ReMEmbR、COMPASS 和 HOVER 這四個工作流程相互契合。*

通過利用 LLMs 和 VLMs 的強大功能來處理推理，ReMEmbR 增強了基于 AI 的集成式機器人堆棧的推理能力和適應性。

采用生態系統

人形機器人、倉庫自動化和自主系統領域的領先組織正在采用 NVIDIA 的研究工作流程來加速開發，并在可擴展性和適應性方面取得突破。

UCR (Under Control Robotics) 集成了 X-Mobility，可引導機器人 Moby 無縫到達目的地。事實證明，這種模塊化系統適用于數據采集、物料處理和高風險操作自動化等工業任務。
Advantech 與 ADATA 和 Ubitus 合作采用了 ReMEmbR，使其機器人能夠根據擴展的觀察結果進行推理和行動。

入門指南

準備好深入了解了嗎？探索以下其他資源：

MobilityGen: GitHub 和 DLI Tutorial
COMPASS：項目網站、論文和 GitHub
X-Mobility: 項目網站，論文? 和 GitHub
HOVER：項目網站、論文和 GitHub
ReMEmbR 和 NaVQA 數據集：項目網站、論文、 GitHub 和博客

本文是 NVIDIA 機器人研發摘要 (R2D2) 的一部分，旨在讓開發者更深入地了解 NVIDIA 研究在物理 AI 和機器人應用方面的新突破。

如需了解有關 NVIDIA 研究的更多信息，請訂閱時事通訊并在 YouTube 、 Discord 和開發者論壇上關注 NVIDIA Robotics，隨時了解最新信息。要開啟您的機器人開發之旅，請立即注冊我們的免費 NVIDIA Robotics Fundamentals 課程今天。

致謝

感謝 Abrar Anwar、Joydeep Biswas、Yan Chang、Jim Fan、Pulkit Goyal、Lionel Gulich、Tairan He、Rushane Hua、Neel Jawale、Zhenyu Jiang、Jan Kautz、H. Hawkeye King、Chenran Li、Michael Lin、Toru Lin、Changliu Liu、Wei Liu、Zhengyi Luo、Billy Okal、Stephan Pleines、Soha Pouya、Guanya Shi、Shri Sundaram、Peter Varvak、Xiaolong Wang、John Welsh、Wenli Xiao、Zhenjia Xu、Huihua Zhao 和 Yuke Zhu 為本博客中提到的研究論文做出的貢獻。

R2D2：利用 NVIDIA Research 的新型工作流和AI基礎模型提升機器人移動能力和全身控制