未知環境中的無碰撞運動生成是機器人應用的核心構建塊。產生這樣的運動具有挑戰性。運動發生器必須足夠快以實現實時性能,并且足夠可靠以實現實際部署。
已經提出了許多解決這些挑戰的方法,從使用本地控制器到全球規劃者。然而,當環境未知且動態時,這些傳統的運動規劃解決方案無法克服缺點。它們還需要復雜的視覺處理程序,如 SLAM ,通過聚合來自多個視點的相機觀察來生成障礙物表示。當對象移動和環境改變時,這些表示最終需要昂貴的更新。
運動策略網絡( M π Nets ),發音為“ M Pi Nets ”,是 NVIDIA 機器人研究團隊開發的一種新的端到端神經策略。 M π Nets 通過使用來自單個靜態相機的連續數據流實時生成無碰撞、平滑的運動。該技術能夠克服傳統運動規劃的挑戰,并且足夠靈活,可以在未知環境中應用。
我們將于 12 月 18 日在新西蘭的 Conference on Robot Learning (CoRL) 2022 上展示這項工作。
大規模合成數據生成
為了訓練 M π Nets 神經策略,我們首先需要創建用于學習和基準測試的大規模數據集。我們轉向了綜合生成大量機器人軌跡和相機點云數據的模擬。
專家軌跡是使用運動規劃器生成的,該運動規劃器在考慮機器人的物理和幾何約束的同時,圍繞復雜障礙物創建一致的運動。它由 NVIDIA Omniverse 的 geometric fabrics 管道、 AIT *全局規劃器和基于樣條的時間重采樣組成。
M π網訓練了 300 多萬條專家軌跡,并在 50 萬個模擬環境中繪制了 7 億個點云。在大規模數據上訓練神經策略對于推廣到現實世界中的未知環境至關重要。

用于運動規劃的端到端體系結構
一種端到端的神經網絡策略, M π Nets 將攝像機點云觀測直接映射到機器人關節位置。該策略聯合編碼了三個輸入:場景的單視點云攝像機觀察、機器人的當前狀態配置以及用戶命令機器人實現的期望目標姿態。
它輸出關節位置以實現指定的目標姿勢,然后在機器人的低級控制器上執行。

輸入點云自動標記為三類:機器人、障礙物和機器人的指定目標姿態。目標姿勢表示為機器人抓取器的點云。
Sim2Real 傳輸到真實世界


M π Nets 很好地推廣到具有單個靜態深度相機的真實機器人系統。由于點云觀測(相對于 RGB 圖像)中的低域差距,該策略直接轉移到真實世界而不需要真實數據。
如圖 3 所示,它可以進入密閉空間,而不會與盤子和杯子等障礙物發生碰撞,這是人類空間中常見的場景。憑借其端到端的策略架構, M π Nets 還可以在以 9Hz 運行的閉環真實機器人系統中執行,并對動態場景立即做出反應,如圖 3 所示。
快速、全局并避免局部最優
M π Nets 解決方案的時間比最先進的基于采樣的規劃器短得多。盡管不需要沖突檢查器,但找到解決方案的可能性比 MPNets 高 46% 。 M π網不太可能陷入充滿挑戰的環境,例如密閉空間,因為它是從長期的全球規劃信息中學習的。

在圖 4 中, STORM 和幾何織物都被卡在第一個抽屜中,因為它們無法確定如何縮回并進入第二個抽屜。兩者都沒有達到最終的目標姿勢。
MπNets入門
當在模擬場景的大數據集上訓練時, M π Nets 比傳統的規劃器更快,比其他本地控制器更成功,即使在動態和部分觀察的場景中,也能很好地轉移到真實的機器人系統。
為了幫助您開始使用 M π網,我們的論文發表在 Arxiv 上,源代碼可在 Motion Policy Networks GitHub 上獲得。您還可以加載我們預先訓練的重量,并使用 ROS RViz 用戶界面進行游戲。
在 12 月 15 日 CoRL 期間的 Benchmarking workshop 上,在機器人基準測試的背景下了解更多關于神經運動規劃的信息。
?