跨多種幾何形狀訓練機器人裝配技能從模擬到現實遷移

家庭和工業環境中的大多數物體都由多個必須組裝的部件組成。雖然人類工人通常會進行裝配，但在某些行業（如汽車行業）中，機器人裝配非常普遍。

大多數這些機器人旨在執行高度重復性的任務，在精心設計的設置中處理特定部件。在高混雜度、低批量制造（即生產各種產品的小批量過程）中，機器人還必須適應多樣化的部件、姿勢和環境。同時保持高精度和準確性，并實現這種適應能力是機器人領域面臨的一項重大挑戰。

得益于 NVIDIA 最近在對具有豐富接觸性的交互進行比實時更快的模擬方面取得的進展，現在機器人裝配任務（例如插入）的模擬已經成為可能，詳情請參閱使用 NVIDIA Isaac 通過新型模擬方法推進機器人裝配。這使得使用數據密集型學習算法來訓練模擬的機器人代理成為可能。

機器人裝配的 Sim 到 Real Transfer 的后續工作提出了使用強化學習（RL）在模擬中解決少量裝配任務的算法，以及在現實世界中成功部署所學到的技能的方法。有關詳細信息，請參閱《將工業機器人裝配任務從模擬轉移到現實》。

本文介紹了 AutoMate，這是一種新型框架，用于訓練專家和多面手策略，以便使用機械臂組裝幾何上不同的部件。它演示了訓練策略的零樣本模擬到真實轉換，即在模擬中學習的組裝技能可以直接應用于真實環境，而無需進行額外的調整。

什么是 AutoMate？

AutoMate 是首款基于仿真的框架，可用于學習各種組件的專家（特定部件）和通用（統一）裝配技能。它也是首個展示在此類范圍內從零開始仿真到真實轉換的系統。這項工作是南加州大學和 NVIDIA 西雅圖機器人實驗室之間的密切合作。

具體來說，AutoMate 的主要貢獻在于：

包含 100 個 assembly 和即用型模擬環境的數據集。
一種新的算法組合，可以在模擬中有效地訓練模擬機器人，以解決各種裝配任務。
有效合成學習方法，將多種專業組裝技能中的知識提煉為一種常規組裝技能，并借助強化學習（RL）進一步提高常規組裝技能的性能。
一個真實的系統，可以在感知初始化的工作流程中部署經過模擬訓練的裝配技能。

Two rows of .gifs showing robotic assembly in simulation. — *圖 1. 在仿真中部署 AutoMate 裝配技能*

Two rows of .gifs showing robotic assembly in reality. — *圖 2. 實際中 AutoMate 裝配技能的部署*

數據集和模擬環境

AutoMate 提供了一個由 100 個組件組成的數據集，這些組件與仿真兼容，可以在現實世界中進行 3D 打印。同時，AutoMate 還為所有 100 個組件提供了并行仿真環境。這些 100 個組件基于 Autodesk 的大型組件數據集。在這項工作中，術語 plug 是指必須插入的部件 (圖 3，以白色表示)，而 socket 是指與插件配合的部件 (圖 3，以綠色表示)。

An array of various green and white mechanical parts, displayed in a grid format. — *圖 3. AutoMate 數據集中 100 個組件的可視化結果*

Two-panel image showing robotic assembly environments. The left panel depicts a single robotic arm with one pair of mechanical parts on the table. The right panel displays multiple robotic arms working in parallel, each with different mechanical parts on their tables. — *圖 4. AutoMate 數據集中組件的模擬環境*

針對不同幾何圖形的學習專家

盡管 NVIDIA 之前的工作 IndustReal 表明，僅 RL 的方法可以解決具有豐富接觸性的裝配任務，但只能解決一小部分組件。僅 RL 的方法無法解決 AutoMate 數據集中的大多數 100 個組件。然而，模仿學習使機器人能夠通過觀察和模仿演示來獲得復雜的技能。AutoMate 引入了一種新穎的算法組合，將 RL 與模仿學習相結合，從而為廣泛的裝配任務實現有效的技能獲取。

要通過模仿學習增強強化學習（RL），需要應對三個挑戰：

生成裝配演示
將模仿學習目標集成到強化學習（RL）中
選擇要在學習期間使用的演示

以下各節將探討如何解決這些挑戰。

通過反向組裝生成演示程序

裝配的運動學是一個窄通道問題，機器人必須操縱部件穿過受限或緊密的空間，而不會與障礙物碰撞。這是一個非常困難的問題，因為使用運動規劃器自動收集裝配演示是極其困難的。此外，要收集人類演示，還需要高度熟練的人類操作人員和先進的遠程操作界面，這可能成本很高。

受“Assembly-by-disassembly”（通過拆解物體的過程，首先了解如何拆解物體）概念的啟發，我們收集拆解演示，然后反向進行組裝。在模擬中，機器人被命令從插槽中拆解插件，并記錄 100 次成功的拆解演示，每個組件都記錄一次。

A series of images showing the disassembly process of a pair of small mechanical parts. — *圖 5. 模擬中生成拆裝演示的過程*

具有模仿目標的 RL

在 RL 中，獎勵是向智能體發出的信號，用于指示智能體在任何給定步驟中的表現如何。這一獎勵信號充當反饋，指導智能體學習和調整其行動，以最大限度地提高累積獎勵，從而導致任務成功。受 DeepMimic 等角色動畫中工作的啟發，我們在獎勵函數中加入了一個模仿術語，以增強 RL。這一模仿目標鼓勵機器人在學習過程中模仿演示。每步模仿獎勵定義為給定裝配的所有演示的最大獎勵。

除了模仿術語，獎勵表述還包括以下幾個術語：

懲罰目標距離
懲罰模擬錯誤
獎勵任務難度

這與之前的 IndustReal 工作一致。

選擇具有動態時間扭曲的演示示例

為了確定要模仿的演示（即，哪個演示在當前時間步長提供最大獎勵），第一步是計算每個演示與當前機器人終端執行程序路徑之間的距離。然后，以最小距離模擬路徑。演示路徑可能具有航點分布不均和不同數量的航點，相比機器人終端執行程序路徑，這使得確定演示路徑中的航點與機器人終端執行程序路徑之間的對應關系變得困難。

動態時間曲線（Dynamic Time Warping）是一種算法，用于測量兩個時序序列之間的相似性，這兩個序列可能具有不同的速度。在這項工作中，我們使用動態時間曲線（DTW）來尋找機器人終端執行程序路徑和每個演示路徑之間的映射，以便最小化終端執行程序路徑中每個航點與演示路徑上匹配航點之間的距離總和（Figure 6）。然后，根據動態時間曲線（DTW）返回的距離，我們將為每個演示路徑計算模擬獎勵，并選擇提供最高模擬獎勵的演示路徑。

An illustration showing the concept of minimizing the distance between a robot end-effector path and a demonstration path. The robot end-effector path is depicted in green, with waypoints along its trajectory. The demonstration path is shown in orange, with its own set of waypoints. Gray dashed lines connect corresponding waypoints between the two paths. An arrow labeled 'Minimize' points towards text that reads, 'Minimal sum of distances between waypoints in robot end-effector path and matching waypoints on demonstration path.' — *圖 6. DTW 可視化終端執行器路徑與演示路徑之間的映射。*

在模擬中，專家策略在 80 個不同的組件上取得了約 80% 或更高的成功率，在 55 個不同的組件上取得了約 90% 或更高的成功率。在現實世界中，專家策略在 20 個組件上的平均成功率為 86.5%，與在模擬中部署這些組件相比，僅下降了 4.2%(圖 7)。

The bar chart titled "Specialist" compares the success rates of various assemblies in simulation versus reality. — *圖 7. 實際世界專家成功率與模擬部署的每個裝配體比較*

學習一般組裝技能

為了訓練可以解決多個裝配任務的通才技能，我們的目標是重復使用已訓練的專業技能中的知識，然后使用基于課程的 RL 來進一步提高性能。該方法包括三個階段：

首先，應用標準行為克隆（BC），其中包括從已經訓練的專業技能中收集演示，這些演示用于監督多面手技能的訓練。
其次，DAgger（數據集聚合）用于細化多面手，通過執行多面手技能，并在多面手訪問的狀態下主動查詢專家技能，以獲取專家預測的行動，從而提供監督。
最后，對多面手執行 RL 微調階段。在微調階段，從 IndustReal 工作中應用基于采樣的課程，隨著多面手的任務成功率提高，部件的初始參與度逐漸減少。

An image visually demonstrates the transition from behavior cloning to data aggregation and then to curriculum-based RL fine-tuning for optimizing robotic control policies. — *圖 8. 行為克隆、DAgger 和基于課程的 RL 微調示意圖*

使用擬議的三階段方法對多面手進行訓練，涵蓋 20 個組件。在模擬中，多面手策略可以聯合求解 20 個組件，成功率達到 80.4%。在現實世界中，對同一組組件的測試表明，多面手策略的平均成功率為 84.5%，相比模擬中的部署提高了 4.1%(圖 9)。

The bar chart titled "Generalist" compares the success rates of various assemblies in simulation versus reality. — *圖 9. 實際通用型成功率與模擬模擬量的每個裝配體比較*

真實世界設置和感知初始化的工作流程

現實世界的設置包括 Franka Panda 機械臂、一臺安裝在手柄上的 Intel RealSense D435 攝像頭、一個 3D 打印的插件和插座，以及一個用于固定插槽的 Schunk EGK40 抓手。在感知初始化工作流程中：

將插頭隨意放置在泡沫塊上，將插座隨意放置在 Schunk 抓手器內。
RGB-D 圖像通過腕部安裝的攝像頭捕獲，然后對零件進行六維姿態估計（FoundationPose）.
機器人抓住插件，將其傳輸到插槽，并部署經過仿真訓練的裝配技能。

A sequence of images demonstrating the robotic assembly process that includes pose estimation, grasp, transport, place and insert. — *圖 10. 實際世界設置和感知初始化工作流程*

在感知初始化工作流程中，對專家和多面手進行評估。對于專家，平均成功率為 90.0%。對于多面手，成功率為 86.0%。這些結果表明，通過將 6-DOF 姿態估計、把握優化和擬議學習專家和多面手策略的方法有效結合，可以使用研究級硬件在真實條件下實現可靠的組裝。

總結

AutoMate 是利用學習方法和模擬來解決各種裝配問題的首次嘗試。通過這項工作，NVIDIA 的研究人員逐漸建立了工業機器人的大型模型范式，同時保持在現實世界部署中的實踐基礎。

未來的步驟專注于解決多部件組件，這些組件需要高效的序列規劃，即決定下一步組裝哪個部件，并進一步提高技能以滿足行業競爭性能規范。

如需了解 NVIDIA 先前的工作，請閱讀 Factory 和 IndustReal 的論文。訪問 AutoMate 項目頁面，閱讀該論文并查看摘要視頻。請持續關注 AutoMate 即將與新發布的 NVIDIA Isaac Lab 集成的消息。

與作者 Bingjie Tang、Iretiayo Akinola、Jie Xu、Bowen Wen、Ankur Handa、Karl Van Wyk、Dieter Fox、Gaurav S. Sukhatme、Fabio Ramos 和 Yashraj Narang 一起參加 2024 年 7 月舉行的機器人：科學和系統 (RSS) 大會，他們將在大會上發表論文《AutoMate：專家和通用組裝策略 over 多樣幾何》在 Robotics: Science and Systems (RSS) 大會上。

跨多種幾何形狀訓練機器人裝配技能從模擬到現實遷移

什么是 AutoMate？

數據集和模擬環境