機器人學 – NVIDIA 技術博客

機器人學 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Fri, 28 Feb 2025 06:54:41 +0000 zh-CN hourly 1 196178272 圖像和視頻理解的視覺語言模型提示工程實踐指南 http://www.open-lab.net/zh-cn/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/ Wed, 26 Feb 2025 06:49:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13030 Continued]]> 視覺語言模型 (VLMs) 正在以極快的速度發展。2020 年，首批 VLMs 通過使用視覺編碼器將視覺理解引入大語言模型 (LLMs) ，徹底改變了生成式 AI 格局。這些初始 VLMs 能力有限，只能理解文本和單張圖像輸入。幾年后，VLM 現在能夠理解多圖像和視頻輸入，以執行高級視覺語言任務，例如視覺問答 (VQA)、字幕、搜索和摘要。通過調整提示和模型權重，可以提高特定用例的 VLM 準確性。可以使用 PEFT 等高效技術微調模型權重，但仍需要足夠的數據和計算。但是， prompt engineering 和上下文學習也可用于提高輸出質量，并且與在運行時調整模型的文本輸入一樣簡單。本文將為您介紹 VLM 的演變，以及如何有效地提示 VLM 以用于了解單張圖像、多張圖像和視頻的用例。如需了解有關 VLM 和視覺 AI 智能體的更多信息，

]]>

13030

NVIDIA GTC 2025 上的人工智能促進氣候、能源和生態系統復原力 http://www.open-lab.net/zh-cn/blog/ai-for-climate-energy-and-ecosystem-resilience-at-nvidia-gtc-2025/ Thu, 20 Feb 2025 04:09:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=12959 Continued]]> 從減緩氣候變化到改進災害響應和環境監測，AI 正在重塑我們應對重大全球挑戰的方式。快速、高分辨率的氣候預報、實時監控和數字孿生技術的進步為科學家、政策制定者和行業領導者提供了數據驅動的工具，幫助他們了解、規劃和應對一個變暖的星球。在 3 月 17 日至 21 日舉行的 NVIDIA GTC 2025 大會上，思想領袖、科學家、開發者和創新者將重點介紹 AI 如何幫助塑造更具可持續性和韌性的未來。以下會議展示了 AI 在氣候預測、災難緩解和保護工作中發揮的作用，幫助社區適應日益不可預測的世界。隨著全球變暖加劇，極端天氣事件變得更加嚴重和頻繁，社區需要更快、更精確的自然災害預測和響應策略。AI 正在改進洪水、野火和颶風建模，從而實現更早的警報和更有效的緩解措施。借助大規模天氣模擬、衛星數據分析和實時預測性見解，AI 正在幫助應急響應人員和決策者盡可能減少損失、提高抗災能力，

]]>

12959

如何使用 OpenUSD http://www.open-lab.net/zh-cn/blog/how-to-use-openusd/ Thu, 30 Jan 2025 05:14:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=12901 Continued]]> 通用場景描述（Universal Scene Description）是開放、可擴展的框架和生態系統，具有用于在 3D 虛擬世界中合成、編輯、查詢、渲染、協作和仿真的 API。本文介紹了如何使用現有資產和工具立即開始使用 OpenUSD，以及可以采取哪些步驟以迭代方式提升 USD 工作流程的水平。要以交互方式全面介紹 OpenUSD 的基本概念、詞匯和最佳實踐，請探索 NVIDIA Deep Learning Institute 提供的免費 Learn OpenUSD 學習路徑。 OpenUSD 不會取代您現有的工具或數據格式。顧名思義，Universal Scene Description 提供了一種常用方法來表示網格和 PBR 材質等許多 3D 概念的數據。它不斷發展，以支持其他概念，例如 physics 和 B-reps。

]]>

12901

NVIDIA JetPack 6.2 為 NVIDIA Jetson Orin Nano 和 Jetson Orin NX 模塊引入超級模式 http://www.open-lab.net/zh-cn/blog/nvidia-jetpack-6-2-brings-super-mode-to-nvidia-jetson-orin-nano-and-jetson-orin-nx-modules/ Thu, 16 Jan 2025 06:11:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=12690 Continued]]> NVIDIA Jetson Orin Nano 超級開發者套件的推出為小型邊緣設備開啟了生成式 AI 的新時代。新的超級模式在開發者套件上實現了前所未有的生成式 AI 性能提升，最高可達 1.7 倍，使其成為最經濟實惠的生成式 AI 超級計算機。 JetPack 6.2 現已支持 Jetson Orin Nano 和 Jetson Orin NX 生產模組的超級模式，可將生成式 AI 模型的性能提升高達 2 倍。現在，您可以為新的和現有的機器人和邊緣 AI 應用釋放更多價值并降低總體擁有成本。本文討論了 Super Mode 的詳細信息，包括新的功率模式、Jetson Orin Nano 和 Orin NX 模組上熱門生成式 AI 模型的基準測試、文檔更新，以及對支持 Super Mode 的 NPN 合作伙伴的見解。 JetPack 6.2…

]]>

12690

NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步 http://www.open-lab.net/zh-cn/blog/advancing-physical-ai-with-nvidia-cosmos-world-foundation-model-platform/ Thu, 09 Jan 2025 08:43:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=12593 Continued]]> 隨著機器人和自動駕駛汽車的發展，加速物理 AI 的發展變得至關重要，而物理 AI 使自主機器能夠感知、理解并在現實世界中執行復雜的操作。這些系統的核心是世界基礎模型 (WFMs)，即通過物理感知視頻模擬物理狀態的 AI 模型，使機器能夠做出準確決策并與周圍環境無縫交互。 NVIDIA Cosmos 平臺可幫助開發者大規模為物理 AI 系統構建自定義世界模型。它為從數據管護、訓練到定制的每個開發階段提供開放世界基礎模型和工具。本文將介紹 Cosmos 及其加速物理 AI 開發的主要功能。Cosmos 是一種開源的 Python 庫，用于加速物理 AI 開發。構建物理 AI 極具挑戰性，需要精確的模擬以及真實世界的行為理解和預測。克服這些挑戰的一個關鍵工具是世界模型，該模型根據過去的觀察結果和當前的輸入結果預測未來的環境狀態。

]]>

12593

通過 NVIDIA NeMo 框架的最新功能全鏈路加速視頻基礎模型的訓練和微調 http://www.open-lab.net/zh-cn/blog/accelerate-custom-video-foundation-model-pipelines-with-new-nvidia-nemo-framework-capabilities/ Tue, 07 Jan 2025 06:10:49 +0000 http://www.open-lab.net/zh-cn/blog/?p=12561 Continued]]> 生成式 AI 已經從基于文本的模型發展到多模態模型，最近還擴展到了視頻領域，為各行各業開辟了新的潛在用途。視頻模型可以為用戶創造新的體驗，以及大規模模擬場景來訓練自主代理。它們正在幫助包括機器人技術、自動駕駛汽車和娛樂業在內的多個行業實現變革。由于視頻數據的龐大和多樣性，視頻基礎模型的開發面臨著獨特的挑戰。這也凸顯了可擴展的數據管理流程和訓練框架的必要性，以此來理解時間和空間動態的模型。我們發布了 NVIDIA NeMo 框架中全新的視頻基礎模型功能，這是一個端到端的訓練框架，用于預訓練和微調您的專屬視頻基礎模型。該框架包括高吞吐量的數據管理、高效的多模態數據加載功能、可擴展的模型訓練，以及并行化的框架內推理。高吞吐量視頻數據處理鏈路 NVIDIA NeMo Curator 通過高效處理和準備高質量的數據（包括大型視頻數據集），

]]>

12561

人形機器人學習的合成運動生成管道構建 http://www.open-lab.net/zh-cn/blog/building-a-synthetic-motion-generation-pipeline-for-humanoid-robot-learning/ Mon, 06 Jan 2025 08:09:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=12587 Continued]]> 通用型類人型機器人旨在快速適應現有的以人為中心的城市和工業工作空間，處理繁瑣、重復或對身體要求苛刻的任務。這些移動機器人的設計初衷就是在以人為中心的環境中表現卓越，這使得它們在從工廠車間到醫療健康設施中的價值與日俱增。模仿學習是機器人學習的一個子集，使人形機器人能夠通過觀察和模仿專家的人類演示來獲得新的技能。在現實世界中收集這些廣泛的高質量數據集既繁瑣又耗時，而且成本高昂。從物理屬性準確的模擬環境中生成的合成數據可以加速收集過程。 NVIDIA Isaac GR00T 可幫助應對這些挑戰，為類人型機器人開發者提供機器人基礎模型、數據流水線和仿真框架。用于合成運動生成的 NVIDIA Isaac GR00T 藍圖是一種用于模擬學習的模擬工作流，使您能夠從少量人類演示中生成指數級的大型數據集。在本文中，

]]>

12587

利用最新的 NVIDIA Isaac 版本推進機器人學習、感知和操控技術 http://www.open-lab.net/zh-cn/blog/advancing-robot-learning-perception-and-manipulation-with-latest-nvidia-isaac-release/ Mon, 06 Jan 2025 06:33:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=12575 Continued]]> 在 CES 2025 上，NVIDIA 宣布了對 NVIDIA Isaac 的重要更新。NVIDIA Isaac 是一個由加速庫、應用框架和 AI 模型組成的平臺，可加速 AI 機器人的開發。 NVIDIA Isaac 簡化了從仿真到實際部署的機器人系統開發過程。在本文中，我們將討論 NVIDIA Isaac 的所有新進展： NVIDIA Isaac Sim 是一款基于 NVIDIA Omniverse 構建的參考應用，使您能夠在基于物理的虛擬環境中開發、模擬和測試 AI 驅動的機器人。新的 Isaac Sim 4.5 將于 1 月底推出，將帶來一系列重大變化，包括： Isaac Sim 經過重新設計，是一款可定制的參考應用。用于加快啟動速度的最小模板和具有完整功能以及所有依賴項的完整模板。

]]>

12575

NVIDIA Jetson Orin Nano 開發者套件得到“超級”提升 http://www.open-lab.net/zh-cn/blog/nvidia-jetson-orin-nano-developer-kit-gets-a-super-boost/ Tue, 17 Dec 2024 04:52:28 +0000 http://www.open-lab.net/zh-cn/blog/?p=12519 Continued]]> 生成式 AI 格局正在迅速發展，新的大語言模型 (LLMs)、視覺語言模型 (VLMs) 和視覺語言動作 (VLAs) 模型每天都在涌現。為了在這個變革時代站在前沿，開發者需要一個足夠強大的平臺，通過使用 CUDA 的優化推理和開放 ML 框架，將最新模型從云端無縫部署到邊緣。為了支持機器人和多模態智能體中生成式 AI 工作負載的新興應用，NVIDIA 正在通過軟件更新來更新 NVIDIA Jetson Orin Nano 開發者套件，以 249 美元的驚人新價格將性能提升高達 1.7 倍。為表彰 Jetson Orin Nano 開發者套件在性能和可訪問性方面的出色提升，我們將 Jetson Orin Nano 開發者套件更名為 NVIDIA Jetson Orin Nano Super Developer Kit。只需更新軟件，

]]>

12519

Warp 1.5.0 引入圖塊化編程 http://www.open-lab.net/zh-cn/blog/introducing-tile-based-programming-in-warp-1-5-0/ Sat, 14 Dec 2024 05:55:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=12531 Continued]]> 借助最新版本的 Warp 1.5.0 ，開發者現在可以使用 Python 中基于圖塊的新編程基元。這些新工具利用 cuBLASDx 和 cuFFTDx ，在 Python 內核中為開發者提供高效的矩陣乘法和 Fourier 變換，從而加速仿真和科學計算。在這篇博文中，我們將介紹這些新功能，并展示如何使用它們來優化應用。Warp 1.5.0 中提供的基于圖塊的編程模型目前處于預覽階段，在即將推出的版本中，性能和 APIs 可能會發生變化。在過去十年中，GPU 硬件已從單純的 SIMT (單指令多線程) 執行模型發展為高度依賴協作操作來提高效率的模型。隨著 Tensor Core 數學單元在整體 GPU 計算中的作用越來越大，高效且高效的編程變得越來越重要。高級 API 如 BLAS 提供的抽象概念可以面向各種高性能低級指令。但是，這些 API 通常難以與用戶程序集成，

]]>

12531

新的 AI 研究為自主機器人手術開辟了新的道路 http://www.open-lab.net/zh-cn/blog/new-ai-research-foreshadows-autonomous-robotic-surgery/ Tue, 10 Dec 2024 06:45:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=12383 Continued]]> 外科醫生在常規手術中常用和手動操作的機器人現在可以像人類一樣精確地自主執行關鍵的手術任務。約翰?霍普金斯大學和斯坦福大學的研究人員透露，他們已將經過數小時手術視頻訓練的視覺語言模型（VLM）與廣泛使用的 da Vinci 機器人手術系統集成。與 VLM 連接后，達芬奇的微型抓手 (或稱“手”) 可以自動執行三項關鍵手術任務：仔細提起身體組織、使用手術針和縫合傷口。傳統的機器人訓練方法需要對機器人動作的每個組件進行詳細編程，而改裝后的 da Vinci 機器人僅使用模擬學習執行零樣本手術任務。該機器人僅依靠其視覺語言模型來模仿醫生在手術視頻中所做的操作。這些結果讓我們一窺未來完全由自主機器人進行手術的可能性。約翰?霍普金斯大學博士后研究員 Ji Woong “Brian” Kim 說：“這些機器人現在能夠自主執行這些非常復雜的任務，這真是太神奇了。

]]>

12383

NVIDIA JetPack 6.1 通過攝像頭堆棧優化和固件 TPM 實現性能和安全性提升 http://www.open-lab.net/zh-cn/blog/nvidia-jetpack-6-1-boosts-performance-and-security-through-camera-stack-optimizations-and-introduction-of-firmware-tpm/ Thu, 21 Nov 2024 08:15:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=12169 Continued]]> NVIDIA JetPack 不斷演進，為滿足邊緣 AI 和機器人開發者的不斷增長需求提供最新的軟件。每個版本中，JetPack 都會增強性能，引入新功能，并優化現有工具，為用戶提供更大的價值。這意味著，您現有的基于 Jetson Orin 的產品可以通過升級到最新版本的 JetPack 體驗到性能優化。 JetPack 6 于 2023 年第三季度發布，標志著這一進程中的一個重要里程碑。它引入了強大的功能，如自帶內核（Bring Your Own Kernel），提供了靈活性，可以引入任何 LTS Linux 內核，并擴展了對更廣泛的 Linux 發行版的支持，為不同的開發環境提供了更大的靈活性。它采用模塊化設計，無需升級 Jetson Linux ，即可輕松升級到最新的 JetPack 計算堆棧。伴隨這些進步，性能改進（包括增強的硬件加速）可確保…

]]>

12169

利用 NVIDIA AI Blueprint 搭建視頻搜索和摘要智能代理 http://www.open-lab.net/zh-cn/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint/ Mon, 04 Nov 2024 06:33:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=11837 Continued]]> 本文最初于 2024 年 7 月 29 日發布，但已根據 NVIDIA AI Blueprint 信息進行了大量修改。傳統的視頻分析應用及其開發工作流通常基于功能固定的、有限的模型構建，這些模型旨在僅檢測和識別一組預定義的對象。借助生成式 AI 、NVIDIA NIM 微服務和基礎模型，您現在可以使用更少的模型構建具有廣泛感知和豐富上下文理解的應用程序。新型生成式 AI 模型，即視覺語言模型（VLM），為視覺 AI 智能體提供支持，這些智能體可以理解自然語言提示并執行視覺問答。通過結合 VLM、LLM 和最新的 Graph-RAG 技術，您可以構建功能強大的視覺 AI 智能體，從而實現對視頻的長篇理解。這些可視化 AI 智能體將部署在工廠、倉庫、零售商店、機場、交叉路口等地。它們將幫助運營團隊利用從自然交互中生成的更豐富的見解做出更明智的決策。

]]>

11837

機器人家務技能培訓 http://www.open-lab.net/zh-cn/blog/teaching-robots-to-tackle-household-chores/ Wed, 30 Oct 2024 09:51:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=11852 Continued]]> 機器人可以承擔重復性或耗時的任務，從而使日常生活變得更加輕松。在 2024 年的 NVIDIA GTC 大會上，斯坦福大學的研究人員推出了 BEHAVIOR-1K，這是一項主要基準測試，旨在訓練機器人執行 1,000 項真實世界的活動，例如折疊衣物、烹飪早餐和清理派對后的場地。 OmniGibson 是一個先進的模擬環境，用于加速基于 NVIDIA Omniverse 平臺的具體 AI 研究。借助 OmniGibson，他們專注于訓練機器人掌握可直接應用于現實環境（從家庭輔助到工作場所等）的實用技能。作為讓機器人技術用于日常輔助這一更廣泛計劃的一部分，BEHAVIOR-1K 基準測試側重于將先進的機器人功能帶入現實，并讓人們有時間參與他們喜歡的活動。請關注會議的 PDF 格式，其中詳細介紹了 BEHAVIOR-1K 如何利用從涉及 1,400…

]]>

11852

NVIDIA Isaac Perceptor Anywhere MSA 校準指南 http://www.open-lab.net/zh-cn/blog/how-to-calibrate-sensors-with-msa-calibration-anywhere-for-nvidia-isaac-perceptor/ Tue, 22 Oct 2024 05:53:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=11710 Continued]]> 多模態傳感器校準對于實現機器人、自動駕駛汽車、地圖構建和其他感知驅動應用的傳感器融合至關重要。傳統的校準方法依賴于帶有棋盤格或目標的結構化環境，復雜、昂貴、耗時且無法擴展。 Main Street Autonomy Calibration Anywhere 軟件是一種可簡化校準問題的自動傳感器校準解決方案。Main Street Autonomy 是一家采用先進技術為機器人和自動駕駛汽車領域提供傳感器校準、本地化和地圖解決方案的自動駕駛軟件和服務公司。在本博文中，您將學習如何使用 Calibration Anywhere 解決方案生成可集成到 NVIDIA Isaac Perceptor 工作流程中的校準文件。Isaac Perceptor 基于 NVIDIA Isaac ROS 構建，是 NVIDIA 加速庫和 AI 模型的參考工作流程，

]]>

11710

人人超碰97caoporen国产