Machine Learning and AI – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Mon, 05 Dec 2022 10:54:06 +0000
zh-CN
hourly
1
196178272 -
自動駕駛的最優 AI 推理流水線設計
http://www.open-lab.net/zh-cn/blog/designing-an-optimal-ai-inference-pipeline-for-autonomous-driving/
Wed, 30 Nov 2022 10:52:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5788
Continued]]>
自動駕駛汽車必須能夠快速準確地檢測物體,以確保其駕駛員和道路上其他駕駛員的安全。由于自動駕駛( AD )和視覺檢查用例中對實時處理的需求,具有預處理和后處理邏輯的多個 AI 模型 組合在流水線中,并用于 機器學習 ( ML )推理。 流水線的每一步都需要加速,以確保低延遲工作流。延遲是獲取推理響應所需的時間。更快地處理 AD 數據將能夠更有效地分析和使用信息,創造更安全的駕駛環境。任何一個方面的延遲都會降低整個管道的速度。 為了實現低延遲推理工作流,電動汽車制造商 NIO 將 NVIDIA Triton 推理服務器集成到其 AD 推理管道中。 NVIDIA Triton 推理服務器是一個開源的多幀推理服務軟件。 這篇文章解釋了 NIO 如何在 GPU 上使用 NVIDIA Triton 協調其圖像預處理、后處理和 AI 模型的管道。它還展示了 NIO 如何減少網絡傳輸,
Source
]]>
5788
-
領先的 MLPerf Training 2.1 ,具有針對 AI 的全棧優化
http://www.open-lab.net/zh-cn/blog/leading-mlperf-training-2-1-with-full-stack-optimizations-for-ai/
Wed, 09 Nov 2022 06:26:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5672
Continued]]>
MLCommons 開發的 MLPerf 基準是組織衡量其機器學習模型跨工作負載培訓性能的關鍵評估工具。 MLPerf Training v2.1- 這個以 AI 培訓為重點的基準套件的第七次迭代測試了廣泛流行的 AI 用例的性能,包括以下: 許多人工智能應用程序利用流水線中部署的多個人工智能模型。這意味著,人工智能平臺必須能夠運行當今可用的所有模型,并提供支持新模型創新的性能和靈活性。 NVIDIA AI platform 在此輪中提交了所有工作負載的結果,它仍然是唯一一個提交了所有 MLPerf 培訓工作負載結果的平臺。 在這一輪中, NVIDIA 使用新的 H100 Tensor Core GPU 提交了其首個 MLPerf 訓練結果,與首次提交的 A100 Tensor Core GPU 相比,性能提高了 6.7 倍,與最新的 A100 結果相比,
Source
]]>
5672
-
使用 NVIDIA RAPIDS cuML 實現 100 倍更快的單電池模式預測
http://www.open-lab.net/zh-cn/blog/achieving-100x-faster-single-cell-modality-prediction-with-nvidia-rapids-cuml/
Wed, 19 Oct 2022 05:35:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5490
Continued]]>
單細胞測量技術發展迅速,徹底改變了生命科學。我們已經從測量幾十個細胞擴展到數百萬個細胞,從一種模式擴展到多個高維模式。單個細胞水平上的大量信息為訓練機器學習模型提供了一個很好的機會,幫助我們更好地理解 intrinsic link of cell modalities ,這可能會對合成生物學和 drug target discovery 產生變革。 這篇文章介紹了模態預測,并解釋了我們如何用基于 NVIDIA GPU 的 RAPIDS cuML 實現取代基于 CPU 的 TSVD 和內核嶺回歸( KRR ),從而加速了 NeurIPS Single-Cell Multi-Modality Prediction Challenge 的獲勝解決方案。 使用 cuML ,只修改了六行代碼,我們加速了基于 scikit 學習的獲勝解決方案,將訓練時間從 69 分鐘縮短到 40 秒:
Source
]]>
5490
-
自主移動機器人的開源車隊管理工具
http://www.open-lab.net/zh-cn/blog/open-source-fleet-management-tools-for-autonomous-mobile-robots/
Wed, 19 Oct 2022 04:07:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5499
Continued]]>
在 ROSCon 2022 上, NVIDIA 發布了最新的 Isaac ROS 軟件版本 Developer Preview ( DP ) 2 。該版本包括用于自主移動機器人( AMR )車隊的新的云和邊緣到機器人任務管理和監控軟件,以及 ROS 2 開發者的附加功能。 NVIDIA ISAAC ROS 由單個軟件包( GEM )和完整的流水線( NITROS )組成,可實現硬件加速性能。除了性能改進之外,新版本還添加了以下功能: Mission Dispatch 和 Client 為車隊管理系統和 ROS 2 機器人之間分配和跟蹤任務提供了一種標準的開源方式。調度和客戶端使用 VDA5050 進行通信,這是專為機器人車隊設計的開放式通信標準。消息通過 MQTT 無線傳輸,這是物聯網( IoT )應用的輕量級消息協議。 任務調度是一種容器化微服務,
Source
]]>
5499
-
利用一個開發工具包的強大功能為所有六個 NVIDIA Jetson Orin 模塊開發
http://www.open-lab.net/zh-cn/blog/develop-for-all-six-nvidia-jetson-orin-modules-with-the-power-of-one-developer-kit/
Thu, 22 Sep 2022 07:51:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5177
Continued]]>
隨著本周在 GTC 的 Jetson Orin Nano 發表 推出,整個 Jetson Orin 模塊陣容現已揭曉。 Orin Nano 模塊擁有多達 40 個 AI 性能 TOPS ,為入門級 AI 設定了新標準,正如 Jetson AGX Orin 已經通過 275 個服務器級計算 TOPS 重新定義了機器人和其他自主邊緣用例一樣。 所有 Jetson Orin 模塊和 Jetson AGX Orin Developer Kit 基于單個 SoC 架構,帶有 NVIDIA 安培架構 GPU 、高性能 CPU 和最新加速器。這種共享架構意味著您可以為一個 Jetson Orin 模塊開發軟件,然后輕松地將其部署到任何其他模塊。 您可以使用 Jetson AGX Orin 開發工具包立即開始開發任何 Jetson Orin 模塊。
Source
]]>
5177
-
使用 NVIDIA Jetson Orin Nano 解決入門級邊緣人工智能挑戰
http://www.open-lab.net/zh-cn/blog/solving-entry-level-edge-ai-challenges-with-nvidia-jetson-orin-nano/
Wed, 21 Sep 2022 09:38:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5219
Continued]]>
2022 年 GTC , NVIDIA 宣布 Jetson Orin Nano 系列系統模塊( SoM )。它們的 AI 性能是 NVIDIA Jetson Nano 的 80 倍,為入門級邊緣 AI 和機器人應用設定了新標準。 Jetson 系列現在首次包括基于 NVIDIA Orin 的模塊,從入門級的 Jetson Orin Nano 到最高性能的 Jetson AGX Orin 。這使客戶能夠靈活地輕松擴展其應用程序。 借助 Jetson AGX Orin Developer Kit 提供的完整軟件仿真支持,立即啟動您的 Jetson Orin Nano 開發。 跨行業的日常用例對增強實時處理能力的需求繼續增長。入門級 AI 應用程序,如智能相機、手持設備、服務機器人、智能無人機、智能儀表等,都面臨著類似的挑戰。
Source
]]>
5219
-
使用 NVIDIA Triton 解決人工智能推斷挑戰
http://www.open-lab.net/zh-cn/blog/solving-ai-inference-challenges-with-nvidia-triton/
Wed, 21 Sep 2022 08:33:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5193
Continued]]>
在生產中部署 AI 模型以滿足 AI 驅動應用程序的性能和可擴展性要求,同時保持低基礎設施成本是一項艱巨的任務。 加入 NVIDIA Triton 和 NVIDIA TensorRT 社區 ,了解最新的產品更新、錯誤修復、內容、最佳實踐等。 這篇文章為您提供了在生產中部署模型時常見的 AI 推理挑戰的高層次概述,以及目前如何跨行業使用 NVIDIA Triton 推理服務器 來解決這些問題。 我們還研究了 Triton 中最近添加的一些功能、工具和服務,它們簡化了生產中 AI 模型的部署,具有最佳性能和成本效益。 人工智能推理是運行人工智能模型進行預測的生產階段。推斷很復雜,但了解影響應用程序速度和性能的因素將有助于您在生產中交付快速、可擴展的 AI 。 這些因素的結合使得在生產中部署 AI 推理具有一定的挑戰性,
Source
]]>
5193
-
NVIDIA Merlin Distributed-Embeddings輕松快速訓練TB 級推薦模型
http://www.open-lab.net/zh-cn/blog/fast-terabyte-scale-recommender-training-made-easy-with-nvidia-merlin-distributed-embeddings/
Wed, 31 Aug 2022 03:19:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5061
Continued]]>
Embedding在深度學習推薦模型中起著關鍵作用。它們被用于將輸入數據中的離散特征映射到向量,以便下游的神經網絡進行處理。Embedding 通常構成深度學習推薦模型中的大部分參數,大小可以達到 TB 級。在訓練期間,很難將它們放入單個 GPU 的內存中。因此,現代推薦系統可能需要模型并行和數據并行的分布式訓練方法組合,以最佳利用GPU計算資源來實現最好的訓練性能。 NVIDIA Merlin Distributed-Embeddings ,可以方便TensorFlow 2 用戶用短短幾行代碼輕松完成大規模的推薦模型訓練。 背景 在數據并行分布式訓練中,整個模型被復制到每個 GPU 上。在訓練過程中,一批輸入數據在多個 GPU 中分割,每張卡獨立處理其自己的數據分片,從而允許計算擴展到更大批量的數據。在反向傳播期間,計算的梯度通過reduction算子(例如,
Source
]]>
5061
-
使用加速 WEKA 加速機器學習模型
http://www.open-lab.net/zh-cn/blog/speed-up-machine-learning-models-with-accelerated-weka/
Fri, 01 Jul 2022 07:36:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4525
Continued]]>
近年來,建筑業和 采用機器學習 ( ML )工具。使用 GPU 加速計算日益密集的模型已成為一個突出的趨勢。 為了增加用戶訪問,加速 WEKA 項目通過集成開源 RAPIDS 庫,為在知名的 WEKA 算法中使用 GPU 提供了一個可訪問的入口點。 在這篇文章中,我們將向您介紹加速 WEKA ,并學習如何使用 WEKA 軟件利用圖形用戶界面( GUI )的 GPU 加速算法。這種 Java 開源替代方案適合于從不同環境或包中尋找各種 ML 算法的初學者。 加速 WEKA 將 WEKA 軟件(一種著名的開源 Java 軟件)與利用 GPU 縮短 ML 算法執行時間的新技術相結合。針對沒有系統配置和編碼專業知識的用戶,它有兩個好處:易于安裝和指導 ML 任務的配置和執行的 GUI 。 加速 WEKA 是一個可用于 WEKA 的軟件包集合,
Source
]]>
4525
-
使用 BenchBot 和 NVIDIA ISAAC Sim 簡化機器人技術
http://www.open-lab.net/zh-cn/blog/making-robotics-easier-with-benchbot-and-isaac-sim/
Thu, 26 May 2022 05:48:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4218
Continued]]>
機器人學的研究充滿了令人興奮和有趣的問題,但也有一些令人沮喪的問題,如傳感器校準、構建轉換樹、管理分布式系統以及調試脆弱系統中的奇異故障。 我們在 QUT’s Centre for Robotics (QCR) 構建了 BenchBot 平臺 ,使機器人學家能夠將時間集中在研究機器人學中令人興奮和有趣的問題上。 我們最近還升級到了 由 NVIDIA Omniverse 助力的 NVIDIA ISAAC Sim ,該公司對 BenchBot 平臺進行了大量重大改進。無論機器人是你的愛好、學術追求還是工作, BenchBot 和 NVIDIA ISAAC Sim 功能都能讓你只需幾行 Python 就可以跳入機器人的奇妙世界。在這篇文章中,我們分享了我們是如何創建 BenchBot 的,它的功能,我們計劃在未來在哪里使用它,以及您可以在自己的工作中使用它。
Source
]]>
4218
-
改進擴散模型以替代 GANs ,第 2 部分
http://www.open-lab.net/zh-cn/blog/improving-diffusion-models-as-an-alternative-to-gans-part-2/
Tue, 26 Apr 2022 09:23:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3832
Continued]]>
這是 NVIDIA 研究人員如何改進和加速擴散模型采樣的系列文章的一部分,擴散模型是一種新的、強大的生成模型。 Part 1 介紹了擴散模型作為深層生成模型的一個強大類,并研究了它們在解決生成性學習三重困境中的權衡。 雖然擴散模型同時滿足 生成性學習三位一體 的第一和第二個要求,即高樣本質量和多樣性,但它們缺乏傳統 GAN 的采樣速度。在這篇文章中,我們回顧了 NVIDIA 最近開發的三種技術,它們克服了擴散模型中緩慢采樣的挑戰。 擴散模型的采樣速度較慢的主要原因之一是,從簡單的高斯噪聲分布到具有挑戰性的多模態數據分布的映射非常復雜。最近, NVIDIA 推出了 基于潛在分數的生成模型 ( LSGM ),這是一種新的框架,可以在潛在空間而不是直接在數據空間中訓練擴散模型。 在 LSGM 中,我們利用變分自動編碼器( VAE )框架將輸入數據映射到一個潛在空間,
Source
]]>
3832
-
利用 NVIDIA DALI 實現快速數據預處理
http://www.open-lab.net/zh-cn/blog/rapid-data-pre-processing-with-nvidia-dali/
Thu, 07 Oct 2021 06:36:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=1906
Continued]]>
這篇文章是對之前文章的更新. 深度學習模型需要使用大量數據進行培訓,以獲得準確的結果。由于各種原因,例如不同的存儲格式、壓縮、數據格式和大小,以及高質量數據的數量有限,原始數據通常無法直接輸入神經網絡。 解決這些問題需要大量的數據準備和預處理步驟,從加載、解碼、解壓縮到調整大小、格式轉換和各種數據擴充。 深度學習框架,如 TensorFlow 、 PyTorch 、 MXNet 等,為一些預處理步驟提供了本地實現。由于使用特定于框架的數據格式、轉換的可用性以及不同框架之間的實現差異,這通常會帶來可移植性問題。 直到最近,深度學習工作負載的數據預處理才引起人們的關注,因為訓練復雜模型所需的巨大計算資源使其黯然失色。因此,由于 OpenCV 、 Pillow 或 Librosa 等庫的簡單性、靈活性和可用性,預處理任務通常用于在 CPU 上運行。
Source
]]>
1906
人人超碰97caoporen国产