技術演練 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 26 Oct 2023 06:09:47 +0000
zh-CN
hourly
1
196178272 -
高效 CUDA 調試:使用 NVIDIA Compute Sanitizer 進行內存初始化和線程同步
http://www.open-lab.net/zh-cn/blog/efficient-cuda-debugging-memory-initialization-and-thread-synchronization-with-nvidia-compute-sanitizer/
Tue, 24 Oct 2023 06:02:16 +0000
http://www.open-lab.net/zh-cn/blog/?p=8051
Continued]]>
NVIDIA Compute Sanitizer (NCS) 是一個功能強大的工具,它可以幫助您節省時間和精力,同時提高 CUDA 應用程序的可靠性和性能。 在我們之前的帖子 高效的 CUDA 調試:如何使用 NVIDIA Compute Sanitizer 追蹤 Bug 中,我們探討了并行編程領域的高效調試。我們討論了在 CUDA 環境中調試代碼的挑戰性和耗時性,尤其是在處理數千個線程時,以及 NCS 如何幫助實現這一過程。 這篇文章繼續我們對高效 CUDA 調試的探索。它重點介紹了更多的 NCS 工具,并介紹了幾個示例。 NCS 是一套工具,可以對代碼的功能正確性執行不同類型的檢查。NCS 中有四個主要工具: 除了這些工具之外,NCS 功能還包括: 本文將重點介紹如何使用 initcheck 調試代碼和捕捉與未初始化的設備陣列相關的錯誤,
Source
]]>
8051
-
驗證 NVIDIA DRIVE Sim 雷達模型
http://www.open-lab.net/zh-cn/blog/validating-nvidia-drive-sim-radar-models/
Tue, 26 Sep 2023 05:13:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=7916
Continued]]>
傳感器模擬是解決自動駕駛汽車(AV)開發中現實世界數據差距的關鍵工具。然而,只有傳感器模型準確地反映了物理世界,它才有效。 傳感器可以是被動的,比如相機,也可以是主動的,發出電磁波(激光雷達、雷達)或聲波(超聲波)來產生傳感器輸出。在模擬中建模時,每個模態都必須根據其真實世界中的對應模態進行驗證。 在之前的文章中,我們詳細介紹了如何使用 NVIDIA DRIVE Sim 驗證相機和激光雷達模型,具體可以參見 Validating NVIDIA DRIVE Sim Camera Models 和 Validating NVIDIA DRIVE Sim Lidar Models。本文將涵蓋雷達,這是一種用于探測和躲避障礙物的重要傳感器。 雷達驗證有多種方法。例如,您可以比較在真實世界數據上訓練的 AV 堆棧在遇到合成雷達數據時的行為。或者,
Source
]]>
7916
-
設計深度網絡以處理其他深度網絡
http://www.open-lab.net/zh-cn/blog/designing-deep-networks-to-process-other-deep-networks/
Thu, 17 Aug 2023 06:08:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=7685
Continued]]>
深度神經網絡(DNN)是從數據中學習函數的首選模型,如圖像分類器或語言模型。近年來,深度模型由于表示數據樣本本身而變得流行起來。例如,可以訓練深度模型來表示圖像、3D 對象或場景,這種方法稱為Implicit Neural Representations(另請參閱 Neural Radiance Fields和Instant NGP)。請繼續閱讀一些對預訓練的深度模型執行操作的示例,這些模型包括作為函數的 DNN 和作為數據的 DNN。 假設您有一個使用隱式神經表示(INR)或神經輻射場(NeRF)表示的 3D 對象數據集。通常,您可能希望“編輯”對象以更改其幾何圖形或修復錯誤和異常。例如,拆除一個杯子的把手或使所有車輪比 NeRF 重建的車輪更對稱。 不幸的是,使用 INR 和 NeRF 的一個主要挑戰是,它們必須在編輯之前進行渲染。實際上,
Source
]]>
7685
-
自定義 AI 模型:使用 NVIDIA Triton 部署字符檢測和識別模型
http://www.open-lab.net/zh-cn/blog/create-custom-character-detection-and-recognition-models-with-nvidia-tao-part-2/
Tue, 15 Aug 2023 04:50:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=7599
Continued]]>
NVIDIA Triton Inference Server 通過使團隊能夠在任何基于 GPU 或 CPU 的基礎設施上部署、運行和擴展經過訓練的 ML 或 DL 模型,簡化和標準化 AI 推理。它幫助開發人員在云端、本地、邊緣和嵌入式設備上提供高性能推理。 nvOCDR 庫已集成到 Triton 中進行推理。nvOCDR 庫封裝了用于光學字符檢測和識別(OCD/OCR)的整個推理管道。該庫使用在 TAO Toolkit 上訓練的 OCDNet 和 OCRNet 模型。想要了解更多詳細信息,請參閱 nvOCDR 文檔。 本文是關于使用 NVIDIA TAO 和預訓練模型創建和部署自定義 AI 模型以準確檢測和識別手寫文本的系列文章的一部分。第一部分 解釋了如何使用 TAO 對字符檢測和識別模型進行訓練和微調。本部分將引導您完成使用 NVIDIA Triton 部署模型的步驟。
Source
]]>
7599
-
自定義 AI 模型:使用 NVIDIA TAO 訓練字符檢測和識別模型
http://www.open-lab.net/zh-cn/blog/create-custom-character-detection-and-recognition-models-with-nvidia-tao-part-1/
Tue, 15 Aug 2023 04:44:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=7596
Continued]]>
光學字符檢測(OCD)和光學字符識別(OCR)是用于從圖像中提取文本的計算機視覺技術。不同行業的使用情況各不相同,包括從掃描的文檔或帶有手寫文本的表格中提取數據、自動識別車牌、根據序列號對履行中心中的箱子或物體進行分類、根據零件號識別組裝線上要檢查的部件等。 OCR 應用于許多行業,包括金融服務、醫療保健、物流、工業檢測和智能城市。OCR 通過自動化手動任務,提高了企業的生產效率和運營效率。 為了有效,OCR 必須達到或超過人類水平的準確性。由于它所涉及的獨特用例,它本身就很復雜。例如,當 OCR 分析文本時,文本可以在字體、大小、顏色、形狀和方向上變化,可以是手寫的,也可以具有其他噪聲,如部分遮擋。在測試環境中微調模型對于保持高精度和降低錯誤率變得極其重要。 NVIDIA TAO 工具包 是一個低代碼人工智能工具包,
Source
]]>
7596
-
量子經典超級計算機的編程
http://www.open-lab.net/zh-cn/blog/programming-the-quantum-classical-supercomputer/
Wed, 19 Jul 2023 05:32:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=7428
Continued]]>
異構計算架構——那些結合了各種協同工作的處理器類型的架構——在人工智能、機器學習( ML )、量子物理和通用數據科學中的計算工作負載的持續可擴展性方面被證明是非常有價值的。 這一開發的關鍵在于能夠抽象出異構體系結構,并促進一個框架,使設計和實現這類應用程序更加高效。實現這一點的最著名的編程模型是 CUDA Toolkit,它能夠按照單指令多數據模型將工作并行地分發到數千個 GPU 核心。 最近,一種新形式的節點級協處理器技術引起了計算科學界的注意:量子計算機,它依靠量子物理的非直觀定律,利用疊加、糾纏和干涉等原理來處理信息。這種獨特的加速器技術可能在非常具體的應用中被證明是有用的,并準備與 CPU 和 GPU 協同工作,開創了一個以前被認為不可行的計算進步時代。 問題變成了:如果你用量子協處理器增強現有的經典異構計算架構,你將如何以適合計算可擴展性的方式對其進行編程?
Source
]]>
7428
-
利用 OpenUSD 和合成數據開發托盤檢測模
http://www.open-lab.net/zh-cn/blog/developing-a-pallet-detection-model-using-openusd-and-synthetic-data/
Tue, 18 Jul 2023 05:41:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=7434
Continued]]>
想象一下,你是一名機器人或機器學習( ML )工程師,負責開發一個檢測托盤的模型,以便叉車能夠操縱托盤。您熟悉傳統的深度學習管道,策劃了手動注釋的數據集,并培訓了成功的模型。 你已經為下一個挑戰做好了準備,它以密集堆放的托盤的形式出現。你可能會想,我應該從哪里開始? 2D 邊界框檢測或實例分割對此任務最有用嗎?我應該進行三維邊界框檢測嗎?如果是,我將如何對其進行注釋?最好使用單眼相機、立體相機或激光雷達進行檢測嗎?考慮到自然倉庫場景中出現的托盤數量之多,手動注釋并非易事。如果我弄錯了,代價可能會很高。 這就是我在面對類似情況時所想的。幸運的是,我有一個簡單的方法來開始相對較低的承諾:合成數據。 合成數據生成(SDG)是一種使用渲染圖像而不是真實世界圖像來訓練神經網絡的技術。使用合成渲染數據的優勢在于,您可以隱式地獲取場景中對象的完整形狀和位置,
Source
]]>
7434
-
用 MONAI 和 RAPIDS 實時進行全幻燈片圖像分析
http://www.open-lab.net/zh-cn/blog/whole-slide-image-analysis-in-real-time-with-monai-and-rapids/
Thu, 13 Jul 2023 06:10:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=7453
Continued]]>
數字病理切片掃描儀生成大量圖像。載玻片通常以 40 倍的放大率進行掃描,得到千兆像素的圖像。壓縮可以將每個幻燈片的文件大小減少到 1 或 2 GB ,但這種數據量在移動、保存、加載和查看方面仍然具有挑戰性。要以全分辨率查看典型的完整幻燈片圖像,需要一個網球場大小的監視器。 與組織病理學一樣,基因組學和顯微鏡可以產生數兆字節的數據。有些用例涉及多種模式,將這些數據轉換為更易于管理的大小通常需要進行漸進式轉換,直到只保留最顯著的特征。本文探討了實現這種數據細化的一些方法,使用的分析類型,以及諸如MONAI和RAPIDS可以釋放有意義的見解。以一個典型的數字組織病理學圖像為例,因為這些圖像現在在全球的常規臨床環境中使用。 MONAI 是一套開源、免費的協作框架,旨在加速醫學成像領域的研究和臨床協作。 RAPIDS 是一套開源軟件庫,用于在 GPU 上構建端到端的數據科學和分析管道。
Source
]]>
7453
-
用于 NVIDIA 基本命令平臺中創作工作流的 Apache Airflow
http://www.open-lab.net/zh-cn/blog/apache-airflow-for-authoring-workflows-in-nvidia-base-command-platform/
Wed, 12 Jul 2023 03:12:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=7354
Continued]]>
所以,您現在有大量的數據管道,并且正在考慮使用NVIDIA Base Command Platform進行集成。那么,您應該采取哪些步驟?使用工作流管理將NVIDIA Base Command進入您現有的管道。 工作流管理器使您能夠輕松管理管道,并連接到 Base Command 以利用 NVIDIA 計算能力。此示例使用 Apache Airflow,擁有豐富的開源社區,構建良好,并被廣泛采用。 工作流管理使您能夠連接和管理管道中的所有任務。它通過創建、記錄和監控完成必要任務所需的所有步驟來實現這一點。它通過確保正確高效地完成所有工作來簡化您的工作流程。 一個企業通常有一個 BizOps 團隊、 MLOps 團隊和 DevOps 團隊,負責完成各種任務以達到給定的目標。對于一個簡單的工作流程,許多人完成各種任務,有些人相互關聯或依賴,而另一些人則完全獨立。
Source
]]>
7354
-
使用 RAPIDS-singlecell 進行 GPU 加速的單細胞 RNA 分析
http://www.open-lab.net/zh-cn/blog/gpu-accelerated-single-cell-rna-analysis-with-rapids-singlecell/
Tue, 27 Jun 2023 06:19:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=7268
Continued]]>
單細胞測序已成為生物醫學研究中最突出的技術之一。它在細胞水平上破譯轉錄組和表觀基因組變化的能力使研究人員獲得了有價值的新見解。因此,單細胞實驗的規模和復雜性增加了 100 多倍,涉及 100 多萬個細胞的實驗越來越普遍。 但是,必須在高度迭代的過程中對結果數據進行分析。至關重要的是,快速算法用于這些迭代步驟,以實現快速周轉時間。 為了使用 Python 進行更一致的單細胞分析,scverse致力于構建一個完整的生態系統,以幫助研究人員進行分析。該生態系統的核心是一種數據結構,它可以在整個數據處理管道中維護各種轉換的注釋,從而實現單細胞分析。 AnnData 是一個 Python 包,用于處理內存和磁盤上的注釋數據矩陣,是 Scanpy 庫,是 scverse 生態系統中的主要單細胞分析套件。Scanpy 構建在 PyData 生態系統中常見的其他庫之上,如 NumPy 、
Source
]]>
7268
-
使用 NVIDIA Spectrum 以太網最大限度地提高存儲網絡性能
http://www.open-lab.net/zh-cn/blog/maximizing-network-performance-for-storage-with-nvidia-spectrum-ethernet/
Mon, 26 Jun 2023 06:25:30 +0000
http://www.open-lab.net/zh-cn/blog/?p=7272
Continued]]>
隨著數據生成的不斷增加,線性性能擴展已成為擴展存儲的絕對要求。存儲網絡就像汽車道路系統:如果道路不是為速度而建的,那么汽車的潛在速度也無關緊要。即使是法拉利在充滿障礙的未鋪路面的土路上也很慢。 擴展存儲性能可能會受到連接存儲節點的以太網結構的阻礙。 NVIDIA 加速以太網可以消除性能瓶頸,為一般應用程序,特別是 AI / ML 實現最大的存儲性能。 全球每秒有 54000 張照片被拍攝。當你讀到這篇文章的時候,這個數字會更高。無論您的業務是什么,您都有可能擁有大量必須存儲和分析的數據,而且數據量每天都在增長。 使用越來越大的存儲文件管理器的舊的按比例擴展方法已被一種按比例擴展的方法所取代,這種方法可以提供容量和性能都呈線性擴展的存儲。 使用擴展存儲或分布式存儲,可以將幾個較小的節點配置和連接為一個邏輯單元。單個文件或對象可以分布在多個節點上。
Source
]]>
7272
-
零樣本多揚聲器 TTS 系統概述:熱門問答
http://www.open-lab.net/zh-cn/blog/overview-of-zero-shot-multi-speaker-tts-systems-top-qas/
Thu, 22 Jun 2023 06:32:12 +0000
http://www.open-lab.net/zh-cn/blog/?p=7280
Continued]]>
Speech AI Summit 是一個年度會議,匯集了人工智能和語音技術領域的專家,討論最新的行業趨勢和進步。這個會議的錄音講話,由 Coqui.ai 主持,總結了 2022 年峰會的零點擊多說話者 TTS 系統的概述。 近年來,文本到語音( TTS )系統憑借深度學習方法取得了顯著進步。這些進步推動了旨在僅用幾秒鐘的語音將語音合成目標說話者的語音的研究。這種方法稱為零樣本多揚聲器 TTSCoqui . ai 會議探討了這種方法背后的時間表和最先進的技術。 以下是會議的一些要點: 你能創造全新的聲音嗎?考慮過一分鐘的微調對零樣本有好處嗎?培訓 TTS 模型的硬件要求是什么? Edresson Casanova 深入探討了開發零樣本多揚聲器 TTS 系統的首要問題。 如何衡量文本到語音的質量? 一般來說,
Source
]]>
7280
-
現已上市: NVIDIA DLSS 3 用于虛幻引擎 5
http://www.open-lab.net/zh-cn/blog/now-available-nvidia-dlss-3-for-unreal-engine-5/
Wed, 21 Jun 2023 07:32:01 +0000
http://www.open-lab.net/zh-cn/blog/?p=7298
Continued]]>
NVIDIA DLSS 3 是一種神經圖形技術,使用 AI 圖像重建和幀生成來提高性能,它是由三個核心創新組成的: 在這三項技術的支持下, DLSS 3 實現了 4 倍以上的性能提升,為下一代路徑跟蹤渲染提供了空間。 DLSS Super Resolution 自 2021 年起在虛幻引擎中提供,使其能夠輕松地將 NVIDIA AI 縮放技術集成到虛幻引擎項目中。 NVIDIA 現已發布用于虛幻引擎 5 . 2 的 DLSS 3 ,其中包括 Frame Generation 和最新的 NVIDIA Reflex 版本。有關虛幻引擎 5 . 1 及更早版本的更多信息,請參閱本文后面安裝指南中的步驟 2 。 為了盡可能簡單地將 NVIDIA 技術集成到您的項目中,DLSS 3 Unreal Engine 5.2…
Source
]]>
7298
-
如何成功集成 NVIDIA DLSS 3
http://www.open-lab.net/zh-cn/blog/how-to-successfully-integrate-dlss-3/
Wed, 21 Jun 2023 07:26:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=7295
Continued]]>
NVIDIA DLSS 幀生成是 DLSS 3 中使用 AI 創建全新幀的新性能倍增器,使實時路徑追蹤成為電子游戲圖形領域的下一個前沿。 NVIDIA 發布了 Unreal Engine 5.2 Plugin 和 Streamline 2.1 SDK 以支持開發者。 虛幻引擎開發人員現在可以開始了。通過 NVIDIA Reflex 在虛幻引擎 5 中提供的低延遲技術,他們擁有提高游戲性能的所有工具,同時為玩家提供高度響應的體驗。 如果您希望在自己的自定義引擎中進行集成, Streamline 2 . 1 可以大大簡化 DLSS 3 所需所有必要組件的手動 API 掛鉤。 Streamline 是一個開源的跨 IHV 框架,它簡化了 DLSS 3 等功能的集成。 您無需手動集成 DLSS 幀生成庫,而是確定所需插件需要哪些資源(運動向量、深度等),
Source
]]>
7295
-
利用 MLAG 最大限度地提高 AI 以太網結構性能
http://www.open-lab.net/zh-cn/blog/maximizing-hpc-cluster-ethernet-fabric-performance-with-mlag/
Wed, 21 Jun 2023 07:17:18 +0000
http://www.open-lab.net/zh-cn/blog/?p=7287
Continued]]>
對于專門為人工智能訓練而構建的 HPC 集群,例如 NVIDIA DGX BasePOD 和 NVIDIA DGX SuperPOD,微調集群對于提高和優化整體性能至關重要,包括調整以太網結構、存儲結構和計算結構的性能。 本文討論了如何最大限度地提高以太網結構的整體吞吐量,通過使用Multi-Chassis Link Aggregation(MLAG),可在NVIDIA Cumulus Linux上實現。MLAG 使兩個獨立的交換機能夠向下游主機通告相同的 LACP 系統 ID,因此,下游主機會認為它們連接到單個 LACP 伙伴。 使用 MLAG 的一個好處是物理交換機級冗余。如果兩個上行鏈路交換機中的任何一個發生故障,則下游主機流量將不會受到影響。第二個好處是聚合債券的上行鏈可以同時使用。最后, MLAG 技術使用諸如 VRR / VRRP 之類的技術提供網關級冗余。
Source
]]>
7287
人人超碰97caoporen国产