Best practice – NVIDIA 技術博客

Best practice – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Wed, 19 Mar 2025 08:40:51 +0000 zh-CN hourly 1 196178272 NVIDIA NIM 微服務助力大規模 LLM 推理效率優化 http://www.open-lab.net/zh-cn/blog/optimizing-inference-efficiency-for-llms-at-scale-with-nvidia-nim-microservices/ Wed, 14 Aug 2024 05:14:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10967 Continued]]> 隨著大型語言模型 (LLMs) 繼續以前所未有的速度發展，企業希望構建生成式 AI 驅動的應用程序，以最大限度地提高吞吐量，降低運營成本，并盡可能減少延遲，從而提供卓越的用戶體驗。本文將討論 LLM 的吞吐量和延遲的關鍵性能指標，探索其重要性以及兩者之間的權衡。本文還將探討吞吐量和延遲如何影響 AI 應用程序的效率和用戶體驗，以及如何使用 NVIDIA NIM 微服務對其進行優化。當用戶向LLM發送請求時，系統會處理該請求，并通過輸出一系列令牌開始生成響應。通常會有多個請求發送到系統，系統會嘗試同時處理這些請求，以盡可能縮短每個請求的等待時間。吞吐量用于衡量單位時間內的成功操作數。吞吐量是企業確定其同時處理用戶請求的能力的重要衡量指標。對于 LLM，吞吐量由令牌每秒來衡量。由于令牌是新貨幣，更高的吞吐量可以降低成本并為企業帶來收入。此外，

]]>

10967

NVIDIA Nsight Graphics 幫助您輕松調試著色器 http://www.open-lab.net/zh-cn/blog/shader-debugging-made-easy-with-nvidia-nsight-graphics/ Wed, 31 Jul 2024 06:17:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=10951 Continued]]> 著色器是在 GPU 上運行的專用程序，可處理光線、像素、頂點和紋理，以實現獨特的視覺效果。借助著色器，您可以為渲染的圖像添加創意表達和真實感。它們在光線追蹤中對于模擬逼真的光照、陰影和反射至關重要。我們喜歡著色器，但它們可能很難調試。著色器計算非常復雜，并且跨多個線程運行，這可能會導致同步問題和難以重現的不一致錯誤。開發者通常必須手動追蹤著色器邏輯，確定正在訪問的資源，并推斷錯誤發生的位置。這一過程效率低下，通常需要逐步注釋著色器的某些部分，以測試和定位問題：一種容易出錯的策略。由于渲染技術如降噪等使用了循環緩沖區，因此會帶來額外的挑戰。這些緩沖區中的錯誤會跨幀傳播，因此很難確定根本原因。同樣，傳統調試工具通常無法提供必要的見解，因此您不得不采用手動調試技術來追蹤多個通道并找到問題的根源。 NVIDIA 清楚地表明，圖形社區需要功能強大、

]]>

10951

利用 OpenUSD 構建產品配置器 http://www.open-lab.net/zh-cn/blog/developing-product-configurators-with-openusd/ Wed, 24 Jul 2024 09:13:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=10742 Continued]]> 從廣告公司到軟件供應商的開發者都在助力全球品牌通過產品配置器解決方案為數字體驗和視覺故事提供超個性化體驗。通過將 NVIDIA Omniverse 與 OpenUSD 和生成式 AI 集成到產品配置器中，解決方案提供商和軟件開發者能夠為品牌和零售消費者提供交互式、光線追蹤的逼真體驗。當整合到 OpenUSD 中時，可以更快地從設計團隊獲取準確的 CAD 數據，并將其交付給營銷團隊，以便在活動素材創建和數字體驗中使用。產品配置器使最終用戶能夠從任何角度實時切換和更改預定的變體，例如汽車的顏色、輪胎類型或內飾選項。生成式 AI 可以添加即時的超個性化層，例如在海灘與山脈中不同的周圍環境。為3D 產品配置器構建此類應用程序或解決方案有助于解鎖藝術家對舞臺 3D 資產和環境的再利用，從而節省大量時間并提高靈活性。這些體驗可以面向消費者，也可以面向內部，

]]>

10742

構建網絡語言模型以解鎖新的網絡安全功能 http://www.open-lab.net/zh-cn/blog/building-cyber-language-models-to-unlock-new-cybersecurity-capabilities/ Tue, 09 Jul 2024 07:13:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=10596 Continued]]> 通用型大型語言模型 (LLM) 已證明其在各個領域的效用，在文本生成和復雜問題解決等應用中提供了巨大的優勢。但是，在某些情況下，開發定制語言模型不僅是有益的，而且至關重要。在以獨特的詞匯表和內容為特征的專業領域中，這種需求尤其明顯，這些詞匯表和內容不同于典型的語言結構。在網絡安全領域中，一般的 LLM 限制變得顯而易見，尤其是在處理原始日志時。自然語言的本質與機器生成的日志的結構化格式截然不同。直接將傳統的 LLM 應用于此類數據是不切實際的。這些模型難以處理機器日志的特征，這些特征與自然語言的結構有很大不同。使用自然語言文本、關聯代碼和機器日志語料庫預訓練的 LLM 缺乏在真實環境中有效解析、理解和構建網絡安全數據所需的特定性，從而導致應用程序在應對網絡安全挑戰方面受到嚴重限制。必須使用經過原始網絡日志訓練的網絡語言模型來生成特定于企業環境的日志，

]]>

10596

保護應用程序完整性的安全 LLM 令牌化解決方案 http://www.open-lab.net/zh-cn/blog/secure-llm-tokenizers-to-maintain-application-integrity/ Thu, 27 Jun 2024 05:42:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=10557 Continued]]> 本文是 NVIDIA AI Red Team 持續漏洞和技術研究的一部分。NVIDIA AI Red Team’s利用本文所展示的概念負責任地評估和提高您 AI 開發和部署流程及應用的安全性。大型語言模型（LLM）不會在字符串上運行。相反，提示通過通常透明的轉換器（稱為 tokenizer）傳遞，該轉換器根據提供的提示字符串創建令牌 ID 數組。同樣，tokenizer 將 LLM 輸出（令牌 ID 數組）處理回可讀文本。初始化 tokenizer 時，驗證不足可能會使惡意行為者破壞令牌編碼和解碼，從而在用戶可讀輸入和輸出與 LLM 計算之間造成差異。由于多種原因，攻擊者可能會鎖定 tokenizer。雖然 tokenizer 最初是經過訓練的，但它們也經常被重復使用。一個 tokenizer 可以用于數百個衍生模型。雖然模型通常經過重新訓練或微調，

]]>

10557

在 cuBLAS 中引入分組 GEMM API 以及更多性能更新 http://www.open-lab.net/zh-cn/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/ Wed, 12 Jun 2024 05:43:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10332 Continued]]> 最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習（DL）和高性能計算（HPC）工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法（matrix multiplications）中的以下更新：分組的 GEMM API 可視為批量 API 的泛化，可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64，以及 FP16 輸入和輸出。在本示例中，分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。這一點令人印象深刻，因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。

]]>

10332

使用 NVIDIA AI LangChain AI 端點構建 RAG 管道的提示 http://www.open-lab.net/zh-cn/blog/tips-for-building-a-rag-pipeline-with-nvidia-ai-langchain-ai-endpoints/ Wed, 08 May 2024 06:22:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=9852 Continued]]> 檢索增強生成（RAG）是一種將信息檢索與一組精心設計的系統提示相結合的技術，旨在從大型語言模型（LLM）中生成高質量的內容。通過合并來自各種來源的數據，如關系數據庫、非結構化文檔存儲庫、互聯網數據流和媒體新聞源，RAG 可以顯著提高生成人工智能系統的性能和準確性。開發人員在構建 RAG 管道時必須考慮多種因素：從 LLM 響應基準測試到選擇正確的塊大小。在這篇文章中，我將演示如何使用 LangChain 的 NVIDIA AI 終結點。首先，通過下載網頁并使用 NVIDIA NeMo Retriever 嵌入微服務，然后使用搜索相似性 FAISS。接著，我將展示兩個不同的聊天鏈，用于查詢矢量儲存。對于此示例，我參考了 NVIDIA Triton 推理服務器文檔，盡管可以很容易地修改代碼以使用任何其他源代碼。欲了解更多信息和后續內容，

]]>

9852

NVIDIA GTC 2024 的頂級數據科學會議現已按需提供 http://www.open-lab.net/zh-cn/blog/top-data-science-sessions-from-nvidia-gtc-2024-now-available-on-demand/ Mon, 29 Apr 2024 08:55:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=9899 Continued]]> 在 GTC 2024 上， NVIDIA 的專家和我們的合作伙伴分享了有關 GPU 加速工具、優化和數據科學家最佳實踐的見解。從涵蓋各種主題的數百場會議中，我們精心挑選了您不想錯過的前三場數據科學會議。 RAPIDS 2024：無處不在的數據科學加速演講嘉賓： Dante Gama Dessavre，NVIDIA 機器學習工程經理： Nick Becker，NVIDIA 高級技術產品經理在這次演示中，我們的團隊宣布 RAPID 現在允許‌數據科學家可以訪問 GPU 加速，同時仍然可以使用您喜歡的工具進行數據幀、機器學習、圖形分析、矢量數據庫，甚至基于 LLM 的工作流。該團隊還介紹了如何利用加速計算的令人興奮的更新，以及 2024 年的 RAPID 路線圖。零代碼加速熊貓：使用 RAPIDS cuDF 實現高速更改主講人：Ashwin Srinath，

]]>

9899

使用 NVIDIA Holoscan 1.0 開發生產就緒型 AI 傳感器處理應用 http://www.open-lab.net/zh-cn/blog/developing-production-ready-ai-sensor-processing-applications-with-nvidia-holoscan-1-0/ Wed, 20 Mar 2024 05:01:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=9327 Continued]]> 邊緣 AI 開發者正在為安全關鍵型和受監管用例構建 AI 應用和產品。借助 NVIDIA Holoscan 1.0，這些應用可以在幾毫秒內整合實時見解和處理功能。借助近期發布的 NVIDIA Holoscan 1.0，開發者可以更輕松地構建用于多模態實時傳感器處理的生產就緒型應用程序。NVIDIA AI Enterprise 現在可為 Holoscan 軟件堆棧提供安全補丁和關鍵錯誤修復，并具有有保證的 API 穩定性。這降低了產品維護成本，并簡化了邊緣 AI 應用程序的大規模部署。 Holoscan 是一個與領域無關的 NVIDIA 多模態實時 AI 傳感器處理平臺，為開發者構建端到端傳感器處理流程奠定了基礎。該平臺以性能、可用性和生產就緒型等架構目標為基礎而構建。在傳感器處理流程的每個步驟中，Holoscan 都能提供優化的性能，同時更大限度地降低開發復雜性。該流程包括：

]]>

9327

強大的著色器見解：通過 NVIDIA Nsight Graphics 使用著色器調試信息 http://www.open-lab.net/zh-cn/blog/harness-powerful-shader-insights-using-shader-debug-info-with-nvidia-nsight-graphics/ Thu, 14 Mar 2024 07:19:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=9413 Continued]]> 隨著光線追蹤成為現代游戲引擎中的主要渲染技術，單個 GPU RayGen 著色器現在可以執行幀的大部分光線模擬。為了管理這種復雜程度，有必要在 HLSL 或 GLSL 源代碼級別觀察著色器性能的分解。因此，著色器分析器現在是優化光線追蹤的必備工具。在本文中，我將向您展示如何使用 NVIDIA Nsight Graphics 的 GPU Trace Profiler 來分析低級別的著色器性能，以及如何啟用 DirectX 編譯器 (DXC) 的調試信息選項。在整個博文中，我將使用以下縮寫： Path Tracing SDK 示例使用嵌入式著色器調試信息編譯所有著色器 () 作為 DXC 命令行選項，CMake 文件中進行了配置。如果不需要選項，可以從 Visual Studio 解決方案中刪除它并進行重建。我還使用默認設置 (啟用了 Real-Time…

]]>

9413

限制 CPU 線程以獲得更好的游戲性能 http://www.open-lab.net/zh-cn/blog/limiting-cpu-threads-for-better-game-performance/ Wed, 21 Feb 2024 05:06:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=8942 Continued]]> 許多 PC 游戲都圍繞 8 核游戲機進行設計，并假設其軟件線程系統在所有 PC 上都“正常工作”，尤其是在工作線程池中的線程數量方面。不久前，大多數 PC 的核心數量與游戲機相似時，這是一個合理的假設：CPU 的速度更快，性能只是擴展。但近年來，CPU 格局發生了變化，現在有一個復雜的性能變量矩陣需要導航：這種復雜性意味著先前的線程計數確定算法(及其衍生算法)已不再足夠：這種傳統的線程數量確定算法基于邏輯核心數量，并為關鍵線程保留了兩個核心。當核心數量超過某個點時，許多受 CPU 限制的游戲實際上會降低性能，因此額外線程并行性的優勢會被開銷所抵消。例如，在擁有 8 個以上物理核心的高端桌面系統中，一些游戲通過將其工作池的線程數量減少到 CPU 核心數量，可實現高達 15%的性能提升。造成性能下降的原因十分復雜且多種多樣。

]]>

8942

借助 NVIDIA Quantum InfiniBand 簡化 AI 網絡運營 http://www.open-lab.net/zh-cn/blog/simplifying-network-operations-for-ai-with-nvidia-quantum-infiniband/ Tue, 23 Jan 2024 04:18:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=8809 Continued]]> 一個常見的技術誤區是，性能和復雜性直接相關。也就是說，高性能的實現也是實現和管理最具挑戰性的。但是，在考慮數據中心網絡時，情況并非如此。與以太網相比，InfiniBand 可能聽起來令人生畏且新奇，但它實際上是更易于部署和維護的，因為它從一開始就是為了實現最高性能而設計的。當您考慮 AI 基礎設施的連接時，InfiniBand 集群操作和維護指南可以幫助您盡可能簡化全棧 InfiniBand 網絡的設置和操作。本指南全面介紹了簡化網絡運營的基本步驟，特別詳細介紹了如何使用 NVIDIA Unified Fabric Manager（UFM）來協助初始配置和持續維護計劃，適用于第 0 天、第 1 天和第 2 天的網絡運營。 UFM 是一個功能強大的工具集，具有廣泛的遙測和分析功能。但是，開始使用 UFM 了解集群監控和管理的基礎知識不需要任何高級前提條件或專業知識。

]]>

8809

在某些場景中使用 cgroup 縮短 CUDA 初始化時間 http://www.open-lab.net/zh-cn/blog/improving-cuda-initialization-times-using-cgroups-in-certain-scenarios/ Fri, 05 Jan 2024 05:55:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=8671 Continued]]> 在多 GPU 平臺上運行的許多 CUDA 應用程序通常使用單個 GPU 來滿足其計算需求。在這種情況下，應用程序會支付性能損失，因為 CUDA 必須枚舉/初始化系統上的所有 GPU.如果 CUDA 應用程序不需要其他 GPU 可見和可訪問，您可以通過將不需要的 GPU 與 CUDA 進程隔離并消除不必要的初始化步驟來啟動此類應用程序。本文將討論實現此目標的各種方法及其性能優勢。在 Linux 系統上，可以使用 Linux 工具(如.在本節中，我們首先討論低級方法，然后討論更高級別的可能方法。 CUDA 提供的用于隔離設備的另一種方法是使用雖然在功能上類似，但相較于 NVIDIA Omniverse 的方法。控制組提供了一種機制，用于將任務集及其未來的子集聚合或劃分到具有專門行為的分層組中。您可以使用來控制 CUDA 進程可見的 GPU.

]]>

8671

高級 API 性能：交換鏈 http://www.open-lab.net/zh-cn/blog/advanced-api-performance-swap-chains/ Fri, 15 Dec 2023 05:37:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=8585 Continued]]> 交換鏈是如何將渲染數據輸出到屏幕的不可或缺的一部分。它們通常由一組輸出就緒型緩沖區組成，每個緩沖區都可以旋轉渲染為一個緩沖區。在渲染到交換鏈的某個緩沖區的同時，交換鏈中的其他緩沖區通常被讀取以進行顯示輸出。本文介紹了在 NVIDIA GPU 上使用交換鏈時的最佳實踐。要在您的應用中獲得穩定的高幀率，請參閱我們的高級 API 性能提示。在尋求提高渲染性能時，通常會專注于渲染管線中更頻繁優化的部分。但是，交換鏈通常會被忽略，從而將潛在性能和延遲放在桌面上。以下建議和注意事項可讓您更深入地了解確保最佳交換鏈性能的最佳方法。感謝 Cody Robson、Kumaresan Gnanasekaran、Adrian Muntianu 和 Meenal Nachnani 提供的建議和幫助。 …

]]>

8585

高級 API 性能：內部函數 http://www.open-lab.net/zh-cn/blog/advanced-api-performance-intrinsics/ Tue, 21 Nov 2023 04:45:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=8292 Continued]]> Intrinsics 可被視為特定硬件指令的更高級別的抽象。它們提供對低級操作或特定于硬件的功能的直接訪問，從而提高性能。這樣，就可以在線程束中的線程間執行操作，也稱為線程束中的線程波前. 以下代碼示例是 SM6 的示例： …

]]>

8292

人人超碰97caoporen国产