人工智能/深度學習 – NVIDIA 技術博客

人工智能/深度學習 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Fri, 07 Mar 2025 09:12:52 +0000 zh-CN hourly 1 196178272 基于 1F1B 的 MoE A2A 通信計算 Overlap http://www.open-lab.net/zh-cn/blog/1f1b-moe-a2a-computing-overlap/ Fri, 07 Mar 2025 09:10:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13059 Continued]]> 在 MoE 模型的訓練過程中，EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重，對訓練效率影響很大，特別是對于 Fine-grained MoE model，EP size 會比較大，跨機通信基本無法避免。那么要如何減少 EP A2A 對整體訓練效率的影響呢？關于如何用計算掩蓋 EP A2A 通信，我們注意到目前有以下這些研究（不完全統計）：以上方案有各自的不足之處：我們分析認為， Deepseek DualPipe 調度核心亮點是實現了 batch 之間 EP A2A 通信和 attention 、mlp 計算 overlap 的精細化調度, 從而使得跨機 EP 成為可行的分布式策略。

]]>

13059

借助最新 NVIDIA Merlin TensorFlow 插件實現大規模 Embedding 擴展 http://www.open-lab.net/zh-cn/blog/merlin-tensorflow-plugin-embedding-extension/ Wed, 24 Jul 2024 04:33:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=10688 Continued]]> 通過封裝 NVIDIA Merlin HugeCTR，Sparse Operation Kit（以下簡稱 SOK）使得 TensorFlow用戶可以借助 HugeCTR 的一些相關特性和優化加速 GPU 上的分布式 Embedding訓練。在以往文章中（Merlin HugeCTR Sparse Operation Kit 系列之一 – NVIDIA 技術博客, Merlin HugeCTR Sparse Operation Kit 系列之二 – NVIDIA 技術博客），我們對 HugeCTR SOK 的基本功能、性能、用法和原理做了詳細的介紹。近期 SOK 又發布了多個版本迭代，這篇博客對最新 v2.0 版本中的新特性（尤其是動態Embedding 和在線訓練增量導出），用法進行了歸納總結和介紹，并在最后介紹了 SOK 在手機行業的應用案例。圖 1.

]]>

10688

探索 FP8 訓練中 Debug 思路與技巧 http://www.open-lab.net/zh-cn/blog/fp8-training-debug-tips/ Thu, 04 Jul 2024 07:19:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=10560 Continued]]> 目前，市場上許多公司都積極開展基于 FP8 的大模型訓練，以提高計算效率和性能。在此，我們整理并總結了客戶及 NVIDIA 技術團隊在 FP8 模型訓練過程中的 debug 思路和方法，供大家參考。在討論之前，建議大家使用我們推薦的 FP8 訓練的 Recipe，即使用 Delayed scaling，在History length為1024的窗口中選取最大的amax數值作為計算scaling factor的方法。當然，我們也在不斷優化這個 Recipe，未來隨著更多 FP8 的實踐案例，將繼續為大家總結和分享，期待共同探索和優化 debug 的思路和方案。在收集和整理了大量 FP8 訓練的案例后，我們發現，FP8 訓練中遇到的問題一般可以分成以下三類：第一類問題：Spike Issue Spike Issue 其實并不是 FP8…

Source

]]>

10560

利用 NVIDIA Merlin HierarchicalKV 實現唯品會在搜推廣場景中的 GPU 推理實踐 http://www.open-lab.net/zh-cn/blog/nvidia-merlin-hierarchicalkv/ Fri, 19 Apr 2024 13:08:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=9517 Continued]]> 本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱 Embedding 全置于 GPU 上進行加速，吞吐相比 CPU 推理服務提升高于 3 倍。唯品會（NYSE: VIPS）成立于 2008 年 8 月，總部設在中國廣州，旗下網站于同年 12 月 8 日上線。唯品會主營業務為互聯網在線銷售品牌折扣商品，涵蓋名品服飾鞋包、美妝、母嬰、居家、生活等全品類。唯品會 AI 平臺服務于公司搜索、推薦、廣告等業務團隊，提供公司級一站式服務平臺。搜索、推薦、廣告等業務旨在通過算法模型迭代，不斷優化用戶購買體驗，從而提升點擊率和轉化率等業務指標，最終實現公司銷售業績增長。在使用 GPU 打開推理算力天花板過程中，遇到了如下問題：

Source

]]>

9517

FP8：前沿精度與性能的新篇章 http://www.open-lab.net/zh-cn/blog/fp8-precision-performance/ Tue, 19 Mar 2024 03:58:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=9258 Continued]]> 在深度學習和人工智能的快速發展背景下，尤其是大語言模型（Large Language Model, LLM）的蓬勃發展，模型的大小和計算復雜性不斷增加，對硬件的性能和能效提出了極高要求。為了滿足這些需求，業界一直在尋求新的技術和方法來優化計算過程。其中，FP8（8 位浮點數）技術憑借其獨特的優勢，在 AI 計算領域嶄露頭角。本文作為FP8 加速推理和訓練系列的開篇，將深入探討 FP8 的技術優勢，以及它在 NVIDIA 產品中的應用，并通過客戶案例來展示 FP8 在實際部署中的強大潛力。一、FP8 的原理與技術優勢 FP8 是一種 8 位浮點數表示法，FP8 的詳細介紹可以參考鏈接。FP8 采取 E4M3 和 E5M2 兩種表示方式，其中 E 代表指數位（Exponent），M 代表尾數位（Mantissa）。在表示范圍內，E4M3 更精準，

]]>

9258

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型 http://www.open-lab.net/zh-cn/blog/qwen-model-support-nvidia-tensorrt-llm/ Mon, 04 Dec 2023 04:32:23 +0000 http://www.open-lab.net/zh-cn/blog/?p=8380 Continued]]> 大型語言模型正以其驚人的新能力推動人工智能的發展，擴大其應用范圍。然而，由于這類模型具有龐大的參數規模，部署和推理的難度和成本極高，這一挑戰一直困擾著 AI 領域。此外，當前存在大量支持模型部署和推理的框架和工具，如 ModelScope 的 Model Pipelines API，和 HuggingFace 的 Text Generation Inference 等，各自都有其獨特的特點和優勢。然而，這些工具往往未能充分發揮 GPU 的性能。為了解決這些問題，NVIDIA 推出了一種全新的解決方案——TensorRT-LLM。這是一款高度優化的開源計算框架，它將 NVIDIA TensorRT 的深度學習編譯器、FasterTransformer 的優化內核、預處理和后處理，以及多 GPU / 多節點通信等功能封裝在一個簡單的開源 Python/C++ API 中，

]]>

8380

NVIDIA Merlin 助力陌陌推薦業務實現高性能訓練優化 http://www.open-lab.net/zh-cn/blog/nvidia-merlin-momo-high-performance-training-optimization/ Thu, 09 Nov 2023 08:33:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=8177 Continued]]> 本案例中，NVIDIA 團隊與陌陌推薦系統團隊深度合作，共同使用 NVIDIA GPU 和 Merlin 軟件解決方案替代其原有解決方案。通過使用 Merlin TensorFlow Plugin （即 Sparse Operation Kit，SOK）和 HierarchicalKV（HKV)，相較于原方案在相同規模模型和 GPU 下，顯著提高了陌陌大規模深度多目標精排模型的訓練性能。在不影響模型效果的前提下，模型整體吞吐提升了 5 倍以上，再結合通信和 IO 等進一步優化后，極限情況下可以提升 12 倍吞吐。客戶簡介摯文集團于 2011 年成立，2014 年 12 月 11 日在美國納斯達克交易所掛牌上市（NASDAQ: MOMO），擁有陌陌、探探等多款手機應用，以及電影制作發行、節目制作等多元業務。陌陌是摯文集團于 2011 年 8…

]]>

8177

使用 Milvus 和 NVIDIA Merlin 搭建高效推薦系統 http://www.open-lab.net/zh-cn/blog/efficient-vector-similarity-search-in-recommender-workflows-using-milvus-with-nvidia-merlin/ Thu, 02 Nov 2023 09:09:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=8091 Continued]]> 如何搭建一個高效的推薦系統？簡單來說，現代推薦系統由訓練/推理流水線（pipeline）組成，涉及數據獲取、數據預處理、模型訓練和調整檢索、過濾、排名和評分相關的超參數等多個階段。走遍這些流程之后，推薦系統能夠給出高度個性化的推薦結果，從而提升產品的用戶體驗。為了方便大家對此進行深入了解，我們邀請到 NVIDIA Merlin 團隊，他們將詳細介紹推薦系統的上述多個階段的工作流程，以及推薦系統在電商、流媒體、社交媒體等多個行業領域的實踐和用例。 NVIDIA Merlin & Milvus 推薦系統 pipeline 中至關重要的一環便是為用戶檢索并找到最相關的商品。為了實現這一目標，通常會使用低維向量（embedding）表示商品，使用數據庫存儲及索引數據，最終對數據庫中數據進行近似最近鄰（ANN）搜索。這些向量表示是通過深度學習模型獲取的，

]]>

8091

適用于基于 NVIDIA 的 PC 的端到端人工智能： NVIDIA TensorRT 部署 http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-nvidia-based-pcs-nvidia-tensorrt-deployment/ Wed, 15 Mar 2023 03:25:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=6451 Continued]]> 這篇文章是關于優化端到人工智能的系列文章中的第五篇。 NVIDIA TensorRT 是一種在 NVIDIA 硬件上部署光速推理的解決方案。有了人工智能模型架構， TensorRT 可以在部署前使用，以過度搜索最有效的執行策略。 TensorRT 優化包括重新排序圖中的操作，優化權重的內存布局，以及將操作融合到單個內核以減少 VRAM 的內存流量。要應用這些優化， TensorRT 必須具有完整的網絡定義及其權重。評估的策略在 TensorRT 引擎中序列化，該引擎與應用程序一起提供，以在生產中實現最佳推理性能。在部署過程中，除了這個引擎之外，不需要其他任何東西來執行網絡。包含已編譯的內核和對文件的序列化使該引擎僅與相同計算能力的 GPU 兼容。該文件也特定于 TensorRT 版本，但將與 8.6 之后的未來版本兼容。

]]>

6451

基于 NVIDIA 的 PC 的端到端 AI ： ONNX Runtime 中的 CUDA 和 TensorRT 執行提供程序 http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-nvidia-based-pcs-cuda-and-tensorrt-execution-providers-in-onnx-runtime/ Wed, 08 Feb 2023 05:42:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=6244 Continued]]> 這篇文章是 optimizing end-to-end AI 系列文章的第四篇。有關更多信息，請參閱以下帖子：正如在 End-to-End AI for NVIDIA-Based PCs 系列的上一篇文章中所解釋的， ONNX Runtime 中有多個執行提供程序（ EP ），它們支持針對給定部署場景使用特定于硬件的功能或優化。本文介紹了 CUDA EP 和 TensorRT EP ，它們使用了高度優化的 NVIDIA 推理庫和各自的硬件功能，如 Tensor Core 。除了 NVIDIA 硬件上的最佳性能外，這還允許在多個操作系統甚至數據中心、 PC 和嵌入式（ NVIDIA Jetson ）硬件上使用相同的 EP 。由于這些 EP 是特定于 NVIDIA 的，因此這是獲得 FP8 精度或 NVIDIA Ada Lovelace architecture 中的…

]]>

6244

回顧年度： 2022 年趨勢文章 http://www.open-lab.net/zh-cn/blog/year-in-review-trending-posts-of-2022/ Tue, 03 Jan 2023 05:26:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5914 Continued]]> 2022 年標志著新技術和不斷發展的一年，各行業產生了廣泛的進步和人工智能驅動的解決方案。其中包括提高 HPC 和 AI 的工作量、研究突破以及 3D 圖形、游戲、模擬、機器人等方面的新功能。在創紀錄的一年里， NVIDIA 技術博客發布了近 550 篇帖子，并獲得了超過 200 萬的訪問量。以下是 2022 年最受歡迎的 10 個帖子。 NVIDIA 發布開源 GPU 內核模塊 Linux 中 NVIDIA GPU 的 GPU 內核模塊的第一個開源版本創建了與操作系統的更緊密集成，并使開發人員能夠調試、集成和貢獻。開始使用 NVIDIA Instant NeRFs 使用新的 NVIDIA NGP Instant NeRF ，您可以編譯代碼庫、準備圖像并訓練第一個 NeRF 。 Instant NeRF 只需要幾分鐘就能訓練出好看的視覺效果。

]]>

5914

Sky Hackthon 比賽指北 – 基礎篇 http://www.open-lab.net/zh-cn/blog/7-sky-hackathon-winner/ Mon, 05 Dec 2022 03:11:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=5750 Continued]]> Sky Hackthon 比賽是由 Nvidia 中國開發者社區舉辦的，面向國內高校學生的關于算法模型應用比賽，比賽期間，同學將用兩周時間實現一個官方指定主題的算法功能，并將其部署到指定的云端平臺上。比賽主題一般是與生活息息相關內容，例如第六屆比賽是一個 AI大白，第七屆比賽是一個垃圾檢測網站。我認為 Sky Hackthon 是一個團隊學習型比賽，比賽期間全程由導師盡心指導，凡有所問，必有所答，如果團隊間盡力合作，虛心求教，最低能達成完賽要求，最高直接領獎！作為一個學習型比賽，可以向導師學習、向其他團隊學習、團隊間學習等等，可以說，從完全不會的 0 基礎小白，到基本熟悉 Linux 操作，學會算法模型訓練與部署，就缺這么一場競賽。本人參加第六屆、第七屆Sky Hackthon比賽均獲得第一名，

]]>

5750

來 NVIDIA 第七屆 Sky Hackathon，挑戰智能語音垃圾分類任務 http://www.open-lab.net/zh-cn/blog/7-sky-hackathon-speech-recognition-garbage-classification/ Tue, 01 Nov 2022 02:33:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=5507 Continued]]> Sky Hackathon 由 NVIDIA 發起并主辦，項目旨在幫助在校學生、深度學習開發者在NVIDIA Jetson 邊緣高性能計算產品上部署和優化人工智能應用。在經驗豐富的 GPU 導師指導下，通過黑客松競賽的方式學習業界所需的深度學習相關應用開發及其并行計算技能，激發學生們的學習興趣與創新力。 NVIDIA 工程師將親自為參賽隊伍帶來他們對最新的深度學習與邊緣計算方面的理解、行業的趨勢與最新的技術應用及最新開發工具實戰技能知識，在訓練營中對參賽隊伍進行指導。Sky Hackathon 為參加者提供了一個難得的學習并實操的機會，學習嵌入式深度學習開發所需的動手技能，通過使用 NVIDIA 最新的編程模型、庫和工具以加速和優化他們的AI應用程序。整個活動包含了訓練營和黑客松比賽，全程采用在線的方式。本次比賽最終成績排名前三名隊伍，將各獲得由 NVIDIA 提供的 RTX 3050…

]]>

5507

GPU 教育的他山之石 – NVIDIA GPU教育論壇 http://www.open-lab.net/zh-cn/blog/gpu-education-cn/ Sun, 18 Sep 2022 04:00:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=5088 Continued]]> NVIDIA GEC（GPU Education Center）是提供給全國在 GPU 教育領域正在做出貢獻的教師們的溝通交流平臺，以協助教師們做好 GPU 開發教育為目的，以實現共同推動高性能計算 / 人工智能開發在國內的推廣。 NVIDIA GEC 年會在過去已經舉辦六屆，在年會中，來自 GEC 的各位老師會聚在一起分享過去一年中針對 GPU 應用所取得的一些教學成果。目前因為疫情防控等原因，無法舉辦面對面交流活動，在此我們邀請到來自GEC的幾位老師作為代表來通過視頻方式分享他們在 GPU 教育領域的優秀成果和經驗，期待未來有更多的來自高校或者中學的老師們能夠加入到 GPU 教育的行列中，為社會輸送更多 AI 開發人才。演講嘉賓劉念寧（Maggie Liu）, 全球副總裁，NVIDIA 劉瑩，教授，

]]>

5088

與 Sophia Abraham 一起探索人工智能事業 http://www.open-lab.net/zh-cn/blog/exploring-a-career-in-ai-with-sophia-abraham/ Wed, 31 Aug 2022 04:23:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5080 Continued]]> Sophia Abraham 一直認為她會成為一名醫生。她目前正在圣母大學攻讀計算機科學和計算機工程博士學位。這位有抱負的醫生是如何設計人工智能來識別澳大利亞的入侵草種，并設計無人機來幫助搜索和救援工作的？索菲亞的許多愿望最初源于對醫生角色的浪漫化看法。但在神經科學實驗室工作了數小時并跟蹤醫生后，她意識到自己對機械工程有著更強烈的熱情。盡管她的家人不贊成換專業，她還是決定在一個她感興趣的領域里碰碰運氣。索菲亞在一家政府智庫完成了機械工程實習，并看到了數據科學團隊的工作后，調整了課程。她發現真正讓她感興趣的是計算機科學的藝術。 “如果機械工程師正在創造身體，那么計算機科學家正在為身體呼吸生命，”她解釋說。“我意識到，我真的很想在我所做的一切創造中注入生命。” 索菲亞決定直接申請幾個計算機科學博士課程。雖然申請研究生課程對大多數學生來說都是挑戰性和競爭性的，

]]>

5080

人人超碰97caoporen国产