薛博陽 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 30 Apr 2024 08:24:30 +0000 zh-CN hourly 1 196178272 NVIDIA GPU 架構下的 FP8 訓練與推理 http://www.open-lab.net/zh-cn/blog/nvidia-gpu-fp8-training-inference/ Thu, 25 Apr 2024 03:21:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=9584 Continued]]> 本文聚焦 NVIDIA FP8 訓練與推理的實踐應用,該內容來源于 2023 云棲大會 NVIDIA 專場演講。 FP8 訓練利用 E5M2/E4M3 格式,具備與 FP16 相當的動態范圍,適用于反向傳播與前向傳播。FP8 訓練在相同加速平臺上的峰值性能顯著超越 FP16/BF16,并且模型參數越大,訓練加速效果越好,且其與 16-bits 訓練在收斂性和下游任務表現上無顯著差異。FP8 訓練通過 NVIDIA Transformer Engine 實現,僅需少量代碼改動,并且支持 FlashAttention、混合精度訓練遷移等。支持 FP8 的框架包括 NVIDIA Megatron-LM、NeMo、DeepSpeed、飛槳 PaddlePaddle、Colossal AI、HuggingFace 等。 FP8 推理通過 NVIDIA TensorRT-LLM…

Source

]]>
9584
FP8:前沿精度與性能的新篇章 http://www.open-lab.net/zh-cn/blog/fp8-precision-performance/ Tue, 19 Mar 2024 03:58:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=9258 Continued]]> 在深度學習和人工智能的快速發展背景下,尤其是大語言模型(Large Language Model, LLM)的蓬勃發展,模型的大小和計算復雜性不斷增加,對硬件的性能和能效提出了極高要求。為了滿足這些需求,業界一直在尋求新的技術和方法來優化計算過程。其中,FP8(8 位浮點數)技術憑借其獨特的優勢,在 AI 計算領域嶄露頭角。本文作為FP8 加速推理和訓練系列的開篇,將深入探討 FP8 的技術優勢,以及它在 NVIDIA 產品中的應用,并通過客戶案例來展示 FP8 在實際部署中的強大潛力。 一、FP8 的原理與技術優勢 FP8 是一種 8 位浮點數表示法,FP8 的詳細介紹可以參考鏈接。FP8 采取 E4M3 和 E5M2 兩種表示方式,其中 E 代表指數位(Exponent),M 代表尾數位(Mantissa)。在表示范圍內,E4M3 更精準,

Source

]]>
9258
全棧創新為 NVIDIA 最高 MLPerf 推斷 2.1 結果提供燃料 http://www.open-lab.net/zh-cn/blog/full-stack-innovation-fuels-highest-mlperf-inference-2-1-results-for-nvidia/ Thu, 08 Sep 2022 05:50:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5288 Continued]]> 如今,人工智能驅動的應用程序正在實現更豐富的體驗,這是由更大和更復雜的人工智能模型以及許多模型在管道中的應用所推動的。為了滿足注入人工智能的應用程序日益增長的需求,人工智能平臺不僅必須提供高性能,而且必須具有足夠的通用性,以便在各種人工智能模型中提供這種性能。為了最大限度地提高基礎設施利用率并優化 CapEx ,在同一基礎設施上運行整個 AI 工作流的能力至關重要:從數據準備和模型培訓到部署推理。 MLPerf 基準 已成為行業標準、同行評議的深度學習績效衡量標準,涵蓋人工智能培訓、人工智能推理和 高性能計算 ( HPC )。 MLPerf 推斷 2.1 是 MLPerf 推理基準套件的最新迭代,涵蓋了廣泛的常見 AI 用例,包括推薦、自然語言處理、語音識別、醫學成像、圖像分類和對象檢測。 在這一輪中, NVIDIA 在最新 NVIDIA H100 Tensor Core GPU…

Source

]]>
5288
使用 FasterTransformer 和 Triton 推理服務器加速大型?Transformer?模型的推理 http://www.open-lab.net/zh-cn/blog/accelerated-inference-for-large-transformer-models-using-nvidia-fastertransformer-and-nvidia-triton-inference-server/ Wed, 03 Aug 2022 02:56:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4781 Continued]]> 這是討論 NVIDIA FasterTransformer 庫的兩部分系列的第一部分,該庫是用于對任意大小(多達數萬億個參數)的Transformer進行分布式推理的最快庫之一。它提供了 FasterTransformer 的概述,包括使用該庫的好處。 使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5(第 2 部分)是一個指南,說明了使用 FasterTransformer 庫和 Triton 推理服務器以具有張量并行性的最佳方式為 T5-3B 和 GPT-J 6B 模型提供服務。 Transformers 是當今最具影響力的 AI 模型架構之一,正在塑造未來 AI 研發的方向。它們最初是作為自然語言處理 (NLP) 的工具而發明的,現在幾乎用于任何 AI 任務,包括計算機視覺、自動語音識別、分子結構分類和金融數據處理。

Source

]]>
4781
使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5 http://www.open-lab.net/zh-cn/blog/deploying-gpt-j-and-t5-with-fastertransformer-and-triton-inference-server/ Wed, 03 Aug 2022 02:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4768 Continued]]> 這是關于 NVIDIA 工具的兩部分系列的第二部分,這些工具允許您運行大型Transformer模型以加速推理。 有關 NVIDIA FasterTransformer 庫(第 1 部分)的介紹,請參閱 使用 FasterTransformer 和 Triton 推理服務器加速大型 Transformer 模型的推理 這篇文章是大型Transformer模型(例如 EleutherAI 的 GPT-J 6B 和 Google 的 T5-3B)的優化推理指南。這兩種模型在許多下游任務中都表現出良好的效果,并且是研究人員和數據科學家最常用的模型之一。 NVIDIA Triton 中的 NVIDIA FasterTransformer (FT) 允許您以類似且簡單的方式運行這兩個模型,同時提供足夠的靈活性來集成/組合其他推理或訓練管道。

Source

]]>
4768
人人超碰97caoporen国产