Joe Delaere – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 21 Aug 2024 04:15:14 +0000
zh-CN
hourly
1
196178272 -
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能
http://www.open-lab.net/zh-cn/blog/nvidia-nvlink-and-nvidia-nvswitch-supercharge-large-language-model-inference/
Mon, 12 Aug 2024 07:03:12 +0000
http://www.open-lab.net/zh-cn/blog/?p=10993
Continued]]>
大型語言模型(LLM)越來越大,增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求,并為盡可能多的用戶提供服務,多GPU計算是必不可少的。這不僅能夠降低延遲,提高用戶體驗,還能夠提高吞吐量,降低服務成本。兩者同時重要。 即使大型模型可以裝入單個state-of-the-art GPU的內存中,該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力,可以實現最新模型的實時用戶體驗。 為了解對每秒高令牌的需求,以下 GIF 展示了兩種情況: 通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型,可以快速處理推理請求,從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量,云推理服務還可以同時優化用戶體驗和成本。
Source
]]>
10993
-
NVIDIA TensorRT-LLM 在 NVIDIA H100 GPU 上大幅提升大語言模型推理能力
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/
Fri, 08 Sep 2023 04:01:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=7796
Continued]]>
大語言模型(LLM)提供異常強大的新功能,拓展了 AI 的應用領域。但由于其龐大的規模和獨特的執行特性,很難找到經濟高效的使用方式。 NVIDIA 一直在與 Meta、Anyscale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(現已并入 Databricks)、OctoML、ServiceNow、Tabnine、Together AI 和 Uber 等頭部企業密切合作,共同加速和優化 LLM 推理性能。 這些創新已被集成到開源的 NVIDIA TensorRT-LLM 軟件中,可用于 Ampere、Lovelace 和 Hopper 架構 GPU,并將在未來幾周內發布。TensorRT-LLM 包含 TensorRT 深度學習編譯器,并且帶有經過優化的內核、前處理和后處理步驟,以及多 GPU/多節點通信原語,
Source
]]>
7796
-
分割 NVIDIA A30 GPU 并征服多個工作負載
http://www.open-lab.net/zh-cn/blog/dividing-nvidia-a30-gpus-and-conquering-multiple-workloads/
Tue, 30 Aug 2022 03:12:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5007
Continued]]>
多實例 GPU ( MIG )是 NVIDIA H100 , A100 和 A30 張量核 GPU ,因為它可以將 GPU 劃分為多個實例。每個實例都有自己的計算核心、高帶寬內存、二級緩存、 DRAM 帶寬和解碼器等媒體引擎。 這使得多個工作負載或多個用戶能夠在一個 GPU 上同時運行工作負載,以最大化 CPU 利用率,同時保證服務質量( QoS )。單個 A30 可以被劃分為最多四個 MIG 實例,以并行運行四個應用程序。 這篇文章將指導您如何在 A30 上使用 MIG ,從劃分 MIG 實例到同時在 MIG 實例上運行深度學習應用程序。 默認情況下, A30 上禁用 MIG 模式。在分區 GPU 上運行任何 MIG 工作負載之前,必須啟用 CUDA 模式,然后對 A30 進行分區。要劃分 A30 ,請創建 GPU 實例,然后創建相應的計算實例。
Source
]]>
5007
人人超碰97caoporen国产