Pramod Ramarao – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 01 Sep 2022 03:26:50 +0000 zh-CN hourly 1 196178272 分割 NVIDIA A30 GPU 并征服多個工作負載 http://www.open-lab.net/zh-cn/blog/dividing-nvidia-a30-gpus-and-conquering-multiple-workloads/ Tue, 30 Aug 2022 03:12:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5007 Continued]]> 多實例 GPU ( MIG )是 NVIDIA H100 , A100 和 A30 張量核 GPU ,因為它可以將 GPU 劃分為多個實例。每個實例都有自己的計算核心、高帶寬內存、二級緩存、 DRAM 帶寬和解碼器等媒體引擎。 這使得多個工作負載或多個用戶能夠在一個 GPU 上同時運行工作負載,以最大化 CPU 利用率,同時保證服務質量( QoS )。單個 A30 可以被劃分為最多四個 MIG 實例,以并行運行四個應用程序。 這篇文章將指導您如何在 A30 上使用 MIG ,從劃分 MIG 實例到同時在 MIG 實例上運行深度學習應用程序。 默認情況下, A30 上禁用 MIG 模式。在分區 GPU 上運行任何 MIG 工作負載之前,必須啟用 CUDA 模式,然后對 A30 進行分區。要劃分 A30 ,請創建 GPU 實例,然后創建相應的計算實例。

Source

]]>
5007
提高 Kubernetes 的 GPU 利用率 http://www.open-lab.net/zh-cn/blog/improving-gpu-utilization-in-kubernetes/ Thu, 16 Jun 2022 06:14:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4331 Continued]]> 為了實現可擴展的數據中心性能, NVIDIA GPU 已成為必備產品。 NVIDIA GPU 由數千個計算核支持的并行處理能力對于加速不同行業的各種應用至關重要。目前,跨多個行業的計算密集型應用程序使用 GPU : 此范圍內的不同應用程序可能有不同的計算要求。訓練巨型人工智能模型,其中 GPU 批處理并行處理數百個數據樣本,使 GPU 在訓練過程中得到充分利用。然而,許多其他應用程序類型可能只需要 GPU 計算的一小部分,從而導致大量計算能力的利用不足。 在這種情況下,為每個工作負載提供適當大小的 GPU 加速是提高利用率和降低部署運營成本的關鍵,無論是在本地還是在云中。 為了解決 Kubernetes ( K8s )集群中 GPU 利用率的挑戰, NVIDIA 提供了多種 GPU 并發和共享機制,以適應廣泛的用例。最新添加的是新的 GPU 時間切片 API ,

Source

]]>
4331
使用 DCGM 監控 Kubernetes 中的 GPU http://www.open-lab.net/zh-cn/blog/monitoring-gpus-in-kubernetes-with-dcgm/ Wed, 04 Nov 2020 01:07:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=256 Continued]]> 對于基礎設施或站點可靠性工程( SRE )團隊來說,監控多個 GPU 對于管理大型 GPU 集群以實現 AI 或 HPC 工作負載至關重要。 GPU 指標允許團隊了解工作負載行為,從而優化資源分配和利用率,診斷異常,并提高數據中心的整體效率。除了基礎設施團隊之外,無論您是從事 GPU – 加速 ML 工作流的研究人員,還是喜歡了解 GPU 利用率和容量規劃飽和的數據中心設計師,您應該都對指標感興趣。 這些趨勢變得更為重要,因為 AI / ML 工作負載通過使用 Kubernetes 之類的容器管理平臺進行容器化和擴展。在這篇文章中,我們將概述 NVIDIA 數據中心 GPU 經理( DCGM ),以及如何將其集成到諸如 Prometheus 和 Grafana 這樣的開源工具中,從而為 Kubernetes 構建一個 GPU 監控解決方案。

Source

]]>
256
CUDA 11 功能揭曉 http://www.open-lab.net/zh-cn/blog/cuda-11-features-revealed/ Thu, 14 May 2020 03:26:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=193 Continued]]> 基于 NVIDIA Ampere GPU 架構的新型 NVIDIA A100 GPU 在加速計算方面實現了最大的一代飛躍。 A100 GPU 具有革命性的硬件功能,我們很高興宣布 CUDA 11 與 A100 結合使用。 CUDA 11 使您能夠利用新的硬件功能來加速 HPC 、基因組學、 5G 、渲染、深度學習、數據分析、數據科學、機器人技術和更多不同的工作負載。 CUDA 11 包含了從平臺系統軟件到您開始開發 GPU 加速應用程序所需的所有功能。本文概述了此版本中的主要軟件功能: 一篇文章不能公正地反映 CUDA 11 中提供的每一個特性。在這篇文章的最后,有一些鏈接到 GTC 數字會議,這些會議提供了對新的 CUDA 特性的深入探討。 NVIDIA Ampere GPU 微體系結構采用 TSMC 7nm N7 制造工藝制造,

Source

]]>
193
簡化 Kubernetes 中的 GPU 管理 http://www.open-lab.net/zh-cn/blog/nvidia-gpu-operator-simplifying-gpu-management-in-kubernetes/ Mon, 21 Oct 2019 03:18:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=156 Continued]]> 在過去的幾年里, NVIDIA 以各種方式利用 GPU 容器來測試、開發和大規模運行生產中的 AI 工作負載。為 NVIDIA GPUs 優化的容器和 DGX 和 OEM NGC Ready 服務器等系統可作為 NGC 的一部分提供。 但是用 GPUs 可靠地提供服務器并擴展人工智能應用程序可能會很棘手。 Kubernetes 憑借其豐富的應用程序可擴展性和高性能特性迅速構建在其平臺上。 Kubernetes 通過設備插件 框架 提供對特殊硬件資源的訪問,如 NVIDIA GPUs 、 NICs 、 Infiniband 適配器和其他設備。但是,使用這些硬件資源配置和管理節點需要配置多個軟件組件,例如驅動程序、容器運行時或其他庫,這些組件很難并且容易出錯。 Kubernetes 中的 運營商框架 采用操作業務邏輯,并允許使用標準的 Kubernetes API 和…

Source

]]>
156
在容器運行時生態系統中啟用 GPU http://www.open-lab.net/zh-cn/blog/gpu-containers-runtime/ Fri, 01 Jun 2018 03:36:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=240 Continued]]> NVIDIA 使用容器來開發、測試、基準測試和部署深度學習( DL )框架和 HPC 應用程序。大約兩年前,我們用 NVIDIA -Docker 大規模地寫了 構建和部署 GPU 容器 。從那時起, NVIDIA -Docker 被下載了近 200 萬次。許多客戶使用 NVIDIA -Docker 將 NVIDIA 集裝箱化并運行 GPU 加速的工作負載。 NVIDIA 通過 NVIDIA GPU 云( NGC )提供 GPU 加速容器,用于 DGX 系統、公共云基礎設施,甚至是帶有 GPUs 的本地工作站。 NVIDIA -Docker 是這些計劃的關鍵基礎技術。 除了 Docker 之外,容器技術被用于 DL 和 HPC 工作負載的不斷發展的用例集,這使得我們從根本上重新思考我們現有的 NVIDIA -Docker 架構。

Source

]]>
240
人人超碰97caoporen国产