MLPerf – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 13 Sep 2023 10:24:57 +0000
zh-CN
hourly
1
196178272 -
NVIDIA GH200 Grace Hopper 超級芯片首次亮相,取得領先的 MLPerf 推理 v3.1 結果
http://www.open-lab.net/zh-cn/blog/leading-mlperf-inference-v3-1-results-gh200-grace-hopper-superchip-debut/
Mon, 11 Sep 2023 05:43:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=7833
Continued]]>
人工智能正在改變計算方式,推動AI在全球范圍內的應用部署。智能聊天機器人、圖像和視頻合成的簡單文本提示、個性化內容推薦以及醫學成像只是人工智能應用的幾個例子。 推理工作負載對計算要求很高,而且多種多樣,要求平臺能夠快速處理從未見過的數據上的許多預測,并在各種人工智能模型上運行推理。希望部署人工智能的組織需要一種方法,在各種工作負載、環境和部署場景中客觀評估基礎設施的性能。人工智能訓練和推理都是如此。 MLPerf 推理 v3.1 是由 MLCommons 聯盟開發的最新版本,它是行業標準的人工智能推理基準套件。這個版本補充了 MLPerf 培訓和 MLPerf HPC。MLPerf 推理 v3.1 能夠衡量各種重要工作負載的推理性能,包括圖像分類、對象檢測、自然語言處理、語音識別和推薦系統,以及常見的數據中心和邊緣部署場景。 MLPerf 推理 v3.1…
Source
]]>
7833
-
新的 MLPerf 推理網絡部門展示 NVIDIA InfiniBand 和 GPUDirect RDMA 功能
http://www.open-lab.net/zh-cn/blog/new-mlperf-inference-network-division-showcases-infiniband-and-gpudirect-rdma-capabilities/
Thu, 06 Jul 2023 04:01:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=7377
Continued]]>
在 MLPerf Inference v3.0 中,NVIDIA 首次向新推出的 網絡分割 投入,現在是 MLPerf 推理數據中心套件的一部分。網絡分割旨在模擬真實的數據中心設置,努力將包括硬件和軟件在內的網絡效果納入端到端推理性能。 網絡部門中有兩種類型的節點:前端節點生成查詢,這些查詢通過標準網絡結構(如以太網或InfiniBand)發送,由加速器節點處理,加速器節點執行推理。 圖 1 顯示了 Closed 分區完全在單個節點上運行。在“網絡”部分中,查詢在“前端”節點上生成,并傳輸到“加速器”節點進行推理。 在網絡部分,加速器節點包含推理加速器以及所有網絡組件。這包括網絡接口控制器( NIC )、網絡交換機和網絡結構。因此,雖然網絡部門試圖衡量加速器節點和網絡的性能,但它排除了前端節點的影響,因為后者在基準測試中的作用有限。
Source
]]>
7377
-
通過 AI 的全棧優化在 MLPerf 推理 v3.0 中創下新紀錄
http://www.open-lab.net/zh-cn/blog/setting-new-records-in-mlperf-inference-v3-0-with-full-stack-optimizations-for-ai/
Wed, 05 Apr 2023 03:03:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=6677
Continued]]>
目前最令人興奮的計算應用程序依賴于在復雜的人工智能模型上進行訓練和運行推理,通常是在要求苛刻的實時部署場景中。需要高性能、加速的人工智能平臺來滿足這些應用程序的需求,并提供最佳的用戶體驗 新的人工智能模型不斷被發明,以實現新的功能,而人工智能驅動的應用程序往往依賴于許多這樣的模型協同工作。這意味著人工智能平臺必須能夠運行最廣泛的工作負載,并在所有工作負載上提供優異的性能。MLPerf Inference– 現在, v3.0 的第七版是一套值得信賴的、經過同行評審的標準化推理性能測試,代表了許多這樣的人工智能模型。 人工智能應用程序無處不在,從最大的超大規模數據中心到緊湊的邊緣設備。 MLPerf 推理同時代表數據中心和邊緣環境。它還代表了一系列真實世界的場景,如離線(批處理)處理、延遲受限的服務器、單流和多流場景。
Source
]]>
6677
-
使用 MLPerf HPC v2.0 基準測試調整 AI 基礎設施性能
http://www.open-lab.net/zh-cn/blog/tuning-ai-infrastructure-performance-with-mlperf-hpc-v2-0-benchmarks/
Wed, 09 Nov 2022 07:05:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5675
Continued]]>
隨著人工智能和模擬的融合加速了科學發現,需要一種方法來衡量和排名構建世界超級計算機人工智能模型的速度和吞吐量。 MLPerfHPC 現在已經進入第三次迭代,它已經成為使用傳統上在超級計算機上執行的工作負載來衡量系統性能的行業標準。 同行評審的行業標準基準是評估 HPC 平臺的關鍵工具, NVIDIA 相信,獲得可靠的性能數據將有助于指導未來 HPC 架構師的設計決策。 MLPerf 基準測試由 MLCommons 開發,使組織能夠在傳統上在超級計算機上執行的一組重要工作負載上評估 AI 基礎設施的性能。 MLPerfHPC 基準測試測量了三種采用機器學習技術的高性能仿真的訓練時間和吞吐量。 這篇文章介紹了 NVIDIA MLPerf 團隊為優化每個基準和度量以獲得最佳性能所采取的步驟。除了 MLPerf HPC v1.0 中的優化之外,
Source
]]>
5675
-
領先的 MLPerf Training 2.1 ,具有針對 AI 的全棧優化
http://www.open-lab.net/zh-cn/blog/leading-mlperf-training-2-1-with-full-stack-optimizations-for-ai/
Wed, 09 Nov 2022 06:26:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5672
Continued]]>
MLCommons 開發的 MLPerf 基準是組織衡量其機器學習模型跨工作負載培訓性能的關鍵評估工具。 MLPerf Training v2.1- 這個以 AI 培訓為重點的基準套件的第七次迭代測試了廣泛流行的 AI 用例的性能,包括以下: 許多人工智能應用程序利用流水線中部署的多個人工智能模型。這意味著,人工智能平臺必須能夠運行當今可用的所有模型,并提供支持新模型創新的性能和靈活性。 NVIDIA AI platform 在此輪中提交了所有工作負載的結果,它仍然是唯一一個提交了所有 MLPerf 培訓工作負載結果的平臺。 在這一輪中, NVIDIA 使用新的 H100 Tensor Core GPU 提交了其首個 MLPerf 訓練結果,與首次提交的 A100 Tensor Core GPU 相比,性能提高了 6.7 倍,與最新的 A100 結果相比,
Source
]]>
5672
-
全棧創新為 NVIDIA 最高 MLPerf 推斷 2.1 結果提供燃料
http://www.open-lab.net/zh-cn/blog/full-stack-innovation-fuels-highest-mlperf-inference-2-1-results-for-nvidia/
Thu, 08 Sep 2022 05:50:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5288
Continued]]>
如今,人工智能驅動的應用程序正在實現更豐富的體驗,這是由更大和更復雜的人工智能模型以及許多模型在管道中的應用所推動的。為了滿足注入人工智能的應用程序日益增長的需求,人工智能平臺不僅必須提供高性能,而且必須具有足夠的通用性,以便在各種人工智能模型中提供這種性能。為了最大限度地提高基礎設施利用率并優化 CapEx ,在同一基礎設施上運行整個 AI 工作流的能力至關重要:從數據準備和模型培訓到部署推理。 MLPerf 基準 已成為行業標準、同行評議的深度學習績效衡量標準,涵蓋人工智能培訓、人工智能推理和 高性能計算 ( HPC )。 MLPerf 推斷 2.1 是 MLPerf 推理基準套件的最新迭代,涵蓋了廣泛的常見 AI 用例,包括推薦、自然語言處理、語音識別、醫學成像、圖像分類和對象檢測。 在這一輪中, NVIDIA 在最新 NVIDIA H100 Tensor Core GPU…
Source
]]>
5288
-
為 NVIDIA MLPerf Training v2.0 性能提供動力的全堆棧優化
http://www.open-lab.net/zh-cn/blog/boosting-mlperf-training-performance-with-full-stack-optimization/
Thu, 30 Jun 2022 02:02:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4498
Continued]]>
MLPerf benchmarks 由工業界、學術界和研究實驗室的人工智能領導者組成的聯盟開發,旨在提供標準、公平和有用的深度學習性能測量。 MLPerf 訓練側重于測量時間,以便為以下任務訓練一系列常用的神經網絡: 減少培訓時間對于加快部署時間、最小化總體擁有成本和最大化投資回報至關重要。 然而,與平臺性能一樣重要的是它的多功能性。訓練每個模型的能力,以及提供基礎設施可替代性以運行從訓練到推理的所有人工智能工作負載的能力,對于使組織能夠最大限度地實現其基礎設施投資的回報至關重要。 NVIDIA platform 具有全堆棧創新和豐富的開發人員和應用程序生態系統,仍然是唯一提交所有八個 MLPerf 訓練測試結果,以及提交所有 MLPerf 推理和 MLPerf 高性能計算( HPC )測試結果的系統。 在本文中,您將了解 NVIDIA 在整個堆棧中部署的方法,
Source
]]>
4498
-
使用 NVIDIA A30 GPU 加速人工智能推理工作負載
http://www.open-lab.net/zh-cn/blog/accelerating-ai-inference-workloads-with-nvidia-a30-gpu/
Wed, 11 May 2022 10:31:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3946
Continued]]>
NVIDIA A30 GPU 基于最新的 NVIDIA Ampere 體系結構,可加速各種工作負載,如大規模人工智能推理、企業培訓和數據中心主流服務器的 HPC 應用程序。 A30 PCIe 卡將第三代 Tensor 內核與大容量 HBM2 內存( 24 GB )和快速 GPU 內存帶寬( 933 GB / s )組合在一個低功耗外殼中(最大 165 W )。 A30 支持廣泛的數學精度: 它還支持 Tensor Float 32 ( TF32 )和 Tensor Core FP64 等創新技術,提供了一個單一的加速器來加速每個工作負載。 圖 1 顯示了 TF32 ,其范圍為 FP32 ,精度為 FP16 。 TF32 是 PyTorch 、 TensorFlow 和 MXNet 中的默認選項,因此在上一代 NVIDIA Volta 架構中實現加速不需要更改代碼。
Source
]]>
3946
-
在 MLPerf 推理 2.0 上獲得最佳性能
http://www.open-lab.net/zh-cn/blog/getting-the-best-performance-on-mlperf-inference-2-0/
Wed, 06 Apr 2022 06:41:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3595
Continued]]>
Megatron 530B 等機型正在擴大人工智能可以解決的問題范圍。然而,隨著模型的復雜性不斷增加,它們對人工智能計算平臺構成了雙重挑戰: 我們需要的是一個多功能的人工智能平臺,它可以在各種各樣的模型上提供所需的性能,用于訓練和推理。 為了評估這種性能, MLPerf 是唯一一個行業標準人工智能基準,用于測試六個應用程序中的數據中心和邊緣平臺,測量吞吐量、延遲和能效。 在 MLPerf 推理 2.0 , NVIDIA 交付領先的結果在所有工作負載和場景,同時數據中心 GPU 和最新的參賽者,NVIDIA Jetson AGX ORIN SOC 平臺,為邊緣設備和機器人建造。 除了硬件,還需要大量的軟件和優化工作才能充分利用這些平臺。 MLPerf 推理 2.0 的結果展示了如何獲得處理當今日益龐大和復雜的人工智能模型所需的性能。
Source
]]>
3595
-
使用最新的由 NVIDIA 驅動的實例,在云端節省時間和金錢
http://www.open-lab.net/zh-cn/blog/saving-time-and-money-in-the-cloud-with-the-latest-nvidia-powered-instances/
Tue, 01 Mar 2022 07:10:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3148
Continued]]>
人工智能正在改變每一個行業,實現傳統軟件無法實現的強大的新應用程序和用例。隨著人工智能的不斷擴散,以及人工智能模型的規模和復雜性的不斷增加,人工智能計算性能的重大進步需要跟上。 這就是 NVIDIA 平臺的所在地。 憑借跨越芯片、系統、軟件甚至整個數據中心的全堆棧方法, NVIDIA 為所有人工智能工作負載(包括人工智能培訓)提供了最高的性能和最大的通用性。NVIDIA 在 MLPerf 培訓 v1 中展示了這一點。 1 ,行業標準的最新版本,經同行評審的基準套件,用于測量跨廣泛網絡的 ML 培訓性能。由 NVIDIA A100 GPU 核心張量 提供動力的系統,包括 Azure NDm A100 v4 云實例 ,提供了圖表上的最佳結果,創造了新的記錄,并且是唯一完成所有八項 MLPerf 訓練測試的系統。 所有主要的云服務提供商都提供了由 A100 供電的NVIDIA GPU…
Source
]]>
3148
-
通過全堆棧優化提升 NVIDIA MLPerf Training v1.1 的性能
http://www.open-lab.net/zh-cn/blog/boosting-mlperf-training-v1-1-performance-with-full-stack-optimization/
Wed, 01 Dec 2021 05:30:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2511
Continued]]>
自 v1.0 以來已經過去了五個月,所以是時候進行新一輪 MLPerf 培訓基準了。在這個 v1.1 版本中,整個硬件和軟件堆棧的優化看到了基于 NVIDIA 平臺提交的基準測試套件的持續改進。這種改進在所有不同的尺度上都是一致的,從單個機器到工業超級計算機,例如由 560 個 NVIDIA DGX A100 系統組成的英偉達 SeleN 和由 768 個節點 A100 系統組成的微軟 Azure NDM A100 V4 集群。 越來越多的組織使用MLPerf基準來指導其AI基礎設施戰略。MLPerf(VZX19的一部分)是由學術界、研究實驗室和工業界的人工智能領導者組成的全球聯盟,其使命是 建立公平和有用的基準 ,為在規定條件下進行的硬件、軟件和服務的培訓和推理性能提供公正的評估。為了保持行業趨勢的領先地位,MLPerf不斷發展,定期舉行新的測試,并添加代表AI最先進水平的新工作負載。
Source
]]>
2511
-
MLPerf HPC v1.0 :深入研究優化,創造 NVIDIA 創紀錄的性能
http://www.open-lab.net/zh-cn/blog/mlperf-hpc-v1-0-deep-dive-into-optimizations-leading-to-record-setting-nvidia-performance/
Wed, 17 Nov 2021 07:10:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2387
Continued]]>
在 MLPerf HPC v1 . 0 中, NVIDIA 供電系統贏得了五項新的行業指標中的四項,這些指標主要關注 HPC 中的人工智能性能。作為一個全行業人工智能聯盟, MLPerf HPC 評估了一套性能基準,涵蓋了廣泛使用的人工智能工作負載。 在這一輪中,與 MLPerf 0 . 7 的強大擴展性結果相比, NVIDIA 在 CosmoFlow 上的性能提高了 5 倍,在 DeepCAM 上的性能提高了 7 倍。這一強大的表現得益于成熟的 NVIDIA AI 平臺和全套軟件。 提供豐富多樣的庫、 SDK 、工具、編譯器和探查器,很難知道在正確的情況下何時何地應用正確的資產。這篇文章詳細介紹了各種場景的工具、技術和好處,并概述了 CosmoFlow 和 DeepCAM 基準測試所取得的成果。 我們已經為 MLPerf Training v1.0…
Source
]]>
2387
人人超碰97caoporen国产