ConnectX – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:05:50 +0000 zh-CN hourly 1 196178272 NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-doubles-llm-training-performance-in-mlperf-training-v4-1/ Wed, 13 Nov 2024 07:46:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12054 Continued]]> 隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。 在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。

Source

]]>
12054
NVIDIA SuperNIC 驅動新一代 AI 網絡發展 http://www.open-lab.net/zh-cn/blog/powering-next-generation-ai-networking-with-nvidia-supernics/ Tue, 15 Oct 2024 04:39:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=11675 Continued]]> 在生成式 AI 時代,加速網絡對于為大規模分布式 AI 工作負載構建高性能計算結構至關重要。NVIDIA 在該領域繼續保持領先地位,提供先進的以太網和 InfiniBand 解決方案,可最大限度地提高 AI 工廠和云數據中心的性能和效率。 這些解決方案的核心是 NVIDIA SuperNIC,一種經過優化的新型網絡加速器,可為超大規模 AI 工作負載提供支持。這些 SuperNIC 是 NVIDIA Spectrum-X 以太網和 Quantum-X800 InfiniBand 網絡平臺的關鍵組件,旨在提供前所未有的可擴展性和性能。 NVIDIA SuperNIC 產品組合中的最新成員 ConnectX-8 SuperNIC 與 BlueField-3 SuperNIC 一起,共同推動加速的大規模 AI 計算結構的新一輪創新浪潮。

Source

]]>
11675
將 AI-RAN 引入您附近的電信公司 http://www.open-lab.net/zh-cn/blog/bringing-ai-ran-to-a-telco-near-you/ Tue, 08 Oct 2024 07:54:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=11453 Continued]]> 生成式 AI 和 AI 智能體的推理將推動 AI 計算基礎設施從邊緣分配到中央云的需求。 IDC 預測 ,“商業 AI (消費者除外) 將為全球經濟貢獻 19.9 萬億美元,并占 GDP 的 3.5% 直到 2030 年。” 5G 網絡還必須不斷發展,以服務于新傳入的人工智能流量。在此過程中,電信公司有機會成為托管企業人工智能工作負載的本地人工智能計算基礎設施,獨立于網絡連接,同時滿足其數據隱私和主權要求。這是加速計算基礎設施的亮點所在,能夠加速無線電信號處理和人工智能工作負載。最重要的是,相同的計算基礎設施可用于處理人工智能和無線電接入網(RAN)服務。這種組合被電信行業稱為 AI-RAN 。 NVIDIA 正在推出 Aerial RAN Computer-1,這是全球首個 AI-RAN 部署平臺,可以在通用加速基礎設施上同時服務 AI 和 RAN 工作負載。

Source

]]>
11453
使用 NVIDIA DOCA 2.2 加速數據中心工作負載和 AI 應用程序 http://www.open-lab.net/zh-cn/blog/fast-track-data-center-workloads-and-ai-applications-with-nvidia-doca-2-2/ Tue, 29 Aug 2023 04:50:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=7703 Continued]]> NVIDIA DOCA SDK 和加速框架為開發人員提供了豐富的庫、驅動程序和 API,以便為 NVIDIA BlueField DPU 和 ConnectX SmartNIC 創建高性能應用程序和服務。它推動了數據中心的創新,實現了應用程序的快速部署。 憑借全面的功能, NVIDIA DOCA 為 BlueField 開發人員提供了一站式服務,他們希望大規模加速數據中心工作負載和人工智能應用程序。 NVIDIA DOCA 已經有超過 10000 名開發者受益,現在已經普遍可用,允許訪問更廣泛的開發者社區,以利用 BlueField DPU 平臺提供創新的人工智能和云服務。 NVIDIA DOCA 2.2 引入了新功能和增強功能,用于卸載、加速和隔離數據中心內的網絡、存儲、安全和管理基礎設施。 NVIDIA BlueField-3 DPU…

Source

]]>
7703
利用 NVIDIA DOCA Flow 的 DPU 加速數據包引導邏輯 http://www.open-lab.net/zh-cn/blog/harness-dpu-accelerated-packet-steering-logic-with-nvidia-doca-flow/ Wed, 23 Aug 2023 04:58:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=7669 Continued]]> NVIDIA DOCA 是一個框架,旨在簡化 NVIDIA BlueField DPUs 和 ConnectX SmartNICs 的編程和應用程序開發。它通過 SDK、運行時二進制文件和高級 API 提供與網絡應用程序相關的高級抽象構建塊,使開發人員能夠快速創建應用程序和服務。 NVIDIA DOCA Flow 是 DOCA 框架中最新更新的一組軟件驅動程序和一個引導庫。它在用戶空間中運行,并能夠從 CPU 卸載與網絡相關的操作。這反過來又使應用程序能夠以低延遲處理高數據包吞吐量的工作負載,從而節省 CPU 資源并降低功耗。 DOCA Flow 還有效地優化了 BlueField DPU 和 ConnectX SmartNIC 的利用率。 DOCA 是釋放 BlueField 加速引擎潛力的關鍵,而 DOCA Flow 允許快速訪問加速引擎以實現數據包導向邏輯。

Source

]]>
7669
用 NVIDIA DOCA GPUNetIO 實現實時網絡處理能力 http://www.open-lab.net/zh-cn/blog/realizing-the-power-of-real-time-network-processing-with-nvidia-doca-gpunetio/ Mon, 24 Jul 2023 03:34:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=7509 Continued]]> 網絡流量的實時處理可以通過高并行度 GPU 來利用。在這些類型的應用程序中優化數據包獲取或傳輸可以避免瓶頸,并使整體執行能夠跟上高速網絡的步伐。在這種情況下, DOCA GPU NetIO 將 GPU 提升為一個獨立的組件,可以在沒有 CPU 干預的情況下執行網絡和計算任務。 這篇文章提供了一個 GPU 分組處理應用程序的列表,重點關注不同和不相關的上下文。其中,NVIDIA DOCA GPUNetIO已被集成,以降低延遲并最大限度地提高性能。 NVIDIA DOCA software framework中的 NVIDIA DOCA GPUNetIO 是 DOCA CUDA NetIO 庫,它通過一個或多個 GPU 內核實現 NIC 和 GPU 之間的直接通信,從而從關鍵路徑中移除 CPU。 使用 GPU DOCA NetIO 庫中的 CUDA 設備函數,

Source

]]>
7509
新的 MLPerf 推理網絡部門展示 NVIDIA InfiniBand 和 GPUDirect RDMA 功能 http://www.open-lab.net/zh-cn/blog/new-mlperf-inference-network-division-showcases-infiniband-and-gpudirect-rdma-capabilities/ Thu, 06 Jul 2023 04:01:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=7377 Continued]]> 在 MLPerf Inference v3.0 中,NVIDIA 首次向新推出的 網絡分割 投入,現在是 MLPerf 推理數據中心套件的一部分。網絡分割旨在模擬真實的數據中心設置,努力將包括硬件和軟件在內的網絡效果納入端到端推理性能。 網絡部門中有兩種類型的節點:前端節點生成查詢,這些查詢通過標準網絡結構(如以太網或InfiniBand)發送,由加速器節點處理,加速器節點執行推理。 圖 1 顯示了 Closed 分區完全在單個節點上運行。在“網絡”部分中,查詢在“前端”節點上生成,并傳輸到“加速器”節點進行推理。 在網絡部分,加速器節點包含推理加速器以及所有網絡組件。這包括網絡接口控制器( NIC )、網絡交換機和網絡結構。因此,雖然網絡部門試圖衡量加速器節點和網絡的性能,但它排除了前端節點的影響,因為后者在基準測試中的作用有限。

Source

]]>
7377
5G 網絡安全的新前沿 http://www.open-lab.net/zh-cn/blog/a-new-frontier-for-5g-network-security/ Wed, 31 May 2023 05:10:30 +0000 http://www.open-lab.net/zh-cn/blog/?p=7081 Continued]]> 無線技術發展迅速, 5G 部署在世界各地取得了良好進展。直到最近,無線 RAN 還使用傳統 RAN 供應商的封閉式設備解決方案進行部署。這種封閉式方法不可擴展,未充分利用基礎設施,并且不能提供最佳的 RAN TCO 。它有許多缺點。 我們已經意識到,這種封閉式解決方案在 5G 時代是不可擴展和有效的。 因此,電信行業聯合起來,在具有開放和標準接口的商用現貨( COTS )硬件平臺上推廣和構建虛擬化和云原生 RAN 解決方案。這使得在通用服務器平臺上能夠實現更大的生態系統和靈活的解決方案,利用虛擬化和云原生技術的優點。 這種方法有很多積極的方面:更低的成本、更大的生態系統和供應商選擇、更快的創新周期、自動化和可擴展性。然而,一個令人擔憂的領域是,開放式 RAN 架構可能導致更大的攻擊面,并可能導致新的安全風險。 作為加速計算平臺的技術領導者,

Source

]]>
7081
通過 AI 的全棧優化在 MLPerf 推理 v3.0 中創下新紀錄 http://www.open-lab.net/zh-cn/blog/setting-new-records-in-mlperf-inference-v3-0-with-full-stack-optimizations-for-ai/ Wed, 05 Apr 2023 03:03:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=6677 Continued]]> 目前最令人興奮的計算應用程序依賴于在復雜的人工智能模型上進行訓練和運行推理,通常是在要求苛刻的實時部署場景中。需要高性能、加速的人工智能平臺來滿足這些應用程序的需求,并提供最佳的用戶體驗 新的人工智能模型不斷被發明,以實現新的功能,而人工智能驅動的應用程序往往依賴于許多這樣的模型協同工作。這意味著人工智能平臺必須能夠運行最廣泛的工作負載,并在所有工作負載上提供優異的性能。MLPerf Inference– 現在, v3.0 的第七版是一套值得信賴的、經過同行評審的標準化推理性能測試,代表了許多這樣的人工智能模型。 人工智能應用程序無處不在,從最大的超大規模數據中心到緊湊的邊緣設備。 MLPerf 推理同時代表數據中心和邊緣環境。它還代表了一系列真實世界的場景,如離線(批處理)處理、延遲受限的服務器、單流和多流場景。

Source

]]>
6677
使用 NVIDIA Nsight 系統加速數據中心和 HPC 性能分析 http://www.open-lab.net/zh-cn/blog/accelerating-data-center-and-hpc-performance-analysis-with-nvidia-nsight-systems/ Tue, 28 Mar 2023 06:33:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=6618 Continued]]> 當 GPU 啟動線程、調度內核和從內存加載時, CPU 異步地向其提供數據、訪問網絡通信、管理系統資源等等。這只是運行應用程序所需的硬件活動的一小部分——由不同組件組成的管弦樂隊以完美的并行方式運行。作為一名開發人員,你是一個硬件管弦樂隊的指揮,旨在為最高性能進行協調。 NVIDIA Nsight 系統是一個系統范圍的評測工具,可以幫助調整您的硬件管弦樂隊。它使應用程序開發人員能夠調查相關性、依賴性、瓶頸和資源分配,以確保硬件組件協調工作。它在統一的時間線上可視化吞吐量和性能指標,自動檢測性能限制因素,并建議如何解決這些問題 對于根除單機效率低下的問題, Nsight 系統跟蹤是一種有效的方法。但這種工作流程是如何擴展的呢?多節點環境對現代計算工作負載至關重要。多節點評測是針對這些環境的一種分析技術,用于識別可能影響節點的瓶頸和其他性能問題,以及如何協調這些節點。

Source

]]>
6618
使用 NVIDIA DOCA GPUNetIO 進行內聯 GPU 數據包處理 http://www.open-lab.net/zh-cn/blog/inline-gpu-packet-processing-with-nvidia-doca-gpunetio/ Wed, 14 Dec 2022 06:06:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5925 Continued]]> 越來越多的網絡應用程序需要進行 GPU 實時數據包處理,以實現高數據率解決方案:數據過濾、數據放置、網絡分析、傳感器信號處理等。 一個主要動機是 GPU 可以實現并行處理多個數據包的高度并行性,同時提供可擴展性和可編程性。 有關這些技術的基本概念以及基于 DPDK gpudev 庫的初始解決方案的概述,請參見 Boosting Inline Packet Processing Using DPDK and GPUdev with GPUs 。 這篇文章解釋了新的 NVIDIA DOCA GPUNetIO 庫如何克服以前 DPDK 解決方案中的一些限制,向以 GPU 為中心的數據包處理應用程序邁進了一步。 網絡分組的實時 GPU 處理是一種適用于幾個不同應用領域的技術,包括信號處理、網絡安全、信息收集和輸入重建。這些應用程序的目標是實現一個內聯數據包處理管道,

Source

]]>
5925
在中國移動 Bigcloud 加速云原生應用 http://www.open-lab.net/zh-cn/blog/accelerating-cloud-native-applications-at-china-mobile-bigcloud/ Mon, 25 Jul 2022 05:37:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4680 Continued]]> 云計算旨在靈活、有彈性地為企業提供附加價值。中國移動( CMCC )是中國最大的電信運營商和云服務提供商之一,正是通過其 Bigcloud 公共云產品提供了這一服務。 Bigcloud 為任務關鍵型應用程序提供 PaaS 和 SaaS 服務,以滿足企業云和混合云解決方案的需求。中國移動深知,企業依賴其網絡和通信基礎設施,在日益頻繁的數字世界中保持競爭力。 當他們開始體驗到對云本機服務的巨大需求時,中國移動通過開放 vSwitch ( OVS )轉向網絡抽象和虛擬化,以自動化并獲得對其網絡的動態網絡控制,幫助處理他們不斷增長的需求。 然而,由于東西向網絡流量的增加,維持網絡性能成為一個嚴重的挑戰。 隨著云服務的大量采用,中國移動在其虛擬化環境中經歷了巨大的增長。這種虛擬的蔓延在其數據中心內的服務器之間產生了東西向流量的爆炸。 由于網絡流量的增加,

Source

]]>
4680
通過 NVIDIA Spectrum Ethernet 的自適應路由加速您的網絡 http://www.open-lab.net/zh-cn/blog/accelerating-your-network-with-adaptive-routing-for-spectrum-ethernet/ Mon, 27 Jun 2022 05:21:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4451 Continued]]> NVIDIA 加速 AI 平臺和產品(如 NVIDIA EGX 、 DGX 、 OVX 和 NVIDIA AI for Enterprise )需要數據中心網絡的最佳性能。 NVIDIA Spectrum Ethernet 平臺通過芯片級創新實現了這一性能。 融合以太網 RDMA 自適應路由( RoCE )通過減少網絡擁塞問題加快了應用程序的速度。這篇文章介紹了 NVIDIA 頻譜以太網的自適應路由技術,并提供了一些初步的性能基準。 您不必是云服務提供商就可以從橫向擴展網絡中獲益。網絡行業已經發現,具有第 2 層轉發和生成樹的傳統網絡架構效率低下,而且難以擴展。他們過渡到 IP 網絡結構。 這是一個很好的開始,但在某些情況下,它可能不足以解決新類型的應用程序和跨數據中心引入的流量。 可擴展 IP 網絡的一個關鍵屬性是它們能夠跨多個交換機層次結構分布大量流量和流量。

Source

]]>
4451
通過 GPU 使用 DPDK 和 GPUdev 增強內聯數據包處理 http://www.open-lab.net/zh-cn/blog/optimizing-inline-packet-processing-using-dpdk-and-gpudev-with-gpus/ Thu, 28 Apr 2022 09:34:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3842 Continued]]> 使用 GPU 對網絡數據包進行內聯處理是一種數據包分析技術,可用于許多不同的應用領域:信號處理、網絡安全、信息收集、輸入重建等。 這些應用程序類型的主要要求是盡快將接收到的數據包移動到 GPU 內存中,以觸發負責對其執行并行處理的 CUDA 內核。 總體思路是創建一個連續的異步管道,能夠將數據包從網卡直接接收到 GPU 內存中。您還可以使用 CUDA 內核來處理傳入的數據包,而無需同步 GPU 和 CPU 。 有效的應用程序工作流包括使用無鎖通信機制在以下播放器組件之間創建一個協調的連續異步管道: 圖 1 顯示了使用 NVIDIA GPU 和 ConnectX 網卡的加速內聯數據包處理應用程序的典型數據包工作流場景。 在這種情況下,避免延遲是至關重要的。不同組件之間的通信越優化,系統的響應速度就越快,吞吐量也就越高。每一步都必須在所需資源可用時以內聯方式進行,

Source

]]>
3842
以正確的方式加速云網絡 http://www.open-lab.net/zh-cn/blog/accelerating-cloud-networking-the-right-way/ Thu, 24 Feb 2022 06:44:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3117 Continued]]> NVIDIA BLUVELD-2 數據處理器( DPU )提供了不匹配的軟件定義網絡( SDN )性能、可編程性和可擴展性。它集成了八個 Arm CPU 內核、安全的高級 ConnectX-6 Dx 云網絡接口和硬件加速器,這些硬件加速器共同卸載、加速和隔離 SDN 功能,執行連接跟蹤、流匹配和高級數據包處理。 這篇文章概述了精確 SDN 性能基準的基本原理,并演示了在NVIDIA CONTROX-6DX 上實現的實際結果。 BlueField-2 和下一代 BlueField-3 DPU 包括額外的加速功能,并為更廣泛的用例提供更高的性能。 BlueField DPU 或 ConnectX SmartNICs 的任何 SDN 性能評估都應充分利用硬件加速器的全部功能。 BLUBELFIED-2 的分組處理動作是通過NVIDIA ASAP 編程的2(加速交換和數據包處理)引擎。

Source

]]>
3117
人人超碰97caoporen国产