Kaiming Ouyang – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 26 Mar 2025 06:29:24 +0000 zh-CN hourly 1 196178272 使用 NCCL 2.24 實現大規模網絡可靠性和可觀察性 http://www.open-lab.net/zh-cn/blog/networking-reliability-and-observability-at-scale-with-nccl-2-24/ Thu, 13 Mar 2025 06:26:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13345 Continued]]> NVIDIA 集合通信庫 (NCCL) 實現了針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點 (MGMN) 通信基元。NCCL 是用于多 GPU 深度學習訓練的核心軟件。 它可以處理任何類型的 GPU 間通信,無論是通過 PCI、NVLink 還是網絡。它使用先進的拓撲檢測、優化的通信圖形和調優模型,在 NVIDIA GPU 平臺上直接獲得出色的性能。如需了解有關 NCCL 的更多信息,請訪問 NVIDIA/nccl GitHub 倉庫 。 在本文中,我們將討論 NCCL 2.24 中發布的新功能和修復程序。 我們將特別解釋以下新功能: NCCL 2.24 中添加了 RAS 子系統,可幫助用戶診斷應用崩潰和掛起。在大規模上,識別應用程序缺乏進展的根本原因對于不太熟悉 NCCL 的用戶可能具有挑戰性。 RAS 是一種低開銷基礎架構,

Source

]]>
13345
人人超碰97caoporen国产