• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    數據中心/云端

    使用 NVIDIA Nsight 系統加速數據中心和 HPC 性能分析

    當 GPU 啟動線程、調度內核和從內存加載時, CPU 異步地向其提供數據、訪問網絡通信、管理系統資源等等。這只是運行應用程序所需的硬件活動的一小部分——由不同組件組成的管弦樂隊以完美的并行方式運行。作為一名開發人員,你是一個硬件管弦樂隊的指揮,旨在為最高性能進行協調。

    NVIDIA Nsight 系統是一個系統范圍的評測工具,可以幫助調整您的硬件管弦樂隊。它使應用程序開發人員能夠調查相關性、依賴性、瓶頸和資源分配,以確保硬件組件協調工作。它在統一的時間線上可視化吞吐量和性能指標,自動檢測性能限制因素,并建議如何解決這些問題

    Screenshot of Nsight Systems timeline view showing detailed CPU and GPU performance metrics.
    圖 1 。 NVIDIA Nsight Systems 是一款具有多種可視化功能的全系統評測工具,可幫助 HPC 開發人員實現更高的 CPU 和 GPU 性能

    對于根除單機效率低下的問題, Nsight 系統跟蹤是一種有效的方法。但這種工作流程是如何擴展的呢?多節點環境對現代計算工作負載至關重要。多節點評測是針對這些環境的一種分析技術,用于識別可能影響節點的瓶頸和其他性能問題,以及如何協調這些節點。

    多節點評測對于高性能計算( HPC )和數據中心工作流,其中具有大量節點的分布式系統用于解決復雜的科學、工程和人工智能問題。通過使用多節點評測技術, HPC 開發人員可以優化其系統的性能,并實現更快、更高效的計算。

    在 500 個節點和 5000 個 GPU 的規模上,性能評測似乎令人望而生畏。網絡結構和存儲設備帶來的復雜性只會進一步加劇這一挑戰

    現已在中公開預覽Nsight 系統 2023.2,多節點分析增強了用于大規模計算的優化工具。基于基本的 GPU 、 CPU 、 DPU 和網絡評測功能, Nsight Systems 現在提供了一個數據分析框架,可以并行處理集群大小的多節點系統的性能數據

    Python 取樣

    Python 在多節點系統中的受歡迎程度激增。用于處理大型數據集的內置庫,以及人工智能和深度學習中的用例,使該語言成為首選。但是優化 GPU 加速的 Python 代碼可能很困難。與低級語言相比,它的解釋性質和高級抽象以易用性換取性能,再加上繁瑣且容易出錯的手動采樣。當試圖理解 CPU 和 GPU 工作之間的關系時,這會變得更加困難,這樣您就可以將優化的重點放在最大限度地提高[Z1K1’的使用率上

    為了加快 Python 評測,這是多節點性能的一個關鍵方面, Nsight Systems 現在提供了自動 Python 調用堆棧采樣。采樣頻率可以在 1 赫茲和 2 千赫之間調諧,并且它支持所有架構。它還可以對 CUDA API 調用事件的調用堆棧進行采樣

    Nsight Systems dashboard view of Python profiling.
    圖 2:Nsight 系統中的 Python 調用堆棧采樣提供了線程調用堆棧的統計細分

    節點間通信的網絡度量

    作為數據在服務器硬件單元之間移動的主要方式,了解網絡中的節點間通信將有助于診斷瓶頸。 Nsight Systems 現在可以從NVIDIA Quantum-2 Infiniband交換機,提供高帶寬、低延遲的通信

    Nsight Systems dashboard view of network sampling.
    圖 3 。 Nsight Systems 時間線中的 Quantum InfiniBand 開關度量采樣

    NVIDIA ConnectX 智能網絡接口卡 (SmartNICs) 為網絡操作提供先進的硬件卸載和加速。 Nsight Systems 監控 NIC 吞吐量,繪制發送和接收的字節數。延長的 NIC 等待時間有力地表明節點間網絡需要優化。

    Nsight Systems dashboard view of network throughput.
    圖 4 。 Nsight Systems 分析的一個列中四個 NIC 的數據吞吐量

    多節點分析

    Network 和 Python metric collection 支持新的多節點評測工作流,該工作流公開整個硬件堆棧以進行優化。數據中心規模的評測通常從單節點代理運行開始,以確保應用程序按預期運行。單個節點上的問題仍然會在多節點級別上出現,但當環境不那么復雜時更容易解決。在此階段, Nsight Systems 將在統一的時間線上分析 GPU 、 CPU 、 DPU 和 Python 指標,并確定改進措施

    當單個節點的性能令人滿意時,擴展到幾個節點的代理運行將檢查網絡指標和消息傳遞接口( MPI )如何影響應用程序。使用 Nsight Systems 多報告視圖,您可以在統一的時間線上查看單獨的節點跟蹤,以可視化它們的關系。

    Nsight Systems dashboard view of multi-node profiling.
    圖 5 。使用 Nsight Systems 多報告視圖,您可以看到在不同節點上同時收集的兩個跟蹤

    然后,當前面的步驟完成后,全面的多節點評測就開始了。從集群或多節點系統收集指標會產生令人難以置信的數據量,這些數據可用于監控各種統計數據,包括集群級利用率、排名進度、網絡排名計算等。 Nsight Systems 將自動檢測本地性能抑制,但也會將它們關聯起來,從而得出集群范圍的結論,而不是逐個級別的問題。

    這些結果是使用分析腳本或“配方”得出的,這些腳本可以自定義以回答特定問題。 Nsight Systems 2023.2 包括幾個預加載的配方,例如用于分析 CUDA GPU 內核利用率和 GPU 度量的配方。當優化需求通過運行配方浮出水面時,通過跟蹤性能問題是如何在節點中傳播的,回到它們的來源,解決它們變得很簡單。

    最終輸出通過嵌入式 Jupyter 筆記本電腦呈現,該筆記本電腦作為選項卡集成在 Nsight Systems 中。 Jupyter 筆記型電腦可以方便地使用表格和圖形進行可視化,并與團隊成員進行協作。

    Nsight Systems dashboard view of a performance heat map.
    圖 6 。 Jupyter Notebook 生成的多節點 GPU 利用熱圖
    Nsight Systems dashboard view of work distribution.
    圖 7 。 512 列中的時間分布

    開始使用 Nsight Systems

    Nsight Systems 2023.2 多節點評測、 Python 評測和網絡評測現已可用。下載 NVIDIA Nsight Systems開始

    了解有關 NVIDIA GTC 2023 會話的多節點評測工作流程的更多信息,大規模優化:調查和解決多節點工作負載的隱藏瓶頸。您也可以觀看視頻,使用 NVIDIA Nsight Systems 優化多節點系統工作負載.

    要了解 CUDA 開發工具的擴展方式,請查看從宏觀到微觀: CUDA 開發工具可以發現并解決任何規模的問題.

    探索更多NVIDIA GTC 2023 次 NVIDIA Nsight 開發者工具會議.

    ?

    +2

    標簽

    人人超碰97caoporen国产