• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    數據中心/云端/邊緣

    使用經 NVIDIA 認證的系統優化企業 IT 工作負載

    GPU 加速的工作負載在所有行業都蓬勃發展,從使用人工智能來更好地參與客戶和進行業務預測的數據分析,到實現更快產品創新的高級可視化。

    GPU 加速基礎設施的最大挑戰之一是選擇正確的硬件系統。雖然業務線關心性能和使用大量開發人員工具和框架的能力,但企業 IT 團隊還關心管理和安全等因素。

    NVIDIA-Certified Systems 項目的創建是為了滿足這兩個群體的需求。配備 NVIDIA GPU 和網絡適配器的領先系統制造商的系統經過了嚴格的測試過程。如果服務器或工作站滿足一系列 GPU 加速應用程序的性能和可擴展性的特定標準,以及安全和管理功能的適當功能,則該服務器或工作站將被標記為 NVIDIA 認證。

    服務器配置挑戰

    每個候選系統的認證測試由系統制造商在其實驗室進行, NVIDIA 與每個合作伙伴合作,幫助他們確定最佳通過配置。 NVIDIA 研究了許多服務器型號的數百個結果,這一經驗使我們能夠識別并解決可能對性能產生負面影響的配置問題。

    高工作溫度

    GPU 具有最高支持溫度,但在較低溫度下運行可以提高性能。一臺典型的服務器有多個風扇來提供空氣冷卻,帶有可編程的溫度 – 速度 – 風扇曲線。默認風扇曲線基于通用基本系統,不考慮 GPU 和可產生大量熱量的類似設備的存在。認證過程可以揭示由于溫度引起的性能問題,并可以確定哪些自定義風扇曲線提供最佳結果。

    非最佳 BIOS 和固件設置

    BIOS 設置和固件版本會影響性能和功能。認證過程驗證最佳 BIOS 設置以獲得最佳性能,并確定其他配置的最佳值,如 NIC PCI 設置和引導 grub 設置。

    不正確的 PCI 插槽配置

    將數據快速傳輸到 GPU 對于獲得最佳性能至關重要。由于 GPU 和 NIC 是通過 PCI 總線安裝在企業系統上的,因此放置不當可能會導致性能不佳。認證過程會暴露這些問題,并確定最佳 PCI 插槽配置。

    認證目標

    該認證旨在通過運行一套 25 個以上的軟件測試來測試候選系統的性能和功能,這些測試代表了廣泛的現實世界應用程序和操作。

    這些測試的目標是優化給定系統配置的性能、可管理性、安全性和可伸縮性。

    Diagram of NVIDIA-Certified program test suite covering workloads, management, and infrastructure.
    圖 1 。 NVIDIA 認證系統測試套件

    表演

    測試套件包括一組不同的應用程序,這些應用程序以多種方式對系統施加壓力。它們涉及以下問題:

    • 深度學習訓練與人工智能推理
    • NVIDIA Riva 和 NVIDIA Clara 等端到端人工智能框架
    • Apache Spark 和 RAPIDS 等數據科學應用程序
    • 智能視頻分析
    • HPC 和 CUDA 函數
    • 使用 Blender 、 Octane 和類似工具進行渲染

    可管理性

    使用 Kubernetes 進行編排,在 NVIDIA 云本機核心軟件堆棧上運行認證測試。這驗證了經認證的服務器可以完全由領先的云本機框架管理,如 Red Hat OpenShift 、 VMware Tanzu 和 NVIDIA Fleet Command 。

    還驗證了使用 Redfish 的遠程管理功能。

    安全

    該認證分析了硬件、設備、系統固件、低級保護機制的平臺級安全性,以及各種平臺組件的配置。

    還驗證了 Trusted Platform Module ( TPM )功能,這使系統能夠支持安全引導、簽名容器和加密磁盤卷等功能。

    可擴展性

    NVIDIA 認證的數據中心服務器經過測試,可以使用 GPUDirect RDMA 驗證多 GPU 和多節點性能,以及使用多實例 GPU ( MIG )驗證運行多個工作負載的性能。還有對關鍵網絡服務的測試。這些功能使 IT 系統能夠擴展加速的基礎架構,以滿足工作負載需求。

    資格與認證

    了解資質和 NVIDIA 認證之間的區別很重要。一臺合格的服務器經過了熱、機械、電源和信號完整性測試,以確保特定的 NVIDIA GPU 在該服務器設計中充分發揮功能。

    合格配置的服務器支持生產使用,合格是認證的先決條件。然而,如果你想要一個既受支持又經過優化設計和配置的系統,你應該總是選擇一個經過認證的系統。

    Graphic icons of the NVIDIA-Certified test workloads compared to the NVIDIA Qualified tests for server design.
    圖 2 。 NVIDIA 認證與 NVIDIA 認證系統

    NVIDIA 認證系統類別

    NVIDIA 認證的系統有一系列針對特定用例進行優化的類別。您可以從最符合您需求的類別中選擇一個系統。

    各類系統的設計由系統模型和最適合目標工作負載的 GPU 決定。例如,企業級服務器可以為數據中心配置 NVIDIA A100 或 NVIDIA A40 ,而緊湊型服務器可以為邊緣配置 NVIDIA A2 。

    認證過程也針對每個類別進行定制。例如,工作站沒有針對多節點應用程序進行測試,而 industrial edge 系統在系統設計環境(如高溫)下運行時必須通過所有測試。

    CategoryWorkloadsExample Use Cases
    Data Center Compute ServerAI Training and Inferencing, Data Analytics, HPCRecommender Systems, Natural Language Processing
    Data Center General Purpose ServerVisualization, Rendering, Deep LearningOff-line Batch Rendering, Accelerating Desktop Rendering
    High Density Virtualization ServerVirtual Desktop, Virtual WorkstationOffice Productivity, Remote Work
    Enterprise EdgeEdge Inferencing in controlled environmentsImage and Video Analytics, Multi-access Edge Computing (MEC)
    Industrial EdgeEdge Inferencing in industrial or rugged environmentsRobotics, Medical instruments, Field-deployed Telco Equipment
    WorkstationDesign, Content Creation, Data ScienceProduct & Building Design, M&E Content Creation
    Mobile WorkstationDesign, Content Creation, Data Science, Software DevelopmentData Feature Exploration, Software Design
    表 1 。認證系統類別

    按下企業 IT 的簡易按鈕

    有了 NVIDIA 認證的系統,您可以放心地選擇和配置性能優化的服務器和工作站,以在較小的配置和規模下加速計算工作負載。 NVIDIA 認證系統為您提供了最簡單的方法,讓您能夠成功完成所有加速計算項目。

    available 有多種系統類型,包括流行的數據中心和邊緣服務器型號,以及來自 NVIDIA 合作伙伴龐大生態系統的臺式和移動工作站。有關更多信息,請參閱以下參考資料:


    0

    標簽

    人人超碰97caoporen国产