• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • AI 平臺/部署

    借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能

    NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案,可實現快速可靠的應用部署。 DGX Cloud Serverless Inference 由 NVIDIA Cloud Functions (NVCF) 提供支持,可在多云和本地環境中提取多集群基礎設施設置,以處理 GPU 加速的工作負載。 無論是管理 AI 工作負載、高性能計算 (HPC) 、AI 模擬,還是容器化應用程序,該平臺都能讓您在抽象底層基礎設施的同時進行全球擴展。一次部署,隨處擴展。

    獨立軟件供應商 (ISV) 在部署和擴展 AI 應用時經常面臨挑戰。這些應用程序需要在全球范圍內或更接近客戶基礎設施所在的位置進行部署。這可能需要在多個云、數據中心和地理區域進行部署,從而導致復雜的基礎設施運營。Serverless AI 推理通過在云、數據中心和集群中抽象化底層基礎設施來應對這一挑戰,為 ISV 提供了一種簡單、易于使用且一致的方法來部署 AI 應用。

    NVIDIA DGX 云 Serverless Inference 可充當計算基礎設施的水平聚合器。ISV 可以無縫混合來自 NVIDIA、NVIDIA 云合作伙伴、來自云服務提供商 (CSP) 的私有云或其本地容量的資源。無論您是想暫時擴展容量還是測試新的云提供商,該解決方案都能提供出色的靈活性。

    本文介紹了 NVIDIA DGX 云 Serverless Inference 如何助力開發者跨云環境無縫擴展 AI,并利用單個 API 端點為 AI、圖形和作業工作負載實現全局負載平衡、自動擴展、多云靈活性。

    A diagram showing different forms of compute capacity at the bottom, including capacity from NVIDIA, NVIDIA Cloud Partners, and BYO-Compute. Then above that, a box titled "DGX Cloud Serverless Inference" with sub boxes showing capabilities, including Auto-Scaling, Load Balancing, Targeted Deployments, Observability, and Versioning. Above that, boxes representing different workloads that can run on DGX Cloud Serverless Inference, including build.nvidia.com, NIMs, Blueprints, Simulations, Bring your own HPC app container, models, or helm charts.
    圖 1。DGX 云 Serverless Inference 是一個水平層,用于抽象化計算

    ISV 的主要優勢

    DGX 云 Serverless Inference 專為開發者和 ISV 設計,使其專注于自己擅長的領域:構建應用。NVIDIA Cloud Federated (NVCF) 簡化了這些應用程序的交付和擴展,而無需擔心管理 GPU 或操作基礎架構。主要優勢包括:

    • 減少基礎設施和運營負擔:使用單一、統一的自動擴展服務,在更靠近客戶基礎設施的地方部署應用程序,而無需考慮云提供商。
    • 敏捷性助力業務增長:快速增加計算能力,以支持突發或短期工作負載,例如使用 GPU、DPU 或其他硬件加速器來快速擴展計算能力。
    • 輕松過渡選項:使用自帶(BYO)計算能力將現有計算設置集成到平臺中。
    • 無風險探索:在承諾進行長期投資之前,試用新的地區、供應商或 GPU 類型。支持數據主權要求、低延遲要求和降低成本等用例。

    DGX 云無服務器推理可以運行哪些工作負載?

    DGX 云 Serverless Inference 支持各種容器化工作負載,包括 AI、圖形和作業工作負載 (圖 2) 。這些工作負載已在 DGX 云 Serverless Inference 上運行,包括在 build.nvidia.com 上運行的 NVIDIA AI 工作負載或 NVIDIA Omniverse 等模擬工作負載。

    Examples of workloads supported by DGX Cloud Serverless Inference. Starting at the top, there are AI Workloads which include LLMs, Object Detection, Text to 3D, and Text to Image. Next, there are Graphical Workloads such as Simulations, Digital Twins, Interactive Streaming, and Digital Humans. Finally, there are Job Workloads which include Rendering, Fine-tuning, Optimized TensorRT Engines, and Physical AI Development.
    圖 2。DGX 云無服務器推理中支持的工作負載示例

    AI 工作負載

    處理尖端大語言模型(LLMs),包括不適合單節點且需要多節點推理的大型模型。 DGX Cloud Serverless Inference 擅長處理各種工作負載類型,包括:

    • 物體檢測
    • 圖像、3D 和視頻生成
    • 使用先進的機器學習模型

    圖形工作負載

    NVIDIA 以圖形計算為基礎,這意味著該平臺非常適合執行圖形密集型任務,包括:

    • 數字孿生 和模擬
    • 交互式流服務
    • 數字人和機器人工作流

    借助專為圖形工作負載優化的計算能力,DGX Cloud Serverless Inference 可與 NVIDIA Omniverse 或 NVIDIA Aerial 等技術無縫集成,在至關重要的情況下提高性能。

    作業工作負載

    DGX 云無服務器推理非常適合需要批量處理并運行至完成的工作負載。無論是渲染任務還是 AI 模型微調,該平臺都能處理“運行到完成”的工作負載,確保高效利用計算資源。用例包括:

    如何開始使用 DGX Cloud Serverless Inference

    有多種方法可以將工作負載引入 DGX Cloud Serverless Inference。如圖 1 所示,快速、簡單的入門方法是在 build.nvidia.com 上使用 NVIDIA NIM 微服務容器 NVIDIA Blueprints 。DGX Cloud Serverless Inference 直接在用戶界面中包含彈性 NIM 功能,因此可以輕松擴展這些優化模型。

    或者,ISV 可以使用自定義容器,并允許 DGX Cloud Serverless Inference 處理跨各種計算目標的自動擴展和全局負載均衡。ISV 還可以使用 Helm charts 進行更復雜的部署。

    將工作負載部署到 DGX Cloud Serverless Inference 后,ISV 應用程序可以通過 API 端點調用模型。DGX Cloud Serverless Inference 將此 API 端點背后的計算集群抽象化。此 API 端點將調用請求路由到網關和全局請求隊列,后者可以利用多個區域隊列來實現最佳負載平衡。ISV 可以混合和匹配 API 端點后面的多個集群。

    例如,圖 3 演示了 ISV 可能使用來自兩個不同提供程序的兩個不同集群的場景。其中一個提供商可以由 NVIDIA 云合作伙伴或 ISV 在 CSP 中的私有云提供計算。此集群中安裝了 NVIDIA Cluster Agent (NVCA) 軟件,允許此集群中的計算可見并可用于服務工作負載。此集群也可以是 ISV 私有云或本地服務器中的實例。圖 3 中的另一個提供程序可通過 DGX Cloud 預留或提供按需計算。ISV 可以根據獨特的業務需求使用集群設置的任意組合。

    A diagram showing an AI partner service which then calls the DGX Cloud Serverless Inference API. This then calls on a request queue. The request queue can call on different clusters. One cluster is a NCP, private cloud, or on prem cluster with kubernetes, which then has the NVCF cluster agent software installed to connect to the service gateway. The other cluster is one from DGX Cloud, demonstrating the ability for the request queue to draw from multiple pools of compute across different clusters.
    圖 3。DGX 云 Serverless Inference 將多個集群抽象化為單個統一 API

    集群還可以標記屬性,以幫助目標部署。例如,部署只能針對特定地理區域內的集群、經過圖形優化的集群、具有緩存支持的集群或符合特定認證 (例如 SOC2、HIPAA) 的集群。這使 ISV 能夠更好地控制工作負載的運行位置。有關更多詳細信息,請參閱 Function Deployment 文檔

    最后,DGX 云 Serverless Inference API 未被采納,在使用方式方面提供了更大的靈活性。除了 URL 和授權標頭之外,API 沒有任何意見,有效載荷可根據工作負載的需求提供靈活性。例如,對于 LLM,可以根據 OpenAI 聊天完成 API 格式定制有效載荷。ISV 開發者還可以靈活使用 HTTP 輪詢、HTTP 流和 gRPC。有關更多信息,請參閱 API 文檔

    如何部署函數?

    NVIDIA Cloud Functions (NVCF) 是 DGX Cloud Serverless Inference 的控制平面層。工作節點上安裝了 NVIDIA Cluster agents,用于與控制平面層通信,以注冊集群。它支持通過簡化的無服務器方法無縫部署和擴展 AI 推理工作負載。部署過程遵循以下關鍵步驟 (圖 4) :

    1. 將構件推送到 NGC 注冊表: AI 開發者或服務提供商將所需資產 (例如容器、AI 模型、Helm 圖表和其他資源) 推送到 NVIDIA NGC 注冊表。作為管理推理就緒型構件的中心存儲庫。
    2. 創建函數:用戶使用 AI 合作伙伴服務定義函數,指定 AI 模型或服務的執行方式。 此步驟將抽象化基礎架構管理的復雜性。
    3. 部署函數:創建函數后,該函數將部署在可用的計算資源中。NVCF 智能管理部署,確保跨多個 GPU 的高效執行。
    4. 部署和擴展工作節點:NVCF 根據需求動態調配工作節點,在 NVIDIA DGX Cloud 或合作伙伴計算環境中自動擴展基礎設施。
    5. 獲取容器和模型:工作節點從 NGC Registry 中檢索必要的容器和模型,確保執行最新版本。
    Functions are deployed starting at the AI partner service, which pushes artifacts to the NGC registry in step 1. Then, in step 2, the AI partner service creates the function. In step 3, the AI partner service deploys the function. In step 4, the worker nodes are deployed and scaled. Step 5 allows the NGC registry to fetch containers and models.
    圖 4。DGX 云無服務器推理的部署流程

    這一過程使 ISV 和開發者能夠專注于 AI 創新,而不是基礎架構管理,從而從自動擴展、高可用性和經濟高效的 GPU 利用率中受益。

    ISV 如何使用 NVIDIA DGX 云 Serverless Inference?

    DGX 云 Serverless Inference 已經在全球范圍內推動創新,為交互式 AI 體驗、大規模仿真環境等提供支持。作為 NVIDIA 預覽計劃的一部分,以下 ISV 一直在利用這項技術:

    • Aible :一家 AI 賦能的數據科學解決方案提供商,可自動執行數據工程和機器學習工作流,為企業帶來可衡量的業務影響。Aible 展示了 NVIDIA Cloud Function 無服務器 GPU 如何將端到端生成式 AI 的 TCO 提高 200 倍 檢索增強生成 RAG 解決方案。
    • Bria:視覺生成式 AI 平臺面向使用 100% 授權數據訓練模型的開發者,該平臺使用 NVIDIA Cloud Functions 擴展文本到圖像生成的推理需求。Bria 能夠按需使用 GPU,使用 NVIDIA L40S 和 NVIDIA H100 GPU 降低總體 TCO。
    • Cuebric: 一款生成式 AI 工具,使電影制作人和創意人員能夠在幾分鐘內將概念快速轉換為逼真的電影就緒型虛擬環境和背景。Cuebric 使用 NVIDIA Cloud Functions 按需突發,并在全球范圍內擴展其 AI 工作負載。
    • Outerbounds:Outerbounds 是面向 ML、AI 和數據科學家的基礎架構和工具提供商,基于 NVIDIA Cloud Functions 為客戶提供按需可擴展的 GPU 基礎架構。為降低成本,Outerbounds 使用 NVIDIA Cloud Functions 的快速冷啟動啟動時間功能擴展到零實例。

    無論是運行先進的感知系統、高保真模擬,還是動態 AI 工作負載,DGX Cloud Serverless Inference 均可確保實現出色的性能和資源分配。

    開始使用 NVIDIA DGX 云無服務器推理

    ISV 和 NVIDIA 云合作伙伴現在可以試用 DGX 云 Serverless Inference。對于 ISV 而言,DGX 云 Serverless Inference 可以作為一種低風險的方式來載入不同的計算提供商(包括 ISV 的私有云或 NVIDIA 云合作伙伴),并將 DGX 云 Serverless Inference 用作不同計算提供商之間的“翻譯層”。

    對于 NVIDIA 云合作伙伴而言,成為 DGX 云合作伙伴可以讓 ISV 更輕松地采用,并且 ISV 可以從其私有云或 DGX 云計算更無縫地過渡到由領先的 NVIDIA 云合作伙伴提供的計算。

    如需了解更多信息,請訪問 DGX 云 Serverless Inference ,您可以注冊以開始 為期 30 天的評估

    ?

    ?

    0

    標簽

    人人超碰97caoporen国产