生成式 AI 在全球的應用推動了全球對加速計算硬件的巨大需求。在企業中,這加快了加速私有云基礎設施的部署。在地區層面,對計算基礎設施的需求催生了一類新的云提供商,他們為 AI 工作負載提供加速計算 (GPU) 能力,也稱為 GPU 云提供商或 AI 云。其中包括可能符合 NVIDIA 云合作伙伴 (NCP) 要求的云提供商。
這些云提供商提供 GPU 加速的硬件和專為其區域客戶群定制的更高級別的 AI 服務。對于企業私有云和云提供商來說,任務很明確:讓 AI 基礎設施更易于使用,同時提供精心制作的解決方案,以滿足其服務的企業和地區的特定需求。
在本文中,我們將討論構建自助 GPU 云的關鍵技術要求和挑戰,以及 NVIDIA 合作伙伴 Rafay 的平臺即服務 (PaaS) 模型如何應對這些挑戰。
自助 AI 基礎架構的迫切需求
當今的開發者和數據科學家需要無縫自助和按需訪問 compute resources。傳統的基于 ticket-based 系統會在開發周期中造成數小時甚至數天的延遲,而這些開發者無法駕這些系統。
對于云提供商而言,提供支持即時環境調配的自助工作流不僅要提高用戶滿意度,而且對于優化寶貴的 GPU 基礎設施的利用率至關重要。這使得為 GPU 驅動的環境實施 PaaS 模型不僅有益,而且至關重要。 NVIDIA AI Enterprise 通過提供用于在自助服務環境中部署和擴展模型的預構建安全微服務,進一步加速 AI 工作負載。
構建 GPU PaaS 解決方案面臨的挑戰
雖然使用開源工具構建 GPU PaaS 概念驗證似乎很簡單,但開發生產就緒型平臺仍面臨重大挑戰。該流程需要持續的功能開發、持續的支持和維護、定期的安全補丁和升級,以及熟練管理開源基礎設施工具的專門團隊。
這正是 Rafay 等基礎設施軟件供應商 (ISV) 提供關鍵價值的地方。它們通過為 GPU 驅動的環境提供可立即部署的 PaaS,幫助企業私有云和云提供商加速其最終客戶的創新。
通過自助服務平臺加速 AI 采用
為開發者和數據科學家打造和提供私有云體驗需要三個關鍵要素,詳情如下。
加速計算基礎設施
建造者需要使用 NVIDIA 加速計算基礎設施。適用于 AI 云的 NVIDIA 參考架構提供指導,確保 NVIDIA 加速計算基礎設施的優化部署和配置。
PaaS 層
PaaS 層提供加速計算基礎設施和 AI 應用的自助使用功能。Rafay 平臺提供 PaaS 功能,通過企業級控制為開發者和數據科學家提供 AI 體驗。該平臺利用庫存管理功能、集群多租戶、自助工作流以及一系列治理和生命周期管理功能來縮短產品上市時間。
AI 模型和框架
構建者需要使用最新的 AI 模型和框架,以構建生成式 AI 應用或訓練和微調模型。借助 NVIDIA AI Enterprise ,用戶可以獲得云原生軟件平臺,從而簡化生產級 AI 解決方案的開發和部署。隨著合作伙伴生態系統的廣泛采用,NVIDIA AI Enterprise 使企業組織能夠為計算機視覺、藥物研發、虛擬助理、數字智能體等各種不同的應用構建各種不同的 AI 模型。
NVIDIA AI Enterprise 包含 NVIDIA NIM ,這是一組易于使用的微服務,可優化模型性能,并提供企業級安全性、支持和穩定性,確保基于 AI 開展業務的企業從原型平穩過渡到生產。
Rafay 平臺提供編排和環境管理層,使企業能夠在其基礎設施占用空間內輕松實施 NVIDIA AI Enterprise 產品。
Rafay 平臺
借助 Rafay 平臺,客戶能夠通過企業級控制向客戶提供適用于 AI 基礎設施的自助 PaaS。Rafay 專為 NVIDIA 加速計算而設計,為企業和云提供商提供了一個平臺,為 AI 開發和模型訓練提供自助服務平臺。如圖 1 所示,該平臺支持 NVIDIA AI Enterprise、各種 AI 模型和框架,以及第三方 AI 應用生態系統。

Rafay 平臺具有完整的硬件和軟件堆棧,提供類似云的體驗,并配備 NVIDIA 和其他生態系統合作伙伴的 AI 應用,可提供最快的投資資本回報。
印尼 Lintasarta 等地區云提供商計劃利用 Rafay 平臺為最終用戶提供 PaaS 功能,以處理 AI 推理、微調和訓練工作負載。
Lintasarta 的母公司 Indosat Ooredoo Hutchinson 的總裁兼首席執行官 Vikram Sinha 表示:“我們很高興能與 NVIDIA 和 Rafay 合作,評估和定義用于 AI 應用程序使用的 PaaS 層的要求。作為 Indosat 集團的一員,Lintasarta 不僅在為我們成為 AI 原生科技公司鋪平道路方面發揮了關鍵作用,而且還在行業中發揮著領導作用,幫助引導 AI 革命朝著正確的方向發展”
NVIDIA AI Enterprise 集成
借助 Rafay,企業和云提供商可以提供用于構建 AI 智能體的工具,例如 NVIDIA NIM 、 NVIDIA NeMo 、 NVIDIA Blueprints 等,這些工具都是 NVIDIA AI Enterprise 平臺的一部分,用于生產就緒型部署。Rafay 平臺還使云提供商更容易通過 Environment Management 層提供基于第三方應用的增值 AI 服務。
裸機服務器到一站式 AI 云
云提供商和企業可以利用 Rafay 平臺以完全自動化的方式編排其基礎設施,并以自助方式為下游客戶提供計算服務以及生成式 AI、AI 工具和應用。Rafay 平臺可用于部署以下功能:
- 操作系統
- 虛擬化層
- Kubernetes 或 SLURM
- 多租戶控制
- 庫存管理和治理功能
- SSO、RBAC、計費、監控、可見性、策略管理和其他與治理相關的功能
- AI 應用
- 自助消費平臺
云提供商和企業可以根據自己的需求,有選擇地從上述功能列表中進行部署。
混合環境中的 AI 工作負載
Rafay 支持在數據中心和公有云 (例如 AWS、Azure 或 Google Cloud) 中自助使用加速計算硬件。借助 Rafay,云提供商和企業可以通過將公有云環境中的資源與本地基礎設施無縫匯集起來,為客戶群提供擴展的計算能力,從而滿足其 GPU 需求。
適用于 GPU 基礎設施管理的企業級平臺功能
Rafay 為客戶提供廣泛的功能,以提供安全的企業級多租戶平臺。這些功能包括:
- SKU 自動化和管理: 客戶可以通過編程方式定義由 GPU、CPU、AI 應用或組合組成的 SKU。
- 面向開發者和數據科學家的自助服務門戶:客戶可以為開發者和數據科學家提供自助服務門戶,以便他們按需使用計算和 AI 應用。
- 企業級用戶管理 :客戶可以提供企業單點登錄 (SSO) 和基于角色的訪問控制 (RBAC) 支持,以確保安全使用,以及可導出至企業 SIEM 的深度審計跟蹤。
- 企業管理:客戶可以向企業出售 compute 塊,并授權他們通過 persona-specific 配置管理門戶和控制面板來管理分配的 compute 塊。
- Kubernetes 集群生命周期管理: 客戶可以輕松管理其數據中心或公有云環境中的 Kubernetes 集群。
- Kubernetes 平臺管理: 客戶可以使用虛擬集群、網絡分割、RBAC、安全遠程訪問、策略執行、配額執行、不可變審計等功能,提供滿足企業安全要求的安全多租戶環境。
- 使用和 chargeback 數據 :客戶可以一站式訪問 chargeback 數據,這些數據可以輕松集成到后付費用例的計費系統中。
- 底層 (網絡級) 自動化 :客戶可以通過以編程方式配置底層網絡層 (例如交換機) 來支持需要大量 GPU 的用戶,以確保硬件級多租戶和最高級別的性能。
總結
AI 工作負載的需求需要一種新的基礎架構部署和管理方法。Rafay 平臺通過為企業和云提供商提供生產就緒型 PaaS 解決方案來滿足這一需求。通過將 NVIDIA 加速計算基礎設施和 AI 軟件與 Rafay 的平臺功能相結合,企業組織可以顯著縮短 AI 計劃的上市時間,同時仍能保持客戶所需的安全性、可控性和可擴展性。
要開始您的 AI 基礎架構轉型,請查看 Rafay 參考架構 。 詳細了解 NVIDIA AI Enterprise 。
?