?
Artificial intelligence (人工智能)在企業中越來越普遍。語音識別、推薦和欺詐檢測只是人工智能和 深度學習?( DL )驅動的數百個應用程序中的少數幾個
為了支持這些人工智能應用程序,企業希望優化人工智能服務器和性能網絡。不幸的是,在企業人工智能的開發中,存儲基礎設施需求往往被忽視。然而,為了成功采用人工智能,必須考慮一個全面的存儲部署戰略,該戰略考慮了人工智能的增長、經得起未來考驗和互操作性。
這篇文章強調了企業在為人工智能應用程序規劃數據存儲基礎設施以最大限度地提高業務成效時應考慮的重要因素。我討論了云與本地存儲解決方案的比較,以及在支持 GPU 的虛擬機( VM )中對更高性能存儲的需求。
為什么企業部署需要人工智能存儲決策
流行的短語“你可以現在給我錢,也可以以后給我錢”意味著在做當前決定時最好考慮未來。通常,支持 AI 或 DL 應用程序的存儲解決方案只能滿足應用程序的即時需求,而沒有充分考慮未來的成本和靈活性。
從長遠來看,從存儲的角度來看,今天花些錢來證明您的人工智能環境是經得起未來考驗的,這可能更具成本效益。決策者必須捫心自問:
- 我的人工智能存儲基礎設施能否適應云或混合模式?
- 選擇對象、塊或文件存儲是否會限制未來企業部署的靈活性?
- 是否可以使用成本較低的存儲層或混合模型來存檔,或用于不需要昂貴、快速存儲的數據集?
如果沒有直接的 a / B 比較,企業存儲決策對 AI 部署的影響并不總是明顯的。今天的錯誤決策可能會導致性能下降,并且無法在未來有效地擴展業務運營。
規劃 AI 存儲基礎架構時的主要考慮事項
以下是部署和規劃存儲時需要考慮的各種因素。圖 1 概述了數據中心、預算、互操作性和存儲類型注意事項。
Data center | Budget | Interoperability | Storage type |
DPU | Existing vs. new | Cloud and data center | Object/Block/File |
Network | All Flash/HDD/Hybrid | VM environments | Flash/HDD/Hybrid |
AI 性能和 GPU
在評估存儲性能之前,考慮人工智能性能的一個關鍵因素是讓高性能企業 GPU 加速 machine-learning 、 DL 和推理應用程序的培訓。
許多數據中心服務器沒有 GPU 來加速人工智能應用程序,因此在考慮性能時,最好先看看 GPU 資源。
大型數據集并不總是適合 GPU 內存。這一點很重要,因為當完整的數據集不適合 GPU 內存時, GPU 提供的性能較差。在這種情況下,數據在 GPU 內存之間交換,從而影響性能。模型訓練需要更長時間,推理性能可能會受到影響。
某些應用程序,如欺詐檢測,可能具有極端的實時性要求,當 GPU 內存正在等待數據時,這些要求會受到影響。
存儲注意事項
存儲始終是一個重要的考慮因素。在部署新的人工智能應用程序時,現有的存儲解決方案可能無法正常工作。
您現在可能需要 NVMe 閃存或直接 GPU 內存訪問的速度才能獲得所需的性能。然而,隨著存儲對人工智能數據的需求隨著時間的推移而增加,您可能不知道明天的存儲期望是什么。對于某些應用程序,幾乎沒有太高的存儲性能,尤其是在實時用例(如交易前欺詐檢測)的情況下。
對于人工智能驅動的應用程序,沒有“一刀切”的存儲解決方案。
性能只是一個存儲考慮因素。另一個是擴展能力。培訓數據正在增長。推斷數據正在增長。存儲必須能夠在容量和性能方面進行擴展,并且在許多情況下能夠跨多個存儲節點進行擴展。簡單地說,滿足您當前需求的存儲設備可能并不總能適應明天的挑戰。
底線:隨著培訓和推理工作量的增加,容量和性能也必須增加。它應該只考慮具有保持 GPU 繁忙的性能的可擴展存儲解決方案,以獲得最佳的 AI 性能。
數據中心注意事項
數據處理器( DPU )是基礎設施技術的最新發展,將數據中心和人工智能存儲提升到了一個全新的水平。
雖然不是存儲產品, DPU 重新定義了數據中心存儲。它旨在集成存儲、處理和網絡,使整個數據中心成為企業的計算機。
在規劃和部署存儲時,了解 DPU 的功能非常重要,因為 DPU 將存儲服務從數據中心處理器和存儲設備上卸載。對于許多存儲產品, DPU 互連數據中心可以實現更高效的擴展。
例如 NVIDIA BlueField DPU 支持以下功能:
- 結構上的 NVMe ( NVMe oF )
- GPUDirect 存儲
- 加密
- 彈性塊存儲
- 擦除編碼(用于數據完整性)
- 減壓
- 重復數據消除
遠程存儲訪問的存儲性能就像存儲直接連接到 AI 服務器一樣。 DPU 有助于實現可擴展的軟件定義存儲,以及網絡和網絡安全加速。
預算考慮因素
成本仍然是一個關鍵因素。雖然需要部署最高吞吐量和最低延遲的存儲,但根據 AI 應用程序的不同,并不總是必要的。
為了進一步擴大存儲預算, IT 部門必須了解每個 AI 應用程序的存儲性能要求(帶寬、 IOPs 和延遲)。
例如,如果一個人工智能應用程序的數據集很大,但性能要求最低,那么傳統硬盤驅動器( HDD )可能就足夠了,同時大大降低了存儲成本。當數據集的“熱”數據完全符合 GPU 內存時,尤其如此。
另一種節省成本的選擇是使用混合存儲,將閃存用作緩存,以提高性能,同時降低駐留在 HDD 上的不經常訪問的數據的存儲成本。有一些混合閃存/硬盤存儲產品的性能幾乎與所有閃存一樣好,因此探索混合存儲選項對于沒有極端性能要求的應用程序來說意義重大。
較舊、存檔和不經常使用的數據和數據集可能仍有未來價值,但駐留在昂貴的主存儲上并不經濟劃算。
硬盤仍然具有很大的財務意義,尤其是在需要時可以無縫訪問數據的情況下。根據訪問的大小和頻率,兩層云和內部部署存儲解決方案也具有財務意義。市場上有許多這樣的解決方案。
互操作性因素
從存儲角度評估云和數據中心的互操作性非常重要。即使在虛擬機驅動的數據中心內,也有互操作性因素需要評估。
云和數據中心注意事項
人工智能應用程序是在本地運行,還是在云端運行,或者兩者都運行?即使應用程序可以在任何一個地方運行,也不能保證應用程序的性能不會隨位置而變化。例如,如果云中使用的存儲類與本地使用的存儲類不同,則可能會出現性能問題。必須考慮存儲類別。
假設使用使用高性能閃存的支持數據中心 GPU 的服務器在所需的八小時窗口內完成對大型推薦模型的再培訓。將相同的應用程序以同等 GPU 馬力移動到云端可能會導致培訓在 24 小時內完成,遠遠超出所需的 8 小時窗口。為什么?
一些人工智能應用程序需要某種類型的存儲(快速閃存、大型存儲緩存、 DMA 存儲訪問、存儲類內存( SCM )讀取性能等),但并非總是可以通過云服務獲得。
關鍵是,無論數據中心或云存儲選擇如何,某些人工智能應用程序都會產生類似的結果。其他應用程序可能對存儲敏感。
僅僅因為一個應用程序是由 Kubernetes 在云中進行容器化和編排的,它不能保證類似的數據中心結果。以這種方式來看,當考慮性能時,容器并不總是提供跨數據中心和云互操作性。為了實現有效的數據中心和云互操作性,請確保兩個域中的存儲選擇都能產生良好的結果。
VM 注意事項
如今,大多數數據中心服務器沒有 GPU 來加速人工智能和創造性工作負載。明天,數據中心的格局可能會大不相同。無論是 conversational AI 、欺詐檢測 recommender systems 、視頻分析還是許多其他用例,企業都被迫使用人工智能來提高競爭力。
GPU 在工作站上很常見,但 GPU 工作站提供的加速度無法在組織內輕松共享。
企業必須準備的范式轉變是在虛擬機環境中共享基于服務器、支持 GPU 的資源。 NVIDIA AI 企業 等解決方案的可用性使企業中的任何人都可以共享支持 GPU 的虛擬機。
簡而言之,現在企業中的任何人都可以在 vSphere 環境中的 VM 內輕松運行耗電的 AI 應用程序。
那么這對虛擬機存儲意味著什么呢?支持 GPU 的虛擬機的存儲必須滿足 AI 應用程序和共享虛擬機用戶的共享性能要求。這意味著給定虛擬機的存儲性能高于非共享環境中所需的存儲性能。
這還意味著,為此類虛擬機分配的物理存儲可能在容量和性能方面更具可擴展性。在高度共享的虛擬機中,可以使用專用的全閃存類內存( SCM )陣列,通過聚合以太網上的 RDMA 連接到支持 GPU 的服務器,以實現最高的性能和擴展。
存儲類型
關于為人工智能應用程序選擇對象、塊或文件存儲的深入討論超出了本文的范圍。也就是說,我在這里提到它是因為這是一個重要的考慮因素,但并不總是一個直接的決定。
對象存儲
例如,如果所需的應用程序需要對象存儲,那么所需的存儲類型顯而易見。一些人工智能應用程序利用了對象元數據,同時也受益于平面地址空間對象存儲架構的無限規模。人工智能分析可以利用豐富的對象元數據實現精確的數據分類和組織,使數據更有用,更易于管理和理解。
塊存儲
盡管云中支持塊存儲,但真正海量的云數據集往往是基于對象的。塊存儲可以為結構化數據和事務應用程序提供更高的性能。
塊存儲缺少元數據信息,這使得任何旨在從元數據中獲益的應用程序都無法使用塊存儲。許多傳統的企業應用程序都是建立在塊存儲基礎上的,但云中對象存儲的出現導致許多現代應用程序專門為使用對象存儲的原生云部署而設計。
文件存儲
當人工智能應用程序跨通用文件協議訪問數據時,顯而易見的存儲選擇是基于文件的。例如,人工智能驅動的圖像識別和分類引擎可能需要訪問基于文件的圖像。
部署選項可能有所不同,從專用文件服務器到構建在對象或塊存儲體系結構之上的 NAS 磁頭。 NAS 頭可以導出 NFS 或 SMB 文件協議,以便將文件訪問到底層塊或對象存儲體系結構。這可以為人工智能和數據中心網絡客戶端的文件存儲訪問提供高水平的靈活性和經得起未來考驗的塊或對象存儲。
人工智能的存儲類型決策必須基于對當前所需內容的良好理解以及長期人工智能部署策略。全面評估每種存儲類型的優缺點。通常沒有一個“一刀切”的答案,在某些情況下,所有三種存儲類型(對象、塊和文件)都有意義。
企業存儲決策的關鍵要點
解決人工智能解決方案的存儲需求沒有單一的方法。然而,這里有幾個核心原則,可以用來做出明智的人工智能存儲決策:
- 如果訓練和推理不是 GPU 加速的,人工智能解決方案的任何存儲選擇都可能毫無意義。
- 為可能需要遠遠超出當前估計的 IT 資源和相關存儲做好準備。
- 不要認為現有存儲對于新的或擴展的人工智能解決方案來說“足夠好”。隨著時間的推移,與現有存儲相比,具有更高成本、性能和可擴展性的存儲實際上可能更高效。
- 始終考慮與云的互操作性,因為您的云提供商可能無法提供本地存儲選項。
- 戰略 IT 規劃應考慮 DPU 的基礎架構和存儲優勢。
當你計劃在企業中使用人工智能時,不要將存儲放在列表的底部。存儲對人工智能成功的影響可能比你想象的要大。有關使用 AI 存儲成功建立企業的更多信息,請參閱以下參考資料
?