DGX 云 – NVIDIA 技術博客

Volcano 調度程序中防止 GPU 碎片的實用技巧

Mon, 31 Mar 2025 08:16:55 +0000

在 NVIDIA，我們以精準和創新解決復雜的基礎設施挑戰為豪。當 Volcano 在其 NVIDIA DGX 云調配的 Kubernetes 集群中面臨 GPU 利用率不足時，我們介入提供了一個不僅達到而且超過預期的解決方案。通過將先進的調度技術與對分布式工作負載的深入理解相結合，我們實現了約 90% 的 GPU 占用率，遠高于 80% 的合同目標。下面詳細介紹了問題、我們的方法和結果。 DGX 云 Kubernetes 集群由數千個 GPU 組成，每個 GPU 均配備多個 NVIDIA L40S GPU。該集群支持多種工作負載：盡管有可靠的硬件，但該集群仍存在 GPU 碎片化問題，導致節點被部分占用，無法用于大型作業。這種效率低下的情況又因 Volcano 調度程序它使用了一個分組調度算法。如果不進行干預，我們可能會違反合同協議，維持至少 80%

Source

]]>

借助 SES AI 的 NVIDIA 驅動的電動汽車創新技術，加速運輸業的未來發展

Tue, 25 Mar 2025 09:04:47 +0000

電動汽車 (EV) 正在改變交通運輸方式，但成本、使用壽命和續航里程等挑戰仍然是廣泛采用電動汽車的障礙。這些挑戰的核心在于電池技術，尤其是電解質，這是實現能源存儲和輸送的關鍵組件。電解質的特性直接影響電池的充電速度、功率輸出、穩定性和安全性。為了克服這些障礙，研究人員開始采用 AI 驅動的方法來加速新型電池材料的發現。作為電池創新領域的領導者，SES AI 正在利用先進的 NVIDIA 硬件和軟件生態系統來革新材料發現。SES AI 將適用于特定領域的 LLM 與 AI 模型和 GPU 加速的模擬相結合，將數十年的研究壓縮為幾個月，并在電動汽車電池性能方面取得突破性進展。 SES AI 的開創性工作分為以下關鍵步驟： SES AI 正在創建全面的分子字典，以繪制數百萬個小分子的物理和化學性質。

Source

]]>

在 NVIDIA DGX 云上使用 NVIDIA NeMo Curator 處理 PB 級視頻

Tue, 18 Mar 2025 02:53:05 +0000

隨著物理 AI 的興起，視頻內容生成呈指數級增長。一輛配備攝像頭的自動駕駛汽車每天可生成超過 1 TB 的視頻，而機器人驅動的制造廠每天可生成 1 PB 的數據。要利用這些數據來訓練和微調世界基礎模型 (WFMs) ，您必須首先高效地處理這些數據。傳統的固定容量批量處理流水線難以應對這種規模，通常未充分利用 GPU，并且無法匹配所需的吞吐量。這些效率低下的情況減緩了 AI 模型的開發，并增加了成本。為了應對這一挑戰， NVIDIA NeMo Curator 團隊開發了一個靈活的 GPU 加速流式傳輸管道，用于大規模視頻管護，現在可在 NVIDIA DGX Cloud 上使用。在本文中，我們將探討在管道中進行的優化，包括自動擴展和負載均衡技術，以確保在充分利用可用硬件的同時優化各管道階段的吞吐量。結果如何？更高的吞吐量、

Source

]]>

借助 NVIDIA DGX 云基準測試衡量和提高 AI 工作負載性能

Tue, 18 Mar 2025 02:35:56 +0000

隨著 AI 功能的進步，了解硬件和軟件基礎架構選擇對工作負載性能的影響對于技術驗證和業務規劃都至關重要。組織需要一種更好的方法來評估現實世界中的端到端 AI 工作負載性能和總擁有成本，而不僅僅是比較原始 FLOPs 或每個 GPU 的每小時成本。實現出色的 AI 性能需要的不僅僅是強大的 GPU。它需要一個經過充分優化的平臺，包括基礎架構、軟件框架和應用級增強功能。在評估 AI 性能時，請提出以下關鍵問題：您的實現是否正確，或者是否存在與參考架構相比減慢您速度的錯誤？集群的最佳規模是什么？選擇哪些軟件框架可以縮短上市時間？傳統的芯片級指標不足以完成這項任務，導致投資未得到充分利用，并且錯過了效率提升。衡量 AI 工作負載和基礎設施的性能至關重要。本文將介紹 NVIDIA DGX 云基準測試，這是一套工具，用于評估跨 AI 工作負載和平臺的訓練和推理性能，其中包括基礎設施軟件、

Source

]]>

借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能

Tue, 18 Mar 2025 02:07:41 +0000

NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案，可實現快速可靠的應用部署。 DGX Cloud Serverless Inference 由 NVIDIA Cloud Functions (NVCF) 提供支持，可在多云和本地環境中提取多集群基礎設施設置，以處理 GPU 加速的工作負載。無論是管理 AI 工作負載、高性能計算 (HPC) 、AI 模擬，還是容器化應用程序，該平臺都能讓您在抽象底層基礎設施的同時進行全球擴展。一次部署，隨處擴展。獨立軟件供應商 (ISV) 在部署和擴展 AI 應用時經常面臨挑戰。這些應用程序需要在全球范圍內或更接近客戶基礎設施所在的位置進行部署。這可能需要在多個云、數據中心和地理區域進行部署，從而導致復雜的基礎設施運營。Serverless AI 推理通過在云、

Source

]]>

NVIDIA DGX 云推出即用型模板，更好地評估 AI 平臺性能

Tue, 11 Feb 2025 03:20:00 +0000

在快速發展的 AI 系統和工作負載環境中，實現出色的模型訓練性能遠遠超出芯片速度。這需要對整個堆棧進行全面評估，從計算到網絡，再到模型框架。了解復雜的 AI 系統性能可能比較困難。從精度到并行，您可以對許多應用程序進行更改，但目前需要付出大量努力和掌握專業知識才能有效實施這些更改。 NVIDIA DGX Cloud Benchmarking Recipes 為提高訓練性能提供了指導，通過分享每個工作負載的良好性能以及實現方法的最佳實踐。如需了解更多信息，請參閱 NVIDIA DGX Cloud Benchmarking Recipes 。 DGX 云 Benchmarking Recipes 是一款端到端基準測試套件，既可以衡量真實環境中的性能，也可以識別 AI 訓練工作負載中的優化機會。這些基準測試方法經過精心設計，可評估真實 AI 應用的性能，

Source

]]>

借助 iGenius 和 NVIDIA DGX 云，繼續為主權 AI 和受監管行業預訓練先進的 LLM

Thu, 16 Jan 2025 06:37:38 +0000

近年來，大語言模型（LLMs）在推理、代碼生成、機器翻譯和摘要等領域取得了非凡的進步。然而，盡管基礎模型具有先進的功能，但在涉及特定領域的專業知識（例如金融或醫療健康）或捕捉英語以外的文化和語言細微差別時，它們存在局限性。通過使用持續預訓練 (CPT)、指令微調和檢索增強型生成 (RAG) 進行進一步開發，可以克服這些限制。這需要高質量的特定領域的數據集、強大的 AI 平臺 (軟件和硬件堆棧) 以及先進的 AI 專業知識。 iGenius 是一家意大利技術公司，專門為金融服務和公共管理等高度監管行業的企業提供人工智能服務。iGenius 在歐洲和美國之間開展工作，致力于讓 AI 為人們和企業服務。該公司成立于 2016 年，其使命是實現數據人性化和業務知識普及。 iGenius 是 NVIDIA Inception 合作伙伴，

Source

]]>