數據中心/云端 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 30 Apr 2025 08:55:00 +0000
zh-CN
hourly
1
196178272 -
NVIDIA NIM Operator 2.0 借助 NVIDIA NeMo 微服務支持提高 AI 部署效率
http://www.open-lab.net/zh-cn/blog/nvidia-nim-operator-2-0-boosts-ai-deployment-with-nvidia-nemo-microservices-support/
Tue, 29 Apr 2025 08:49:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=13672
Continued]]>
NVIDIA 的首個版本 NIM 運算符 簡化了推理工作流的部署和生命周期管理 NVIDIA NIM 微服務,減少 MLOps、LLMOps 工程師和 Kubernetes 管理員的工作負載。它支持在 Kubernetes 集群上輕松快速地部署、自動擴展和升級 NIM。 詳細了解首個版本 。 我們的客戶和合作伙伴一直在使用 NIM Operator 來高效管理其應用的推理流程,例如聊天機器人、代理式 RAG 和虛擬藥物研發。我們 Cisco Compute Solutions 團隊的合作伙伴正在使用 NIM Operator 部署適用于 RAG 的 NVIDIA AI Blueprint ,作為 Cisco Validated Design 的一部分。 “ 我們戰略性地將 NVIDIA NIM Operator 與 思科驗證設計 (CVD) 集成到我們的 AI…
Source
]]>
13672
-
NVIDIA Secure AI 正式發布
http://www.open-lab.net/zh-cn/blog/announcing-nvidia-secure-ai-general-availability/
Wed, 23 Apr 2025 05:39:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=13608
Continued]]>
隨著許多企業開始對其數據進行 AI 訓練或推理,需要保護數據和代碼,尤其是大語言模型 (LLMs) 。由于數據敏感性,許多客戶無法冒險將數據放在云端。此類數據可能包含個人身份信息 (PII) 或公司專有信息,且經過訓練的模型擁有寶貴的知識產權 (IP) 。 NVIDIA Confidential Computing (CC) 是保護大型 AI 模型和數據的出色解決方案。借助 NVIDIA CC,企業無需在性能和安全性之間做出權衡。NVIDIA 最初于 2023 年發布了 CC,并繼續與 CPU 合作伙伴、云提供商和獨立軟件供應商 (ISVs) 合作,以確保從傳統的加速工作負載到機密的加速工作負載的轉變是流暢和透明的。 本文將介紹基于 NVIDIA HGX H100 8-GPU 和 NVIDIA HGX H200 8-GPU 的安全 AI(即 Protected…
Source
]]>
13608
-
AI Fabric 的彈性以及網絡融合的重要性
http://www.open-lab.net/zh-cn/blog/ai-fabric-resiliency-and-why-network-convergence-matters/
Fri, 11 Apr 2025 05:53:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13584
Continued]]>
高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓,從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算(例如 all-reduce 或 broadcast)的性能,因為這些運算需要每個 GPU 的參與才能進行。 本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障,以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計,通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響: 為獲得最佳性能,NCCL 應在網絡上運行,并盡可能減少延遲、抖動和丟包。
Source
]]>
13584
-
NVIDIA 借助 NVIDIA DGX SuperPOD 加快 AI 工廠建設速度
http://www.open-lab.net/zh-cn/blog/nvidia-helps-build-ai-factories-faster-than-ever-with-nvidia-dgx-superpod/
Fri, 11 Apr 2025 05:49:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=13581
Continued]]>
在日本一個秘密地點的洞穴狀房間里,一場數字革命正在展開。服務器機架像巨人一樣立著,它們的光滑框架由數千條電纜連接,充滿了潛力。 直到去年,這個龐大的 AI 工廠還不存在。現在,它將鞏固 SoftBank Corporation 的 AI 驅動創新愿景,這一愿景植根于創建一個與 AI 共存的社會,使用先進的基礎設施推動進步。 對于 SoftBank 而言,每天縮短部署時間,不僅僅是一場技術上的勝利。相反,它具有各種競爭優勢。在 AI 超級計算飛速發展的世界中,速度就是一切。 日本領先的科技巨頭之一軟銀集團與 NVIDIA 合作打造了這一系統。他們共同構建了兩個世界上最先進的計算集群 —— 集群能夠以創紀錄的速度處理大量數據,并加速由軟銀子公司 SB Intuitions 開發的大語言模型(LLM)的開發。 但是,創建 AI 工廠不僅僅是插入硬件。這是一項精心設計的工作,
Source
]]>
13581
-
斯坦福大學實驗室借助 NVIDIA DGX 云加速 RNA 折疊研究
http://www.open-lab.net/zh-cn/blog/stanford-das-lab-accelerates-rna-folding-research-with-nvidia-dgx-cloud/
Wed, 09 Apr 2025 06:19:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=13512
Continued]]>
斯坦福大學的 Das Lab 正在通過一種利用社區參與和加速計算的獨特方法,徹底改變 RNA 折疊研究。在 NVIDIA DGX 云 通過 NAIRR Pilot 計劃 提供的支持下,該實驗室在三個月內獲得了 32 個 NVIDIA A100 DGX 云節點 (每個節點配備 8 個 GPU) 的訪問權限,使團隊能夠從小規模實驗過渡到大規模分布式訓練。這使得該團隊能夠使用大型模型和數據集進行訓練,迭代訓練技術,并推動 RNA 折疊研究領域的發展。 Rhiju Das 博士及其團隊處于 RNA 研究的前沿,為應對新冠肺炎 (Covid-19) 大流行,于 2020 年舉辦了 OpenVaccine Kaggle 競賽,并于 2024 年舉辦了 Ribonanza 競賽,以進一步研究 RNA 折疊。他們的目標是通過對 RNA 結構和功能進行準確建模,
Source
]]>
13512
-
借助 Rafay 為企業 AI 工作負載提供 NVIDIA 加速計算
http://www.open-lab.net/zh-cn/blog/delivering-nvidia-accelerated-computing-for-enterprise-ai-workloads-with-rafay/
Wed, 09 Apr 2025 06:11:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=13506
Continued]]>
生成式 AI 在全球的應用推動了全球對加速計算硬件的巨大需求。在企業中,這加快了加速私有云基礎設施的部署。在地區層面,對計算基礎設施的需求催生了一類新的云提供商,他們為 AI 工作負載提供加速計算 (GPU) 能力,也稱為 GPU 云提供商或 AI 云。其中包括可能符合 NVIDIA 云合作伙伴 (NCP) 要求的云提供商。 這些云提供商提供 GPU 加速的硬件和專為其區域客戶群定制的更高級別的 AI 服務。對于企業私有云和云提供商來說,任務很明確:讓 AI 基礎設施更易于使用,同時提供精心制作的解決方案,以滿足其服務的企業和地區的特定需求。 在本文中,我們將討論構建自助 GPU 云的關鍵技術要求和挑戰,以及 NVIDIA 合作伙伴 Rafay 的平臺即服務 (PaaS) 模型如何應對這些挑戰。
Source
]]>
13506
-
LLM 基準測試:基本概念
http://www.open-lab.net/zh-cn/blog/llm-benchmarking-fundamental-concepts/
Wed, 02 Apr 2025 08:02:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=13428
Continued]]>
在過去幾年中,作為廣泛的 AI 革命的一部分, 生成式 AI 和 大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣,我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量,同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量,以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能,NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何 使用 GenAI-Perf 進行基準測試 。 可以使用各種工具來評估 LLMs 的性能。
Source
]]>
13428
-
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/
Wed, 02 Apr 2025 05:32:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=13408
Continued]]>
在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、
Source
]]>
13408
-
NVIDIA 開源 Run:ai 調度程序以推動社區協作
http://www.open-lab.net/zh-cn/blog/nvidia-open-sources-runai-scheduler-to-foster-community-collaboration/
Tue, 01 Apr 2025 08:12:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=13437
Continued]]>
今天,NVIDIA 宣布推出 KAI Scheduler 的開源版本,這是一種 Kubernetes-native GPU 調度解決方案,現已在 Apache 2.0 許可證下提供。KAI Scheduler 最初在 Run:ai 平臺中開發,現在可供社區使用,同時繼續作為 NVIDIA Run:ai 平臺 的一部分打包和交付。該計劃強調了 NVIDIA 致力于推動開源和企業 AI 基礎設施的發展,打造積極協作的社區,鼓勵貢獻、反饋和創新。 在本文中,我們概述了 KAI Scheduler 的技術細節,強調了其對 IT 和 ML 團隊的價值,并解釋了調度周期和操作。 管理 GPU 和 CPU 上的 AI 工作負載帶來了傳統資源調度器通常無法解決的一系列挑戰。調度程序專為解決以下問題而開發: AI 工作負載可能會迅速變化。例如,
Source
]]>
13437
-
Volcano 調度程序中防止 GPU 碎片的實用技巧
http://www.open-lab.net/zh-cn/blog/practical-tips-for-preventing-gpu-fragmentation-for-volcano-scheduler/
Mon, 31 Mar 2025 08:16:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=13440
Continued]]>
在 NVIDIA,我們以精準和創新解決復雜的基礎設施挑戰為豪。當 Volcano 在其 NVIDIA DGX 云調配的 Kubernetes 集群中面臨 GPU 利用率不足時,我們介入提供了一個不僅達到而且超過預期的解決方案。 通過將先進的調度技術與對分布式工作負載的深入理解相結合,我們實現了約 90% 的 GPU 占用率,遠高于 80% 的合同目標。下面詳細介紹了問題、我們的方法和結果。 DGX 云 Kubernetes 集群由數千個 GPU 組成,每個 GPU 均配備多個 NVIDIA L40S GPU。該集群支持多種工作負載: 盡管有可靠的硬件,但該集群仍存在 GPU 碎片化問題,導致節點被部分占用,無法用于大型作業。這種效率低下的情況又因 Volcano 調度程序 它使用了一個分組調度算法。 如果不進行干預,我們可能會違反合同協議,維持至少 80%
Source
]]>
13440
-
NVIDIA 硅光網絡交換開啟數據中心網絡新時代
http://www.open-lab.net/zh-cn/blog/a-new-era-in-data-center-networking-with-nvidia-silicon-photonics-based-network-switching/
Thu, 27 Mar 2025 05:27:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=13405
Continued]]>
NVIDIA 通過將硅光技術直接與 NVIDIA Quantum 和 NVIDIA Spectrum 交換機 IC 集成,開辟了新的領域。在 GTC 2025 上,我們推出了全球領先的硅光交換機系統,采用先進的 200G SerDes 技術,與傳統的可插拔光模塊相比,這種創新的硅光一體封裝技術具有顯著的優勢,例如3.5 倍的能耗降低、延遲的降低、以及顯著的網絡可靠性提升等,這些都是加速大規模 AI 模型開發和推理的關鍵因素。 硅光一體化封裝技術是硬件集成的一次演進。通過將硅光光收發器直接與交換機 IC 封裝在一起,NVIDIA 實現了: 降低功耗:與傳統的可插拔光模塊相比,硅光一體化封裝可實現3.5 倍的大幅功耗降低。通過消除耗電的外部 DSP 器件和將信號路徑從英寸縮小到毫米,這項突破性技術可顯著提高能效。這種更密集、更可持續的 AI 基礎設施,將推動更快的系統可見性和擴展性,
Source
]]>
13405
-
借助 NVIDIA Mission Control 實現 AI 工廠自動化
http://www.open-lab.net/zh-cn/blog/automating-ai-factory-operations-with-nvidia-mission-control/
Tue, 25 Mar 2025 08:51:04 +0000
http://www.open-lab.net/zh-cn/blog/?p=13363
Continued]]>
DeepSeek-R1 等先進的 AI 模型證明,企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制,以前所未有的方式應對各種挑戰。 基于早期 AI 采用者的成功,許多組織正在將重點轉移到全面生產的 AI 工廠 。然而,創建高效 AI 工廠的過程復雜且耗時,并且不同于構建特定于垂直行業的 AI 的目標。 它涉及到樓宇自動化,用于調配和管理復雜的基礎設施,在最新平臺上維護具有專業技能的站點可靠性工程師(SRE)團隊,以及大規模開發流程以實現超大規模的效率。此外,開發者需要一種方法來利用 AI 基礎設施的強大功能,同時具備超大規模數據中心的敏捷性、效率和規模,同時避免成本、復雜性和專業知識等方面的負擔。 本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…
Source
]]>
13363
-
借助 NVIDIA Parabricks 和 NVIDIA AI Blueprints,將基因組學和單細胞分析時間縮短至幾分鐘
http://www.open-lab.net/zh-cn/blog/shrink-genomics-and-single-cell-analysis-time-to-minutes-with-nvidia-parabricks-and-nvidia-blueprints/
Fri, 21 Mar 2025 09:13:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13269
Continued]]>
NVIDIA Parabricks 是一款可擴展的基因組學分析軟件套件,通過加速計算和深度學習解決 omics 挑戰,實現新的科學突破。 NVIDIA Parabricks v4.5 在 NVIDIA GTC 2025 上發布,通過支持最新的 NVIDIA GPU 架構,并通過結合使用 Giraffe 和 DeepVariant 來改進對齊和變體識別,從而支持不斷增長的數據量。該版本還包括改進的功能,并縮短了跨多個行業領先工具 (包括 STAR、FQ2BAM 和 Minimap2) 的分析時間。 Parabricks v4.5 隨附用于基因組學和單細胞分析的全新 NVIDIA AI Blueprints,使生物信息學家和基因組學平臺提供商能夠輕松部署和測試 NVIDIA Parabricks 和 NVIDIA RAPIDS,而無需本地 GPU 或自管理云配置。通過擴展可訪問性,
Source
]]>
13269
-
借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能
http://www.open-lab.net/zh-cn/blog/boost-llama-model-performance-on-microsoft-azure-ai-foundry-with-nvidia-tensorrt-llm/
Thu, 20 Mar 2025 08:16:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13245
Continued]]>
微軟與 NVIDIA 合作,宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。這些進步由 NVIDIA TensorRT-LLM 優化提供支持,在保持模型輸出質量的同時,顯著提高了吞吐量、降低了延遲并提高了成本效益。 通過這些改進,Azure AI Foundry 客戶可以實現顯著的吞吐量提升:在模型目錄中的無服務器部署 (Model-as-a-Service) 產品中,Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%,Llama 3.1 8B 模型的吞吐量提高 34%。 更快的令牌生成速度和更低的延遲使聊天機器人、虛擬助理和自動化客戶支持等實時應用程序的響應速度更快、效率更高。這轉化為更好的價格-性能比率,顯著降低了由 LLM 驅動的應用的每個 token 的成本。
Source
]]>
13245
-
NVIDIA 展示用于游戲 AI 推理和簡化實操機會的 GeForce NOW
http://www.open-lab.net/zh-cn/blog/nvidia-demonstrates-geforce-now-for-game-ai-inference-and-streamlined-hands-on-opportunities/
Thu, 20 Mar 2025 08:11:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=13242
Continued]]>
NVIDIA 云游戲服務 GeForce NOW 為開發者和發行商提供新工具,讓更多游戲玩家暢玩他們的游戲,并提供只有通過云才能實現的新體驗。這些工具通過將 AI 推理任務卸載到云端來降低本地 GPU 需求,從而擴大覆蓋范圍并降低成本。 在 2025 年游戲玩家開發者大會 (GDC) 此外,NVIDIA 還展示了混合 AI 游戲,其中包括本地渲染圖形和在云端處理的零開發者成本 AI 推理。這使得具有 AI 功能的游戲可供更多受眾使用。此外,NVIDIA 和 Ubisoft 最近合作開發了 “刺客信條:暗影 ( Assassin ‘ s Creed Shadows) ” 評測活動,在安全可控的環境中為媒體提供無縫且一致的游戲評測體驗。 GeForce NOW 可跨設備從云端的 GeForce RTX 級服務器進行串流,包括低功耗筆記本電腦、Valve 的 Steam Deck…
Source
]]>
13242
人人超碰97caoporen国产