多 GPU – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 02 Jan 2025 08:58:54 +0000
zh-CN
hourly
1
196178272 -
使用 NVIDIA NeMo Curator 新分類器模型增強您的訓練數據
http://www.open-lab.net/zh-cn/blog/enhance-your-training-data-with-new-nvidia-nemo-curator-classifier-models/
Thu, 19 Dec 2024 08:54:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=12475
Continued]]>
分類器模型專門用于將數據分類為預定義的組或類,在優化數據處理流程以微調和預訓練生成式 AI 模型方面發揮著關鍵作用。它們的價值在于通過過濾低質量或有毒數據來提高數據質量,確保下游流程只獲得干凈、相關的信息。 除了過濾之外,classifier 模型還通過數據豐富來增加價值,使用元數據 (例如 domain、type 或 content específics 和 creative quality-specific blends) 標記數據。這些功能不僅能夠簡化數據準備,還能讓用戶深入了解在生產環境中如何使用模型。例如,classifier 可以幫助理解用戶提示的復雜性和領域,開發者可以將這些提示路由到最合適的模型。 NVIDIA NeMo Curator 團隊之前發布了兩個分類器模型: 除 BERT 風格分類器模型外,NeMo Curator 還支持基于 n-gram…
Source
]]>
12475
-
借助新的量子動力學功能加速 Google 的 QPU 開發
http://www.open-lab.net/zh-cn/blog/accelerating-googles-qpu-development-with-new-quantum-dynamics-capabilities/
Mon, 18 Nov 2024 06:46:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=12020
Continued]]>
量子動力學描述了復雜的量子系統如何隨時間演變并與其周圍環境相互作用。模擬量子動力學極其困難,但對于了解和預測材料的基本特性至關重要。這在開發 量子處理單元(QPUs) 中尤為重要,量子動力學模擬使 QPUs 開發者能夠了解其硬件的物理特性并改進其硬件。 量子動力學模擬與用于研究未來量子算法運行方式的主流電路模擬有所不同。電路模擬模擬了離散量子邏輯門應用下量子位的演變。這種簡化視圖將量子位與其周圍環境的交互方式進行了理想化,從而排除了對真實噪音和其他因素的考慮。相比之下,量子動力學模擬全面地反映了量子系統如何隨時間演變,揭示了量子過程的速度和準確性的基本限制。 為進行經典類比,可以使用應用于晶體管(抽象表示為 0 和 1)的二進制邏輯(AND、OR、XOR)對經典計算機的邏輯進行建模。然而,為了設計速度更快、性能更高的晶體管,電氣工程師需要運行能夠完全模擬設備物理特性的復雜模型,
Source
]]>
12020
-
利用 NVIDIA 數學稀疏庫加速 HPCG 基準測試性能
http://www.open-lab.net/zh-cn/blog/accelerating-the-hpcg-benchmark-with-nvidia-math-sparse-libraries/
Tue, 10 Sep 2024 08:43:50 +0000
http://www.open-lab.net/zh-cn/blog/?p=11296
Continued]]>
在高性能計算(HPC)領域,NVIDIA 通過提供高度優化的 NVIDIA 高性能共梯度(HPCG)基準測試程序(作為 NVIDIA HPC 基準測試程序集合的一部分),不斷推動 HPC 發展。 現在,我們在/NVIDIA/nvidia-hpcg GitHub 存儲庫中提供 NVIDIA HPCG 基準測試程序,使用其高性能數學庫、cuSPARSE 和 NVIDIA Performance Libraries (NVPL) 在 NVIDIA GPUs 和 NVIDIA CPUs 上實現稀疏矩陣向量乘法 (SpMV) 和稀疏矩陣三角形求解器 (SpSV) 的最佳性能。 HPCG 基準測試是對高性能 LINPACK (High-Performance LINPACK) 基準測試的補充,后者通常用于在 TOP500 榜單中對超級計算機進行排名。
Source
]]>
11296
-
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能
http://www.open-lab.net/zh-cn/blog/nvidia-nvlink-and-nvidia-nvswitch-supercharge-large-language-model-inference/
Mon, 12 Aug 2024 07:03:12 +0000
http://www.open-lab.net/zh-cn/blog/?p=10993
Continued]]>
大型語言模型(LLM)越來越大,增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求,并為盡可能多的用戶提供服務,多GPU計算是必不可少的。這不僅能夠降低延遲,提高用戶體驗,還能夠提高吞吐量,降低服務成本。兩者同時重要。 即使大型模型可以裝入單個state-of-the-art GPU的內存中,該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力,可以實現最新模型的實時用戶體驗。 為了解對每秒高令牌的需求,以下 GIF 展示了兩種情況: 通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型,可以快速處理推理請求,從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量,云推理服務還可以同時優化用戶體驗和成本。
Source
]]>
10993
-
使用張量并行技術進行自動駕駛感知模型訓練
http://www.open-lab.net/zh-cn/blog/perception-model-training-for-autonomous-vehicles-with-tensor-parallelism/
Fri, 26 Apr 2024 05:16:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=9745
Continued]]>
由于采用了多攝像頭輸入和深度卷積骨干網絡,用于訓練自動駕駛感知模型的 GPU 內存占用很大。當前減少內存占用的方法往往會導致額外的計算開銷或工作負載的失衡。 本文介紹了 NVIDIA 和智能電動汽車開發商蔚來的聯合研究。具體來說,文中探討了張量并行卷積神經網絡(CNN)訓練如何有助于減少 GPU 內存占用,并展示了蔚來如何提高自動駕駛汽車感知模型的訓練效率和 GPU 利用率。 自動駕駛的感知模型訓練 自動駕駛感知任務采用多攝像頭數據作為輸入,卷積神經網絡(CNN)作為骨干(backbone)來提取特征。由于 CNN 的前向激活值(activations)都是形狀為(N, C, H, W)的特征圖(feature maps)(其中 N、C、H、W 分別代表圖像數、通道數、高度和寬度)。這些激活值需要被保存下來用于反向傳播,
Source
]]>
9745
-
借助 NVIDIA Holoscan for Media 中的新功能簡化直播媒體應用程序開發
http://www.open-lab.net/zh-cn/blog/streamline-live-media-application-development-with-new-features-in-nvidia-holoscan-for-media/
Tue, 12 Mar 2024 06:09:09 +0000
http://www.open-lab.net/zh-cn/blog/?p=9187
Continued]]>
適用于媒體的 NVIDIA Holoscan 是一個軟件定義的平臺,用于構建和部署適用于直播媒體的應用程序。最近的更新引入了用戶友好的開發者界面和應用程序部署到平臺的新功能。 適用于媒體的 Holoscan 現在包括 Helm 控制面板,可提供用于編排和管理 Helm 圖表的直觀用戶界面。Helm 是幫助開發者定義、安裝和升級 Kubernetes 應用程序的技術,可簡化和加速應用程序打包和部署的開發和測試。 借助此更新,適用于媒體的 Holoscan 還獲得了一個新的媒體流式傳輸參考應用程序容器。媒體網關 Next 使開發者能夠使用 ST 2110/NMOS 集成運行任何 GStreamer 管道,并配置需要測試正在開發的應用程序的發送器和接收器。 此外,平臺和開發者文檔也已擴展,包括有關在單個 Linux 主機上進行有限本地設置的說明,以及擴展集群安裝指南。除此之外,
Source
]]>
9187
-
使用 NVIDIA Holoscan for Media 進行軟件定義廣播
http://www.open-lab.net/zh-cn/blog/software-defined-broadcast-with-nvidia-holoscan-for-media/
Thu, 14 Sep 2023 05:55:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=7896
Continued]]>
廣播行業正在經歷內容創建、管理、分發和消費方式的轉變。這一轉變包括從受固定功能設備約束的傳統線性工作流程轉變為靈活和混合的軟件定義系統,從而實現直播的未來。 開發人員現在可以申請加入 NVIDIA Holoscan for Media,這是一個軟件定義的平臺,用于在本地、云端和邊緣開發和部署媒體應用程序。 使用 Holoscan for Media,廣播公司和解決方案提供商可以利用最新的 IT 和資源調配技術,以及現代的基于容器的開發、編排和交付方法。 Holoscan for Media 是一個基于 IP 的解決方案,基于行業標準和 API,包括 SMPTE ST 2110、AMWA NMOS、RIST、SRT 和 NDI。 該平臺集成了開源和無處不在的技術,打破了基于 SDI 和 FPGA 的系統的專有性和靈活性。它還可以將最新的功能,例如 生成性 AI,
Source
]]>
7896
-
用 Dask XGBoost 解鎖多 GPU 模型訓練
http://www.open-lab.net/zh-cn/blog/unlocking-multi-gpu-model-training-with-dask-xgboost/
Thu, 07 Sep 2023 06:14:23 +0000
http://www.open-lab.net/zh-cn/blog/?p=7849
Continued]]>
作為數據科學家,我們經常面臨在大型數據集上訓練模型的挑戰。一種常用的工具是XGBoost,這是一種穩健且高效的梯度提升框架,因其在處理大型表格數據時的速度和性能而被廣泛采用。 理論上,使用多個 GPU 可以顯著提高計算能力,從而加快模型訓練。然而,許多用戶發現,當試圖通過 Dask 和 XGBoost 進行訓練時,Dask 是一個用于并行計算的靈活的開源 Python 庫,而 XGBoost 則提供 Dask API 來訓練 CPU 或 GPU 的 Dask DataFrames。 訓練 Dask XGBoost 的一個常見障礙是處理不同階段的內存不足(OOM)錯誤,包括 解決這些記憶問題可能很有挑戰性,但非常有益,因為多 GPU 訓練的潛在好處很誘人。 這篇文章探討了如何在多個 GPU 上優化 Dask XGBoost 并管理內存錯誤。
Source
]]>
7849
-
在 GPU 加速的 Google Cloud 上使用 NVIDIA NeMo 簡化生成式 AI 開發
http://www.open-lab.net/zh-cn/blog/streamline-generative-ai-development-with-nvidia-nemo-on-gpu-accelerated-google-cloud/
Tue, 29 Aug 2023 05:40:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=7715
Continued]]>
生成式人工智能已成為我們時代的變革力量,使各行各業的組織能夠實現無與倫比的生產力水平,提升客戶體驗,并提供卓越的運營效率。 大語言模型 (LLMs) 是生成式人工智能背后的大腦。獲得 Llama 和 Falcon 等功能強大、知識淵博的基礎模型,為創造驚人的機會打開了大門。然而,這些模型缺乏服務于企業用例所需的特定領域的知識。 開發人員有三種選擇來為其生成的人工智能應用程序提供動力: NVIDIA NeMo 是一個端到端的云原生框架,用于構建、定制和部署生成人工智能模型。它包括訓練和推理框架 Guardrails,以及數據管理工具,以實現采用生成人工智能的簡單、經濟高效和快速的方式。 隨著生成性人工智能模型及其發展的不斷進步,人工智能堆棧及其依賴關系變得越來越復雜。對于在人工智能上運營業務的企業,
Source
]]>
7715
-
GPU 集成為 Taboola 帶來數據中心效率和成本節約
http://www.open-lab.net/zh-cn/blog/gpu-integration-propels-data-center-efficiency-and-cost-savings-for-taboola/
Fri, 02 Jun 2023 07:24:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=7175
Continued]]>
當您在網頁上看到與上下文相關的廣告時,它很可能是由 Taboola 數據管道提供的內容。作為世界領先的內容推薦公司, Taboola 面臨的一大挑戰是經常需要擴展 Apache Spark CPU 集群容量,以滿足不斷增長的計算和存儲需求。 數據中心容量和硬件成本總是面臨壓力。 是什么導致了擴展挑戰? Taboola 使用一個復雜的數據管道,從用戶瀏覽器或移動設備延伸到多個數據中心。部署了復雜的深度學習算法、數據庫、基礎設施服務(如 Apache Kafka )和數千臺服務器,為世界各地的用戶提供最合適的廣告。 這篇文章描述了 Taboola 加入 RAPIDS Apache 加速器 Spark 以優化處理成本的動機,以及對遷移過程、挑戰和迄今為止吸取的經驗教訓的見解 要計劃解決方案,您必須充分了解問題的嚴重性。在提供廣告內容時,
Source
]]>
7175
-
使用 CV-CUDA 提高基于人工智能的計算機視覺的吞吐量并降低成本
http://www.open-lab.net/zh-cn/blog/increasing-throughput-and-reducing-costs-for-computer-vision-with-cv-cuda/
Thu, 04 May 2023 03:41:08 +0000
http://www.open-lab.net/zh-cn/blog/?p=6928
Continued]]>
涉及基于人工智能的實時云規模應用程序計算機視覺正在迅速增長。用例包括圖像理解、內容創建、內容審核、映射、推薦系統和視頻會議。 然而,由于對處理復雜性的需求增加,這些工作負載的計算成本也在增長。從靜止圖像到視頻的轉變現在也正在成為消費者互聯網流量的主要組成部分。鑒于這些趨勢,迫切需要構建高性能但具有成本效益的計算機視覺工作負載。 基于人工智能的計算機視覺管道通常涉及圍繞人工智能推理模型的數據預處理和后處理步驟,這可能占整個工作負載的 50-80% 。這些步驟中常見的運算符包括以下內容: 雖然開發人員可能會使用 NVIDIA GPU 來顯著加速他們管道中的人工智能模型推理,但預處理和后處理仍然通常使用基于 CPU 的庫來實現。這導致整個人工智能管道的性能出現瓶頸。通常是人工智能圖像或視頻處理管道一部分的解碼和編碼過程也可能在 CPU 上受到瓶頸,影響整體性能。
Source
]]>
6928
人人超碰97caoporen国产