accelerated computing – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 09 Feb 2023 05:36:32 +0000 zh-CN hourly 1 196178272 XGBoost 中無需手動編碼的分類特征 http://www.open-lab.net/zh-cn/blog/categorical-features-in-xgboost-without-manual-encoding/ Wed, 08 Feb 2023 05:33:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=6238 Continued]]> XGBoost 是一種基于決策樹的集成 機器學習 算法,基于梯度增強。然而,直到最近,它還不支持分類數據。分類特征在用于訓練或推理之前必須手動編碼。 在序數類別的情況下,例如學校成績,這通常使用標簽編碼來完成,其中每個類別都分配一個與該類別的位置相對應的整數。等級 A 、 B 和 C 可分別分配整數 1 、 2 和 3 。 對于基數類別,類別之間沒有序數關系,例如顏色,這通常使用一個熱編碼來完成。這是為類別特征包含的每個類別創建新的二進制特征的地方。具有紅色、綠色和藍色類別的單個分類特征將是一個熱編碼為三個二進制特征,一個代表每種顏色。 這意味著具有大量類別的分類特征可能會導致數十甚至數百個額外的特征。因此,經常會遇到內存池和最大 DataFrame 大小限制。 對于 XGBoost 這樣的樹學習者來說,這也是一種特別糟糕的方法。

Source

]]>
6238
通過 AI 和加速計算推動 5G 時代創新 http://www.open-lab.net/zh-cn/blog/driving-5g-era-innovation-with-ai-and-accelerated-computing/ Mon, 06 Feb 2023 04:46:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=6232 Continued]]> 電信行業在推動整個社會的數字化轉型方面發揮著關鍵作用。一個多世紀以來,從固定通信到移動通信,該行業培育了為全球人民提供連接結構的技術。在 5G 時代,這一關鍵角色現在包括為眾多始終連接的終端用戶和計算節點提供無約束和無處不在的高速數據連接。 IHS Markit 估計,由于移動支持的普及連接,到 2035 年, 5G 支持的價值鏈將為工業部門和企業市場帶來超過 13 萬億美元的總產值(圖 1 )。 GSMA 預測,到 2025 年,僅移動電信行業就將為全球經濟貢獻 4.9 萬億美元(約占全球 GDP 的 5% )。要了解更多信息,請參見 后新冠時代的 5G 經濟 和 2022 年移動經濟 。 電信業和整個社會的持續成功不能被視為理所當然。從歷史上看,該行業的成功很大程度上歸功于通過技術、標準、經濟和政策創新來解決關鍵挑戰的協調一致的方法。

Source

]]>
6232
使用 NVIDIA Arm HPC 開發套件評估應用程序 http://www.open-lab.net/zh-cn/blog/evaluating-applications-using-the-nvidia-arm-hpc-development-kit/ Wed, 16 Nov 2022 07:38:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5699 Continued]]> NVIDIA Arm HPC 開發者套件 是一個集成的硬件和軟件平臺,用于在異構 GPU 和 CPU 加速計算系統上創建、評估和基準測試 HPC 、 AI 和科學計算應用程序。 NVIDIA 于 2021 3 月宣布上市。 該套件被設計為 HPC 和 AI 應用的下一代 NVIDIA Grace Hopper 超級芯片 的墊腳石。它可用于識別不明顯的 x86 依賴關系,并確保 1H23 中 NVIDIA Grace Hopper 系統 之前的軟件準備就緒。有關詳細信息,請參閱 NVIDIA Grace Hopper 超級芯片白皮書 。 Oak Ridge National Laboratory Leadership Computing Facility ( OLCF )將 NVIDIA Arm HPC 開發套件集成到其現有的 Wombat Arm cluster 中。

Source

]]>
5699
HugeCTR v4.0 & v4.1 發布說明 http://www.open-lab.net/zh-cn/blog/hugectr-v4-0-and-v4-1-release/ Tue, 25 Oct 2022 04:22:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=5484 Continued]]> Merlin HugeCTR(以下簡稱 HugeCTR)是 GPU 加速的推薦框架,旨在在多個 GPU 和節點之間分配訓練并估計點擊率(Click-through rate)。 圖2:HugeCTR I/O 框架 以幫助用戶更好地控制重疊行為。有關詳細信息,請參閱 API 文檔 https://nvidia-merlin.github.io/HugeCTR/master/api/python_interface.html#createsolver-method 以下是目前 HugeCTR 存在的已知問題,我們將在之后的版本中盡快修復:

Source

]]>
5484
構造具有動態參數的 CUDA 圖表 http://www.open-lab.net/blog/constructing-cuda-graphs-with-dynamic-parameters/ Tue, 23 Aug 2022 03:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4945 Continued]]> 自 CUDA 10 引入以來, CUDA 圖表 已用于各種應用中。 A.圖表將一組 CUDA 內核和其他 CUDA 操作組合在一起,并使用指定的依賴樹執行它們。它通過結合與 CUDA 內核啟動和 CUDA API 調用相關的驅動程序活動來加速工作流。在可能的情況下,它還通過硬件加速來增強依賴性,而不是僅僅依賴 CUDA 流和事件。 構造 CUDA 圖表有兩種主要方法:顯式 API 調用和流捕獲。 通過這種構造圖的方法,通過調用 CUDA API ,將由 CUDA 內核和 CUDA 內存操作形成的圖的節點添加到圖表中,其中被節點類型替換。節點之間的依賴關系通過 API 顯式設置。 使用明確的 API 構造 CUDA 圖表的好處是 API 返回節點句柄(),這些句柄可以用作未來節點更新的參考。例如,

Source

]]>
4945
Merlin HugeCTR Sparse Operation Kit 系列之二 http://www.open-lab.net/zh-cn/blog/merlin-hugectr-sparse-operation-kit-series-2/ Thu, 23 Jun 2022 04:10:30 +0000 http://www.open-lab.net/zh-cn/blog/?p=4373 Continued]]> 摘要 在上期文章中,我們對 HugeCTR Sparse Operation Kit (以下簡稱SOK) 的基本功能,性能,以及 API 用法做了初步的介紹,相信大家對如何使用 SOK 已經有了基本的了解。在這期文章中,我們將從在 TensorFlow 上使用 SOK 時常見的“數據并行-模型并行-數據并行”流程入手,帶大家詳細了解 SOK 的原理。 1. Input Dispatcher Input Dispatcher 的職責是將數據以并行的形式的輸入,分配到各個 GPU 上。總共分為以下幾個步驟: 總而言之,經過上面 4 個步驟,我們將數據并行地輸入,按照其求余 GPU 數量的結果,分配到了不同對應的 GPU 上,

Source

]]>
4373
HugeCTR v3.6 & v3.7 發布說明 http://www.open-lab.net/zh-cn/blog/hugectr-v3-6-and-v3-7-release/ Thu, 23 Jun 2022 03:59:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=4371 Continued]]> Merlin HugeCTR(以下簡稱 HugeCTR)是 GPU 加速的推薦程序框架,旨在在多個 GPU 和節點之間分配訓練并估計點擊率(Click-through rate)。 在之前的版本中,Concat 層只能處理 2D 輸入張量。現在輸入可以是 3D 并且可以沿軸 1 和軸 2 連接。 在以前的版本中,HugeCTR 假設每個稠密特征只有一個值,并且數據類型必須是 float32,也就是是一種標量類型。而現在用戶可以將 float32 或者[float32]用于稠密特征,這意味著每個稠密特征可以有多個值。 Merlin 容器中的 HDFS 支持現在是一個可選依賴項。有關詳細信息,請參閱核心功能文檔中的 HDFS 支持部分。(https://nvidia-merlin.github.io/HugeCTR/v3.

Source

]]>
4371
用 HPC + AI 應對邊緣數據挑戰 http://www.open-lab.net/zh-cn/blog/facing-the-edge-data-challenge-with-hpc-ai/ Thu, 02 Jun 2022 06:48:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4275 Continued]]> 未來十年,科學儀器的靈敏度和分辨率將提高 10-100 倍,因此需要相應的存儲和處理規模。這些增強型儀器產生的數據將達到摩爾定律無法充分解決的極限,它將挑戰僅基于數據中心 HPC 的傳統運營模式。 邊緣計算 依賴 AI 和 高性能計算 ( HPC )來跟上這些增強功能的時代已經到來。 5 月 30 日, NVIDIA 超尺度和 HPC 計算副總裁伊恩·巴克博士在德國漢堡的 國際超級計算大會 ( ISC )特別演講中回應了這種觀點。在介紹此 邊緣計算背景下 HPC 和 AI 本質的視角轉變 的同時,特別演講還介紹了一個旨在解決邊緣 HPC 數據密集型工作負載這一難題的平臺: NVIDIA Holoscan 。 NVIDIA Holoscan 平臺已經擴展,以滿足 DevOps 工程師、性能工程師、數據科學家和研究人員在這些不可思議的邊緣儀器上工作的特定需求。

Source

]]>
4275
利用數據增強零信任安全性 http://www.open-lab.net/zh-cn/blog/enhancing-zero-trust-security-with-data/ Tue, 17 May 2022 08:26:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4180 Continued]]> 隨著遠程和混合工作、自帶設備( BYOD )和基于云的基礎設施等數字企業趨勢的發展,設備和用戶如何與企業網絡交互,網絡安全也在不斷發展。有關更多信息,請參閱 零信任體系結構 。 如今,零信任是網絡安全領域的熱門話題,在 網絡安全會議和總統新聞發布室 中也有討論。零信任通常被解釋為結合了高摩擦策略,如持續的重新認證提示和自動注銷,這會給用戶體驗帶來障礙、時間和挫折。但利用零信任原則并不一定意味著將用戶交付給一個我們花在嘗試訪問數字資源和使用數字資源上的時間一樣多的世界。 在這篇文章中,我們澄清了關于零信任的困惑,并討論了一個深思熟慮的網絡安全團隊如何構建一個零信任系統,以確保用戶和數據的安全,并保持無縫的用戶體驗。 在評估如何最好地利用零信任原則之前,請后退一步定義它。據 零信任體系結構 論文稱,零信任是一種持續驗證的網絡安全框架,將“防御從靜態、

Source

]]>
4180
多節點多 GPU :大規模使用 NVIDIA cuFFTMp FFT http://www.open-lab.net/zh-cn/blog/multinode-multi-gpu-using-nvidia-cufftmp-ffts-at-scale/ Thu, 27 Jan 2022 05:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2965 Continued]]> 今天,NVIDIA 宣布發布 Early Access ( EA )的 cuFFTMp 。 cuFFTMp 是 cuFFT 的多節點、多進程擴展,使科學家和工程師能夠在 exascale 平臺上解決具有挑戰性的問題。 FFTs ( Fast Fourier Transforms )廣泛應用于分子動力學、信號處理、計算流體力學( CFD )、無線多媒體和機器學習等領域。有了 cuFFTMp , NVIDIA 現在不僅支持單個系統中的多個 GPU ,還支持跨多個節點的多個 GPU 。 圖 1 顯示, cuFFTMp 達到 1.8 PFlop / s 以上,超過該規模轉換峰值機器帶寬的 70% 。 在圖 2 中,問題大小保持不變,但 GPU 的數量從 8 增加到 2048 。可以看到, cuFFTMp 成功地擴展了問題,將單精度時間從 8 GPU ( 1 個節點)的…

Source

]]>
2965
人人超碰97caoporen国产