Deep Learning – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 13 Apr 2023 03:16:41 +0000
zh-CN
hourly
1
196178272 -
使用 Dataiku 和 NVIDIA Data Science 進行主題建模和圖像分類
http://www.open-lab.net/zh-cn/blog/topic-modeling-and-image-classification-with-dataiku-and-nvidia-data-science/
Tue, 04 Apr 2023 03:09:47 +0000
http://www.open-lab.net/zh-cn/blog/?p=6680
Continued]]>
這個Dataiku platform日常人工智能簡化了深度學習。用例影響深遠,從圖像分類到對象檢測和自然語言處理( NLP )。 Dataiku 可幫助您對代碼和代碼環境進行標記、模型培訓、可解釋性、模型部署以及集中管理。 本文深入探討了用于圖像分類和對象檢測的高級 Dataiku 和 NVIDIA 集成。它還涵蓋了實時推理的深度學習模型部署以及如何使用開源RAPIDS和 cuML 庫,用于客戶支持 Tweet 主題建模用例。 NVIDIA 提供硬件 (NVIDIA A10 Tensor Core GPUs,在這種情況下)和各種 OSS(CUDA,RAPIDS) 完成工作 請注意,本文中的所有 NVIDIA AI 軟件都可以通過NVIDIA AI Enterprise,一個用于生產人工智能的安全端到端軟件套件,由 NVIDIA 提供企業支持 本節介紹使用 Dataiku 和…
Source
]]>
6680
-
NVIDIA Hopper GPU 上的新 cuBLAS 12.0 功能和矩陣乘法性能
http://www.open-lab.net/zh-cn/blog/new-cublas-12-0-features-and-matrix-multiplication-performance-on-nvidia-hopper-gpus/
Wed, 01 Feb 2023 02:48:04 +0000
http://www.open-lab.net/zh-cn/blog/?p=6207
Continued]]>
NVIDIA H100 TensorCore GPU 基于 NVIDIA Hopper 架構 和第四代 NVIDIA Tensor Cores ,最近推出了 提供前所未有的性能 和 全面的 AI 基準 ,如 MLPerf training 。 人工智能和機器學習基準測試中相當一部分操作是 通用矩陣乘法 ,也稱為 matmul 函數。 GEMs 也存在于深度學習訓練的前向和后向通道以及推理中。 GEMM 的突出性使得深度學習軟件能夠最大限度地利用用于矩陣乘法的硬件,同時支持幾個關鍵的 AI 組件。這些成分包括具有偏置和流行激活功能的融合體及其衍生物。 本文探討了 NVIDIA cuBLAS 庫 在里面 CUDA 12.0 重點是最近推出的 FP8 format 、 NVIDIA Hopper 上的 GEM 性能 GPU ,以及新 64 位整數應用程序編程接口 ( API…
Source
]]>
6207
-
使用 NVIDIA Triton 推理服務器從公共庫 ModelZoo 部署不同的 AI 模型類別
http://www.open-lab.net/zh-cn/blog/deploying-diverse-ai-model-categories-from-public-model-zoo-using-nvidia-triton-inference-server/
Mon, 19 Dec 2022 06:03:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5874
Continued]]>
如今,針對 TensorFlow 、 ONNX 、 PyTorch 、 Keras 、 MXNet 等不同框架,出現了大量最先進( SOTA )模型和建模解決方案的實現。如果您對數據集中已有的類別感興趣,可以使用這些模型進行開箱即用的推斷,也可以通過微調將其嵌入到定制業務場景中。 本文概述了流行的 DL 模型類別,并介紹了使用 NVIDIA Triton Inference Server 部署這些模型的端到端示例。客戶端應用程序可以按原樣使用,也可以根據用例場景進行修改。我將帶領您使用 Triton 推理服務器完成圖像分類、對象檢測和圖像分割公共模型的部署。本文中概述的步驟也可以應用于其他開源模型,只需稍作修改。 近年來,深度學習( DL )取得了顯著進步。通過解決多年來困擾人工智能界的眾多復雜問題,它徹底改變了人工智能的未來。目前,它正被用于醫療保健、航空航天工程、
Source
]]>
5874
-
自動駕駛的最優 AI 推理流水線設計
http://www.open-lab.net/zh-cn/blog/designing-an-optimal-ai-inference-pipeline-for-autonomous-driving/
Wed, 30 Nov 2022 10:52:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5788
Continued]]>
自動駕駛汽車必須能夠快速準確地檢測物體,以確保其駕駛員和道路上其他駕駛員的安全。由于自動駕駛( AD )和視覺檢查用例中對實時處理的需求,具有預處理和后處理邏輯的多個 AI 模型 組合在流水線中,并用于 機器學習 ( ML )推理。 流水線的每一步都需要加速,以確保低延遲工作流。延遲是獲取推理響應所需的時間。更快地處理 AD 數據將能夠更有效地分析和使用信息,創造更安全的駕駛環境。任何一個方面的延遲都會降低整個管道的速度。 為了實現低延遲推理工作流,電動汽車制造商 NIO 將 NVIDIA Triton 推理服務器集成到其 AD 推理管道中。 NVIDIA Triton 推理服務器是一個開源的多幀推理服務軟件。 這篇文章解釋了 NIO 如何在 GPU 上使用 NVIDIA Triton 協調其圖像預處理、后處理和 AI 模型的管道。它還展示了 NIO 如何減少網絡傳輸,
Source
]]>
5788
-
使用 NVIDIA FLARE 從模擬到生產的聯合學習
http://www.open-lab.net/zh-cn/blog/federated-learning-from-simulation-to-production-with-nvidia-flare/
Tue, 25 Oct 2022 03:11:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5539
Continued]]>
NVIDIA FLARE 2.2 包括一系列新功能,可縮短開發時間并加快聯合學習的部署,幫助企業降低構建強大人工智能的成本。獲取有關此版本中新增內容的詳細信息。 作為 聯合學習 (FL) 的開源平臺和軟件開發工具包 (SDK),NVIDIA FLARE 不斷發展,使其最終用戶能夠利用分布式、多方協作來實現從模擬到生產的更強大的 AI 開發。 FLARE 2.2 的發布帶來了大量更新,簡化了研究人員和數據科學家的研發工作流程,簡化了 IT 從業者和項目負責人的部署,并加強了安全性,以確保真實部署中的數據隱私。其中包括: 簡化研究人員和開發人員的工作流程 優化部署、操作和安全 新的 FL Simulator 是支持研發工作流的關鍵功能之一。模擬器允許研究人員和開發人員運行和調試 FLARE 應用程序,而無需調配和部署項目。模擬器提供了一個輕量級環境,
Source
]]>
5539
-
使用 NVIDIA Triton 解決人工智能推斷挑戰
http://www.open-lab.net/zh-cn/blog/solving-ai-inference-challenges-with-nvidia-triton/
Wed, 21 Sep 2022 08:33:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5193
Continued]]>
在生產中部署 AI 模型以滿足 AI 驅動應用程序的性能和可擴展性要求,同時保持低基礎設施成本是一項艱巨的任務。 加入 NVIDIA Triton 和 NVIDIA TensorRT 社區 ,了解最新的產品更新、錯誤修復、內容、最佳實踐等。 這篇文章為您提供了在生產中部署模型時常見的 AI 推理挑戰的高層次概述,以及目前如何跨行業使用 NVIDIA Triton 推理服務器 來解決這些問題。 我們還研究了 Triton 中最近添加的一些功能、工具和服務,它們簡化了生產中 AI 模型的部署,具有最佳性能和成本效益。 人工智能推理是運行人工智能模型進行預測的生產階段。推斷很復雜,但了解影響應用程序速度和性能的因素將有助于您在生產中交付快速、可擴展的 AI 。 這些因素的結合使得在生產中部署 AI 推理具有一定的挑戰性,
Source
]]>
5193
-
免費學 DOCA 軟件開發入門課程 釋放 DPU 潛力
http://www.open-lab.net/zh-cn/blog/learn-doca-unleash-dpu-potential-free/
Thu, 18 Aug 2022 09:51:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=4890
Continued]]>
繼今年 1 月 NVIDIA 推出第一個自學 DOCA 課程之后,NVIDIA 深度學習培訓中心(DLI)今天又發布了第二個免費自學 DOCA 課程 《DOCA入門:開發 DPU 應用工作流》。 在這個 4 小時的入門課程中,您將了解到如何使用 DOCA Flow 庫在 NVIDIA BlueField DPU 硬件中構建管道(Pipe),涵蓋了管道和管道線(Pipeline)的基本概念和操作方式。 DOCA 與 DOCA Flow NVIDIA DOCA是釋放 NVIDIA BlueField DPU (數據處理器) 在卸載、加速和隔離數據中心工作負載潛力的關鍵。借助 DOCA,開發者可以通過創建具有零信任保護的軟件定義、云原生、DPU 加速的服務來對未來數據中心基礎設施進行編程,以滿足現代數據中心日益增長的性能和安全需求。
Source
]]>
4890
-
Insilico Medicine 通過人工智能識別 ALS 的治療靶點
http://www.open-lab.net/zh-cn/blog/insilico-medicine-identifies-therapeutic-targets-for-als-with-ai/
Thu, 14 Jul 2022 07:23:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4607
Continued]]>
藥物發現初創公司 Insilico Medicine 與來自哈佛醫學院、約翰霍普金斯醫學院、梅奧診所等的研究人員一起使用人工智能識別了二十多個與肌萎縮側索硬化癥( ALS )相關的基因靶點。研究結果包括 17 個高置信度和 11 個新的治療靶點,最近發表在 衰老神經科學前沿 上。 利用 Insilico 的人工智能驅動的靶點發現引擎 PandaOmics ,研究人員分析了大量數據集,以發現新藥物可以靶向改善 ALS (也稱為 Lou Gehrig 病)預后的基因。如今,患者通常在癥狀出現后面臨 2 到 5 年的平均預期壽命。 研究團隊使用 NVIDIA GPU 來訓練用于目標識別的深度學習模型。 PandaOmics 人工智能引擎使用組學人工智能分數、基于文本的人工智能分數、財務分數等組合對基因目標進行排序。 ALS 是一種使人衰弱的疾病。患者迅速失去自主肌肉運動,
Source
]]>
4607
-
采用 P-Tuning 解決非英語下游任務
http://www.open-lab.net/zh-cn/blog/adapting-p-tuning-to-solve-non-english-downstream-tasks/
Tue, 12 Jul 2022 05:25:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4586
Continued]]>
隨著對預訓練大型語言模型( LLM )權重訪問需求的增加,圍繞 LLM 共享的環境正在發生變化。最近, Meta 發布了 開式預訓練Transformer ,一個具有 1750 億個參數的語言模型。 BigScience 計劃在幾個月內發布具有 1760 億個參數的多語言模型。 隨著越來越多的 LLM 可用,行業需要解決實際自然語言任務的技術。研究表明, 模型提示方法 可以從 LLM 中獲得良好的零拍和少拍性能,并有助于在各種下游自然語言處理( NLP )任務中產生高質量的結果。白皮書提出了一種解決方案,使經過預訓練的通用 LLM 在自然語言處理領域日益流行的新 預訓練、提示和預測 范式中切實有用。 然而,當您將提示方法應用于工業自然語言處理應用程序時,還需要考慮其他挑戰。對于任何下游 NLP 任務,必須收集標記數據,以指示語言模型如何生成預期結果。 盡管對于許多任務,
Source
]]>
4586
-
計算機視覺的未來
http://www.open-lab.net/zh-cn/blog/the-future-of-computer-vision/
Mon, 23 May 2022 07:35:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4166
Continued]]>
Computer vision 是一個快速發展的研究和應用領域。計算機視覺研究的進展現在更直接、更直接地適用于商業世界。 人工智能開發人員正在實施計算機視覺解決方案,以識別和分類對象,甚至對其作出實時反應。圖像分類、人臉檢測、姿態估計和光流是一些典型的任務。計算機視覺工程師是 deep learning ( DL )或 machine learning ( ML )工程師的子集,他們編寫計算機視覺算法來完成這些任務。 DL 算法的結構非常適合解決計算機視覺問題。 卷積神經網絡 ( CNN )的體系結構特征能夠檢測和提取視覺數據中存在的空間模式和特征。 計算機視覺領域正在迅速改變汽車、醫療保健和機器人等行業,很難跟上最新發現、趨勢和進展。這篇文章重點介紹了正在影響并將繼續影響 2022 年及以后計算機視覺發展未來的核心技術:
Source
]]>
4166
-
使用 NVIDIA Triton 模型分析器確定規模上的最佳 AI 模型服務配置
http://www.open-lab.net/zh-cn/blog/identifying-the-best-ai-model-serving-configurations-at-scale-with-triton-model-analyzer/
Mon, 23 May 2022 04:32:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4154
Continued]]>
模型部署是 機器學習 生命周期的一個關鍵階段,在此階段,經過培訓的模型將集成到現有的應用程序生態系統中。這往往是最繁瑣的步驟之一,在這些步驟中,目標硬件平臺應滿足各種應用程序和生態系統約束,所有這些都不會影響模型的準確性。 NVIDIA Triton 推理服務器 是一個開源的模型服務工具,它簡化了推理,并具有多個功能以最大限度地提高硬件利用率和推理性能。這包括以下功能: 有關更多信息,請參閱 使用 NVIDIA Triton 推理服務器快速、可擴展的 AI 模型部署 . 優化模型部署時,需要做出幾個關鍵決策: 這些關鍵決策導致了組合爆炸,每種型號和硬件選擇都有數百種可能的配置。通常,這會導致浪費開發時間或代價高昂的低于標準的服務決策。 在本文中,我們將探討 NVIDIA Triton 型號分析儀 可以自動瀏覽目標硬件平臺的各種服務配置,
Source
]]>
4154
-
加速逆光刻技術的大批量制造
http://www.open-lab.net/zh-cn/blog/accelerating-high-volume-manufacturing-for-inverse-lithography-technology/
Fri, 06 May 2022 07:32:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3889
Continued]]>
逆光刻技術( ILT )于 2003 年初首次實施并演示。它由彭丹平( Danping Peng )創建,當時他在發光科技公司( Leaming Technologies Inc .)擔任工程師。這是一家初創公司,由加州大學洛杉磯分校( UCLA )的斯坦利·奧謝爾( Stanley Osher )和埃利·亞博諾維奇( Eli Yabonovitch )教授以及企業家丹·艾布拉姆斯( Dan Abrams )和杰克·赫里克( Jack 。 當時, ILT 是一個革命性的解決方案,它顯示出比光刻圖案化中使用的傳統曼哈頓掩模形狀優越得多的工藝窗口。與直線形狀的曼哈頓面具不同, ILT 的優勢在于其曲線面具形狀。 在其發展之后, ILT 被證明是一種可行的光刻技術,可以在多家內存和邏輯鑄造廠進行實際的晶圓印刷。然而,技術和經濟因素阻礙了 ILT 的采用: 由于這些原因,
Source
]]>
3889
-
利用 RAPIDS 機器學習快速微調 AI Transformer
http://www.open-lab.net/zh-cn/blog/fast-fine-tuning-of-ai-transformers-using-rapids-machine-learning/
Wed, 13 Apr 2022 08:26:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3666
Continued]]>
近年來, transformers 已成為一種強大的深度神經網絡體系結構,已被證明在許多應用領域,如 自然語言處理 ( NLP )和 computer vision ,都超過了最先進的水平。 這篇文章揭示了在微調變壓器時,如何以最快的訓練時間獲得最大的精度。我們展示了 RAPIDS Machine Learning 庫中的 cuML 支持向量機( SVM )算法如何顯著加快這一過程。 GPU 上的 CuML SVM 比基于 CPU 的實現快 500 倍。 這種方法使用支持向量機磁頭,而不是傳統的 多層感知器( MLP )頭 ,因此可以精確輕松地進行微調。 transformer 是一個 deep learning 模型,由許多多頭、自我關注和前饋完全連接的層組成。它主要用于序列到序列任務,包括 NLP 任務,如機器翻譯和問答,以及計算機視覺任務,如目標檢測等。
Source
]]>
3666
-
為深度學習培訓選擇服務器
http://www.open-lab.net/zh-cn/blog/choosing-a-server-for-deep-learning-training/
Tue, 05 Apr 2022 08:40:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3554
Continued]]>
深度學習已經成為執行許多人工智能任務的最常見的神經網絡實現。數據科學家使用 TensorFlow 和 PyTorch 等軟件框架來開發和運行 DL 算法。 到目前為止,已經有很多關于深度學習的文章,你可以從許多來源找到更詳細的信息。有關良好的高層總結,請參見 人工智能、機器學習和深度學習之間有什么區別? 開始深度學習的一種流行方式是在云中運行這些框架。然而,隨著企業開始增長和成熟其人工智能專業技能,他們會尋找在自己的數據中心運行這些框架的方法,以避免基于云的人工智能的成本和其他挑戰。 在本文中,我將討論如何為 深度學習培訓 選擇企業服務器。我回顧了這個獨特工作負載的具體計算需求,然后討論了如何通過組件配置的最佳選擇來滿足這些需求。 深度學習培訓通常被設計為數據處理管道。必須首先根據數據格式、大小和其他因素準備原始輸入數據。 數據通常也會經過預處理,
Source
]]>
3554
-
在 TensorFlow 2 中用 100B+ 參數在 DGX A100 上訓練推薦系統
http://www.open-lab.net/zh-cn/blog/training-a-recommender-system-on-dgx-a100-with-100b-parameters-in-tensorflow-2/
Tue, 05 Apr 2022 08:36:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3550
Continued]]>
深度學習推薦系統通常使用大型嵌入表。很難將它們放入 GPU 內存中。 這篇文章向你展示了如何結合使用模型并行和數據并行訓練范例來解決這個記憶問題,從而更快地訓練大型深度學習推薦系統。我分享了我的團隊在 TensorFlow 2 中高效培訓 1130 億參數推薦系統所采取的步驟,該模型的所有嵌入的總大小為 421 GiB 。 通過在 GPU 和 CPU 之間拆分模型和嵌入,我的團隊實現了 43 倍的加速。然而,將嵌入分布到多個 GPU 上,帶來了令人難以置信的 672 倍的加速。這種多 GPU 方法實現了顯著的加速,使您能夠在幾分鐘內而不是幾天內訓練大型推薦系統。 您可以使用 NVIDIA 深度學習示例 GitHub 存儲庫 中提供的代碼自己復制這些結果。 在數據并行訓練中,每個 GPU 存儲模型的相同副本,但在不同的數據上訓練。這對于許多深度學習應用程序來說都很方便,
Source
]]>
3550
人人超碰97caoporen国产