推論 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Tue, 31 Oct 2023 04:44:08 +0000
zh-CN
hourly
1
196178272 -
現已公開發布!歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理
http://www.open-lab.net/zh-cn/blog/optimizing-inference-on-llms-with-tensorrt-llm-now-publicly-available/
Thu, 19 Oct 2023 06:54:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=8071
Continued]]>
NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM,可在 NVIDIA GPU 上加速和優化最新的大語言模型( Large Language Models)的推理性能。該開源程序庫現已作為 NVIDIA NeMo 框架的一部分,在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費提供。 大語言模型徹底改變了人工智能領域,并創造了與數字世界交互的全新方式。但是,隨著世界各地的企業和應用開發者想要在自己的工作中采用大語言模型,運行這些模型的相關問題開始凸顯。 簡而言之,大語言模型規模龐大。如果不采用正確的技術,那么運行大語言模型的成本不僅會很高,速度也會很慢。 為解決這一問題,從模型優化(如內核融合和量化)到運行時優化(如 C++ 實現、KV 緩存、連續動態批處理 continuous in-flight…
Source
]]>
8071
-
使用 NVIDIA Triton 管理服務擴展深度學習部署
http://www.open-lab.net/zh-cn/blog/scaling-deep-learning-deployments-with-nvidia-triton-management-service/
Tue, 12 Sep 2023 09:47:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=7858
Continued]]>
組織正在以前所未有的速度將機器學習(ML)集成到整個系統和產品中。他們正在尋找解決方案,以幫助處理在生產規模部署模型的復雜性。 NVIDIA Triton Management Service (TMS) 是 NVIDIA AI Enterprise 獨家提供的一款新產品,有助于實現這一目標。具體來說,它有助于管理和協調一支由 NVIDIA Triton Inference Servers 在 Kubernetes 集群中運行的團隊。TMS 使用戶能夠擴展其 NVIDIA Triton 部署,以高效地處理各種各樣的工作負載。它還改善了開發人員協調所需資源和工具的體驗。 本文探討了開發人員和 MLOps 團隊在大規模部署模型時面臨的一些最常見的挑戰,以及 NVIDIA Triton 管理服務如何解決這些挑戰。 任何規模的模型部署都會帶來一系列挑戰。
Source
]]>
7858
-
NVIDIA GH200 Grace Hopper 超級芯片首次亮相,取得領先的 MLPerf 推理 v3.1 結果
http://www.open-lab.net/zh-cn/blog/leading-mlperf-inference-v3-1-results-gh200-grace-hopper-superchip-debut/
Mon, 11 Sep 2023 05:43:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=7833
Continued]]>
人工智能正在改變計算方式,推動AI在全球范圍內的應用部署。智能聊天機器人、圖像和視頻合成的簡單文本提示、個性化內容推薦以及醫學成像只是人工智能應用的幾個例子。 推理工作負載對計算要求很高,而且多種多樣,要求平臺能夠快速處理從未見過的數據上的許多預測,并在各種人工智能模型上運行推理。希望部署人工智能的組織需要一種方法,在各種工作負載、環境和部署場景中客觀評估基礎設施的性能。人工智能訓練和推理都是如此。 MLPerf 推理 v3.1 是由 MLCommons 聯盟開發的最新版本,它是行業標準的人工智能推理基準套件。這個版本補充了 MLPerf 培訓和 MLPerf HPC。MLPerf 推理 v3.1 能夠衡量各種重要工作負載的推理性能,包括圖像分類、對象檢測、自然語言處理、語音識別和推薦系統,以及常見的數據中心和邊緣部署場景。 MLPerf 推理 v3.1…
Source
]]>
7833
-
NVIDIA TensorRT-LLM 在 NVIDIA H100 GPU 上大幅提升大語言模型推理能力
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/
Fri, 08 Sep 2023 04:01:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=7796
Continued]]>
大語言模型(LLM)提供異常強大的新功能,拓展了 AI 的應用領域。但由于其龐大的規模和獨特的執行特性,很難找到經濟高效的使用方式。 NVIDIA 一直在與 Meta、Anyscale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(現已并入 Databricks)、OctoML、ServiceNow、Tabnine、Together AI 和 Uber 等頭部企業密切合作,共同加速和優化 LLM 推理性能。 這些創新已被集成到開源的 NVIDIA TensorRT-LLM 軟件中,可用于 Ampere、Lovelace 和 Hopper 架構 GPU,并將在未來幾周內發布。TensorRT-LLM 包含 TensorRT 深度學習編譯器,并且帶有經過優化的內核、前處理和后處理步驟,以及多 GPU/多節點通信原語,
Source
]]>
7796
-
如何使用 NVIDIA Triton 和 Redis 構建分布式推理緩存
http://www.open-lab.net/zh-cn/blog/how-to-build-a-distributed-inference-cache-with-nvidia-triton-and-redis/
Wed, 30 Aug 2023 04:39:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=7695
Continued]]>
緩存與數組、符號或字符串一樣是計算的基礎。整個堆棧中的各種緩存層在您的 CPU 上掛起時保存來自內存的指令。它們使您能夠在離開時快速重新加載頁面,而無需重新驗證。它們還顯著降低了應用程序的工作負載,并通過不重復運行相同的查詢來提高吞吐量。 NVIDIA Triton Inference Server 對于緩存來說,是一個調整為以張量推理的形式回答問題的系統。運行推理是一項計算成本相對較高的任務,它經常調用相同的推理來重復運行。這自然有助于使用緩存模式。 NVIDIA Triton 團隊最近實施了 Triton response cache,并使用了 Triton local cache 庫。他們還建立了 cache API,以使該緩存模式在 Triton 中可擴展。然后,Redis 團隊利用 API 構建了 NVIDIA Triton 的 Redis cache。
Source
]]>
7695
-
NVIDIA Ampere 架構的結構化稀疏功能及其在搜索引擎中的應用
http://www.open-lab.net/zh-cn/blog/structured-sparsity-in-the-nvidia-ampere-architecture-and-applications-in-search-engines/
Mon, 03 Jul 2023 03:38:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=7327
Continued]]>
深度學習徹底改變了我們分析、理解和處理數據的方式,而且在各個領域的應用中都取得了巨大的成功,其在計算機視覺、自然語言處理、醫療診斷和醫療保健、自動駕駛汽車、推薦系統以及氣候和天氣建模方面有許多成功案例。 在神經網絡模型不斷變大的時代,對計算速度的高需求對硬件和軟件都形成了巨大的挑戰。模型剪枝和低精度推理是非常有效的解決方案。 自 NVIDIA Ampere 架構開始, 隨著 A100 Tensor Core GPU 的推出,NVIDIA GPU 提供了可用于加速推理的細粒度結構化稀疏功能。在本文中,我們將介紹此類稀疏模型的訓練方法以保持模型精度,包括基本訓練方法、漸進式訓練方法以及與 int8 量化的結合。我們還將介紹如何利用 Ampere 架構的結構化稀疏功能進行推理。 騰訊機器學習平臺部門 (MLPD) 利用了漸進式訓練方法,
Source
]]>
7327
-
如何使用 PyTriton 在 Python 中部署 AI 模型
http://www.open-lab.net/zh-cn/blog/how-to-deploy-an-ai-model-in-python-with-pytriton/
Wed, 28 Jun 2023 05:31:16 +0000
http://www.open-lab.net/zh-cn/blog/?p=7252
Continued]]>
人工智能模型無處不在,形式包括聊天機器人、分類和摘要工具、用于分割和檢測的圖像模型、推薦模型等。人工智能機器學習( ML )模型有助于實現許多業務流程的自動化,從數據中生成見解,并提供新的體驗。 Python 是 AI/ML 開發中最受歡迎的語言之一。本文將教您如何使用 NVIDIA Triton Inference Server,并利用新的 PyTriton 接口。 更具體地說,您將學習如何在 Python 開發環境中使用生產類工具對人工智能模型進行原型化和測試推理,以及如何使用 PyTriton 接口進行生產。與 FastAPI 或 Flask 等通用 web 框架相比,您還將了解使用 PyTriton 的優勢。這篇文章包括幾個代碼示例,說明如何激活高性能的批處理、預處理和多節點推理;并實施在線學習。 PyTriton 是一個簡單的接口,
Source
]]>
7252
-
使用 Spark 3.4 簡化分布式深度學習
http://www.open-lab.net/zh-cn/blog/distributed-deep-learning-made-easy-with-spark-3-4/
Mon, 12 Jun 2023 05:23:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=7219
Continued]]>
Apache Spark是一個業界領先的平臺,用于大規模數據的分布式提取、轉換和加載( ETL )工作負載。隨著深度學習( DL )的發展,許多 Spark 從業者試圖將 DL 模型添加到他們的數據處理管道中,以涵蓋各種用例,如銷售預測、內容推薦、情緒分析和欺詐檢測。 然而,結合 DL 培訓和推理,從歷史上看,大規模數據一直是 Spark 用戶面臨的挑戰。大多數 DL 框架都是為單節點環境設計的,它們的分布式訓練和推理 API 通常是經過深思熟慮后添加的。 為了解決單節點 DL 環境和大規模分布式環境之間的脫節,有多種第三方解決方案,如 Horovod-on-Spark、TensorFlowOnSpark 和 SparkTorch,但由于這些解決方案不是在 Spark 中本地構建的,因此用戶必須根據自己的需求評估每個平臺。 隨著 Spark 3.4 的發布,
Source
]]>
7219
-
使用 CV-CUDA 提高基于人工智能的計算機視覺的吞吐量并降低成本
http://www.open-lab.net/zh-cn/blog/increasing-throughput-and-reducing-costs-for-computer-vision-with-cv-cuda/
Thu, 04 May 2023 03:41:08 +0000
http://www.open-lab.net/zh-cn/blog/?p=6928
Continued]]>
涉及基于人工智能的實時云規模應用程序計算機視覺正在迅速增長。用例包括圖像理解、內容創建、內容審核、映射、推薦系統和視頻會議。 然而,由于對處理復雜性的需求增加,這些工作負載的計算成本也在增長。從靜止圖像到視頻的轉變現在也正在成為消費者互聯網流量的主要組成部分。鑒于這些趨勢,迫切需要構建高性能但具有成本效益的計算機視覺工作負載。 基于人工智能的計算機視覺管道通常涉及圍繞人工智能推理模型的數據預處理和后處理步驟,這可能占整個工作負載的 50-80% 。這些步驟中常見的運算符包括以下內容: 雖然開發人員可能會使用 NVIDIA GPU 來顯著加速他們管道中的人工智能模型推理,但預處理和后處理仍然通常使用基于 CPU 的庫來實現。這導致整個人工智能管道的性能出現瓶頸。通常是人工智能圖像或視頻處理管道一部分的解碼和編碼過程也可能在 CPU 上受到瓶頸,影響整體性能。
Source
]]>
6928
-
適用于基于 NVIDIA 的 PC 的端到端 AI : ONNX 和 DirectML
http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-nvidia-based-pcs-onnx-and-directml/
Tue, 25 Apr 2023 05:26:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=6785
Continued]]>
這篇文章是關于優化端到端人工智能. 雖然 NVIDIA 硬件可以以難以置信的速度處理構成神經網絡的單個操作,但確保您正確使用這些工具是很重要的。在 ONNX 中使用 ONNX Runtime 或 TensorRT 等開箱即用的工具通常會給您帶來良好的性能,但既然您可以擁有出色的性能,為什么還要滿足于良好的性能呢? 在這篇文章中,我討論了一個常見的場景,即帶有 DirectML 后端的 ONNX Runtime 。這是構建 WinML 的兩個主要組件。當在 WinML 之外使用時,它們可以在支持運算符集以及支持 DML 以外的后端(如 TensorRT )方面提供極大的靈活性。 為了獲得 ONNX Runtime 和 DML 的出色性能,通常值得超越基本實現。從使用 ONNX Runtime 時的常見場景開始。 這里有幾個問題。
Source
]]>
6785
-
使用?NVIDIA?FasterTransformer?提高?KoGPT?的推理加速
http://www.open-lab.net/zh-cn/blog/increasing-inference-acceleration-of-kogpt-with-fastertransformer/
Tue, 25 Apr 2023 05:03:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=6782
Continued]]>
Transformer 是當今最具影響力的人工智能模型架構之一,正在塑造未來人工智能研發的方向。Transformer 最初被發明為自然語言處理( NLP )的工具,現在幾乎被用于每一項人工智能任務,包括計算機視覺、自動語音識別、分子結構分類和金融數據處理。 在韓國, Kakao Brain 開發了一種基于 transformer 架構的高精度大型語言模型( LLM ) KoGPT 。它在一個大型韓國數據集上進行了訓練,并使用 NVIDIA FasterTransformer 成功地對其進行了優化。 在這篇文章中,我們將介紹 NVIDIA 和 Kakao Brain 如何使用 FasterTransformer 優化 KoGPT 。 Transformer 層是目前深度學習領域應用最廣泛的深度學習架構。它起源于 NLP ,目前正在將其應用范圍從語言擴展到視覺、
Source
]]>
6782
人人超碰97caoporen国产