Inference Performance – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 26 Mar 2025 05:54:39 +0000 zh-CN hourly 1 196178272 借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能 http://www.open-lab.net/zh-cn/blog/boost-llama-model-performance-on-microsoft-azure-ai-foundry-with-nvidia-tensorrt-llm/ Thu, 20 Mar 2025 08:16:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13245 Continued]]> 微軟與 NVIDIA 合作,宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。這些進步由 NVIDIA TensorRT-LLM 優化提供支持,在保持模型輸出質量的同時,顯著提高了吞吐量、降低了延遲并提高了成本效益。 通過這些改進,Azure AI Foundry 客戶可以實現顯著的吞吐量提升:在模型目錄中的無服務器部署 (Model-as-a-Service) 產品中,Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%,Llama 3.1 8B 模型的吞吐量提高 34%。 更快的令牌生成速度和更低的延遲使聊天機器人、虛擬助理和自動化客戶支持等實時應用程序的響應速度更快、效率更高。這轉化為更好的價格-性能比率,顯著降低了由 LLM 驅動的應用的每個 token 的成本。

Source

]]>
13245
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架 http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/ Tue, 18 Mar 2025 05:47:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=13330 Continued]]> NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時,該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容, NVIDIA TensorRT-LLM 和 vLLM,加入不斷擴大的推理工具社區,助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新,包括: 從今天開始,NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業,

Source

]]>
13330
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/ Tue, 18 Mar 2025 05:30:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13327 Continued]]> NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統 ,在具有 671 億個參數的先進大型 DeepSeek-R1 模型上,每個用戶每秒可實現超過 250 個 token,或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ,這些性能頻譜兩端的快速性能提升得以實現。 隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限,這些性能記錄將會得到改善。 單個 DGX B200 8-GPU 系統和單個 DGX…

Source

]]>
13327
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量 http://www.open-lab.net/zh-cn/blog/optimizing-qwen2-5-coder-throughput-with-nvidia-tensorrt-llm-lookahead-decoding/ Fri, 14 Feb 2025 04:58:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12977 Continued]]> 專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,包括增強代碼、修復錯誤、生成測試和編寫文檔。 為促進開源 LLM 的開發,Qwen 團隊最近發布了 Qwen2.5-Coder,這是一系列先進的 LLM,用于跨熱門編程語言的代碼生成、推理和修復。本文將探討針對 NVIDIA TensorRT-LLM 支持 的 Qwen2.5-Coder 模型進行推理優化的優勢,以及借助 NVIDIA NIM 輕松部署以提升變革潛力和編碼效率的好處。 Qwen2.5-Coder 模型在熱門的學術基準測試中取得了出色的性能。 NVIDIA TensorRT-LLM 已對 Qwen2.5-Coder 系列的三種熱門模型 (1.5B、7B 和 32B 版本) 進行優化,以實現高吞吐量和低延遲。

Source

]]>
12977
借助 NVIDIA 全棧解決方案提升 AI 推理性能 http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/ Tue, 24 Dec 2024 05:43:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=12923 Continued]]> AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,

Source

]]>
12923
NVIDIA?TensorRT-LLM?現支持?Recurrent Drafting,實現?LLM?推理優化 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/ Wed, 18 Dec 2024 08:20:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=12404 Continued]]> Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-LLM 一起使用。ReDrafter 幫助開發者大幅提升了 NVIDIA GPU 上的 LLM 工作負載性能。NVIDIA TensorRT-LLM 是一個 LLM 推理優化庫,提供了一個易于使用的 Python API 來定義 LLM 和構建 NVIDIA TensorRT 引擎,這些引擎具有頂尖的優化功能,可在 GPU 上高效執行推理。優化功能包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant) 等。 推測解碼 (Speculative decoding)…

Source

]]>
12404
借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍 http://www.open-lab.net/zh-cn/blog/boost-llama-3-3-70b-inference-throughput-3x-with-nvidia-tensorrt-llm-speculative-decoding/ Tue, 17 Dec 2024 04:36:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=12513 Continued]]> 隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。Llama 3.3 相對于較舊的 Llama 3.1 70B 模型提供了增強的性能,甚至可以在數學、推理、編碼和多語種支持等多項任務中匹配更大、計算成本更高的 Llama 3.1 405B 模型的功能。 NVIDIA TensorRT-LLM 是一款功能強大的推理引擎,可在最新的 LLM 上提供先進的性能,并整合了許多優化措施,可提供出色的 Llama 3.3 70B 推理吞吐量。其中包括在飛批處理、 KV 緩存 、 自定義 FP8 量化 、推測解碼等,可實現快速、經濟高效的 LLM 服務。 動態批處理默認作為運行時配置參數激活,TensorRT-LLM 支持同時批處理多個不同的請求,從而提高服務吞吐量。通過在上下文和生成階段交錯處理請求,

Source

]]>
12513
聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求 http://www.open-lab.net/zh-cn/blog/spotlight-perplexity-ai-serves-400-million-search-queries-a-month-using-nvidia-inference-stack/ Thu, 05 Dec 2024 07:26:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=12401 Continued]]> 對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎,每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。 為了滿足這一需求,Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs 、 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 來進行經濟高效的 大語言模型(LLM) 部署。本文根據他們的實操經驗,詳細介紹了一些部署最佳實踐和節省的 TCO。 為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求,

Source

]]>
12401
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能 http://www.open-lab.net/zh-cn/blog/llama-3-2-full-stack-optimizations-unlock-high-performance-on-nvidia-gpus/ Tue, 19 Nov 2024 09:20:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12199 Continued]]> Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,支持文本和圖像輸入。此外,Meta 還推出了 Llama 3.2 的純文本 小語言模型(SLM) 變體,具有 1B 和 3B 參數。NVIDIA 已對 Llama 3.2 模型集合進行優化,以便在全球數百萬個 GPU 上提供出色的性能和經濟高效的服務 – 從我們功能強大的數據中心和云 GPU 到本地 NVIDIA RTX 工作站 ,甚至是使用 NVIDIA Jetson 的低功耗邊緣設備。 Llama 3.2 VLM 支持長達 128K 的文本標記,以及分辨率為 1120 x 1120 像素的單張圖像輸入。為了實現低延遲響應,提供出色的用戶體驗,同時提供高吞吐量以經濟高效地提供這些模型,NVIDIA 平臺在技術堆棧的每一層都進行了優化。

Source

]]>
12199
借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署 http://www.open-lab.net/zh-cn/blog/streamlining-ai-inference-performance-and-deployment-with-nvidia-tensorrt-llm-chunked-prefill/ Fri, 15 Nov 2024 07:04:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=12029 Continued]]> 在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能,可提高 GPU 利用率并簡化開發者的部署體驗。本文基于之前的博文,討論了 TensorRT-LLM 中的高級 KV 緩存優化功能如何在需要系統預填充的用例中將性能提升高達 5 倍。 當用戶向模型提交請求時,它將經歷兩個不同的計算階段:預填充和解碼。每個階段使用 GPU 計算資源的方式各不相同。 在預填充階段,系統會處理所有輸入令牌以計算 KV 緩存,然后使用該緩存生成輸出的第一個令牌。此階段的計算要求很高,可以有效利用 GPU 龐大的并行計算資源。 在解碼階段,系統會單獨生成輸出 tokens,使用每個新 tokens 更新預填充階段的中間狀態。由于中間狀態計算的繁重計算工作是在預填充階段完成的,因此解碼階段主要涉及僅處理新生成的 tokens。因此,

Source

]]>
12029
NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升 http://www.open-lab.net/zh-cn/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/ Fri, 08 Nov 2024 08:12:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12068 Continued]]> 在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA H100 Tensor Core GPU 上將首次生成令牌 (Time To First Token, TTFT) 的速度提升高達 14 倍,在 NVIDIA GH200 Superchip 上可將其提升高達 28 倍。在本文中,我們介紹了可以進一步推動 TTFT 加速的 KV 緩存重復使用技術和最佳實踐。 許多任務(包括問答和代碼生成)都迅速采用了 LLM 模型。為了生成響應,這些模型首先將用戶的提示符轉換為 tokens,然后將其轉換為 dense vectors。隨后會進行大量的 dot-product operations,以數學方式對 tokens 之間的關系建模,并構建對用戶輸入的上下文理解。

Source

]]>
12068
人人超碰97caoporen国产