Anjali Shah – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 21 Feb 2025 05:02:18 +0000 zh-CN hourly 1 196178272 使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量 http://www.open-lab.net/zh-cn/blog/optimizing-qwen2-5-coder-throughput-with-nvidia-tensorrt-llm-lookahead-decoding/ Fri, 14 Feb 2025 04:58:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12977 Continued]]> 專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,包括增強代碼、修復錯誤、生成測試和編寫文檔。 為促進開源 LLM 的開發,Qwen 團隊最近發布了 Qwen2.5-Coder,這是一系列先進的 LLM,用于跨熱門編程語言的代碼生成、推理和修復。本文將探討針對 NVIDIA TensorRT-LLM 支持 的 Qwen2.5-Coder 模型進行推理優化的優勢,以及借助 NVIDIA NIM 輕松部署以提升變革潛力和編碼效率的好處。 Qwen2.5-Coder 模型在熱門的學術基準測試中取得了出色的性能。 NVIDIA TensorRT-LLM 已對 Qwen2.5-Coder 系列的三種熱門模型 (1.5B、7B 和 32B 版本) 進行優化,以實現高吞吐量和低延遲。

Source

]]>
12977
在 NVIDIA TensorRT-LLM 中引入新型 KV 緩存重用優化策略 http://www.open-lab.net/zh-cn/blog/introducing-new-kv-cache-reuse-optimizations-in-nvidia-tensorrt-llm/ Thu, 16 Jan 2025 06:08:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=12687 Continued]]> 語言模型通過預測下一個令牌 (給定所有先前的令牌,包括輸入文本令牌) 來生成文本。在 LLM 服務中,先前令牌的鍵和值元素用作歷史語境,用于生成下一組令牌。從先前的 token 中緩存這些關鍵和值元素可以避免昂貴的重新計算,并有效地提高吞吐量。但是,鍵值 (KV) 緩存會隨著語言模型的大小、批處理請求的數量和序列上下文長度呈線性增長,從而導致內存需求不斷增長。 NVIDIA TensorRT-LLM 可提供多種 KV 緩存優化,以在顯存大小增長與避免昂貴的重新計算之間實現具有挑戰性的平衡。TensorRT-LLM 是一個開源庫,可為 NVIDIA GPUs 上的眾多熱門大語言模型 ( LLMs ) 提供先進的推理支持。TensorRT-LLM KV 緩存包括多項優化,例如支持分頁 KV 緩存、量化 KV 緩存、循環緩沖區 KV 緩存和 KV 緩存重復使用 。 在本文中,

Source

]]>
12687
借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍 http://www.open-lab.net/zh-cn/blog/boost-llama-3-3-70b-inference-throughput-3x-with-nvidia-tensorrt-llm-speculative-decoding/ Tue, 17 Dec 2024 04:36:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=12513 Continued]]> 隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。Llama 3.3 相對于較舊的 Llama 3.1 70B 模型提供了增強的性能,甚至可以在數學、推理、編碼和多語種支持等多項任務中匹配更大、計算成本更高的 Llama 3.1 405B 模型的功能。 NVIDIA TensorRT-LLM 是一款功能強大的推理引擎,可在最新的 LLM 上提供先進的性能,并整合了許多優化措施,可提供出色的 Llama 3.3 70B 推理吞吐量。其中包括在飛批處理、 KV 緩存 、 自定義 FP8 量化 、推測解碼等,可實現快速、經濟高效的 LLM 服務。 動態批處理默認作為運行時配置參數激活,TensorRT-LLM 支持同時批處理多個不同的請求,從而提高服務吞吐量。通過在上下文和生成階段交錯處理請求,

Source

]]>
12513
NVIDIA TensorRT-LLM 現支持動態批處理加速編碼器 – 解碼器模型 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-now-accelerates-encoder-decoder-models-with-in-flight-batching/ Wed, 11 Dec 2024 06:33:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12380 Continued]]> NVIDIA 最近宣布, NVIDIA TensorRT-LLM 現可加速編碼器 – 解碼器模型架構 。TensorRT-LLM 是一個開源庫,可針對各種模型架構優化推理,包括: 編碼器-解碼器模型支持的添加進一步擴展了 TensorRT-LLM 功能,為 NVIDIA GPUs 上更廣泛的生成式 AI 應用提供高度優化的推理。 TensorRT-LLM 使用 NVIDIA TensorRT 深度學習編譯器。它包含經過最新優化的內核,可在前沿實現用于 LLM 模型執行的不同注意力機制。它還在一個簡單的開源 API 中包含預處理和后處理步驟以及多 GPU/多節點通信基元,可在 GPU 上實現突破性的 LLM 推理性能。 TensorRT-LLM 可處理編碼器 – 解碼器模型系列 (例如 T5 、 mT5 、Flan-T5、 BART 、 mBART 、

Source

]]>
12380
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能 http://www.open-lab.net/zh-cn/blog/llama-3-2-full-stack-optimizations-unlock-high-performance-on-nvidia-gpus/ Tue, 19 Nov 2024 09:20:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12199 Continued]]> Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,支持文本和圖像輸入。此外,Meta 還推出了 Llama 3.2 的純文本 小語言模型(SLM) 變體,具有 1B 和 3B 參數。NVIDIA 已對 Llama 3.2 模型集合進行優化,以便在全球數百萬個 GPU 上提供出色的性能和經濟高效的服務 – 從我們功能強大的數據中心和云 GPU 到本地 NVIDIA RTX 工作站 ,甚至是使用 NVIDIA Jetson 的低功耗邊緣設備。 Llama 3.2 VLM 支持長達 128K 的文本標記,以及分辨率為 1120 x 1120 像素的單張圖像輸入。為了實現低延遲響應,提供出色的用戶體驗,同時提供高吞吐量以經濟高效地提供這些模型,NVIDIA 平臺在技術堆棧的每一層都進行了優化。

Source

]]>
12199
Llama 3.2 加速部署從邊緣到云端實現提速 http://www.open-lab.net/zh-cn/blog/deploying-accelerated-llama-3-2-from-the-edge-to-the-cloud/ Wed, 25 Sep 2024 03:13:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=11516 Continued]]> 擴展開源 Meta Llama 模型集合,Llama 3.2 集合包括視覺語言模型(VLM)、小語言模型(SLM)和更新版的 Llama Guard 模型,后者支持視覺功能。當與 NVIDIA 加速計算平臺配對使用時,Llama 3.2 為開發者、研究人員和企業提供了寶貴的新功能和優化,以實現其生成式 AI 應用案例。 在 NVIDIA H100 Tensor Core GPU 上訓練的 SLM,尺寸為 1B 和 3B 的 SLM 非常適合部署在邊緣設備上的基于 Llama 的 AI 助手。尺寸為 11B 和 90B 的 VLM 支持文本和圖像輸入以及輸出文本。VLM 提供多模態支持,可幫助開發者構建需要視覺接地、推理和理解的強大應用程序。例如,他們可以構建用于圖像字幕、圖像文本檢索、視覺問答和文檔問答等的 AI 代理。Llama Guard 模型現在除了支持文本輸入之外,

Source

]]>
11516
Jamba 1.5 LLM 混合架構實現出色的推理和長上下文處理能力 http://www.open-lab.net/zh-cn/blog/jamba-1-5-llms-leverage-hybrid-architecture-to-deliver-superior-reasoning-and-long-context-handling/ Thu, 22 Aug 2024 07:54:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=11119 Continued]]> AI21 Labs 推出了最新、最先進的 Jamba 1.5 模型系列,這是一個先進的大型語言模型(LLM)集合,旨在出色地處理各種生成式 AI 任務。這些模型能夠創建內容、總結和比較文檔,并從大量數據集中提取有價值的見解。 這種多專家模型 (MoE) 利用 Transformer 和 Mamba 架構提供出色的效率、延遲和長上下文處理。這一點,再加上在任何加速平臺上的輕松部署,使企業能夠在靠近數據所在的安全環境中運行應用程序。 NVIDIA 最近優化和托管了新的 Jamba 1.5 模型,這些模型現在可以在NVIDIA API目錄上體驗。 Jamba 1.5 模型系列采用獨特的混合方法構建,結合了 Mamba 和 Transformer 架構的優勢,以及混合專家 (MoE) 模塊。具體來說,Mamba 架構擅長管理長上下文,并將計算開銷降至最低,

Source

]]>
11119
單個 GPU 上的 Mistral NeMo 12B 加速文本生成應用程序 http://www.open-lab.net/zh-cn/blog/power-text-generation-applications-with-mistral-nemo-12b-running-on-a-single-gpu/ Fri, 26 Jul 2024 08:11:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=10834 Continued]]> NVIDIA 與 Mistral 合作構建了下一代語言模型,該模型可在其類別中的基準測試中實現領先的性能。 隨著越來越多的語言模型專為選定任務而構建,NVIDIA Research 和 Mistral AI 結合力量,提供了一個通用、開放、高性能且在單個 GPU 上運行的語言模型。 本文將探討 Mistral NeMo 的優勢、訓練和推理優化,以及其在各種用例中的適用性,最后討論與NVIDIA NIM的部署易用性。 Mistral NeMo 是一個 12B 參數、僅使用文本解碼器的密集 Transformer 模型,使用大小為 131K 的多語種詞匯表進行訓練。它在常見的基準測試中提供領先的準確性,涵蓋常識推理、世界知識、編碼、數學以及多語種和多回合聊天任務。 該模型支持 128K 上下文長度,增強了理解能力和處理大量復雜信息的能力,從而實現更一致、

Source

]]>
10834
借助 Codestral Mamba 新一代編碼 LLM 實現代碼完成革新突破 http://www.open-lab.net/zh-cn/blog/revolutionizing-code-completion-with-codestral-mamba-the-next-gen-coding-llm/ Thu, 25 Jul 2024 08:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10845 Continued]]> 在快速發展的生成式 AI 領域,編碼模型已成為開發者不可或缺的工具,可提高軟件開發的生產力和精度。它們通過自動執行復雜任務、增強可擴展性和促進創新提供顯著優勢,使其成為現代軟件開發的寶貴工具。 本文將探討 Codestral Mamba 的優勢,重點介紹其 Mamba-2 架構,在 NVIDIA TensorRT-LLM 中支持的推理優化,以及借助 NVIDIA NIM 輕松部署以實現變革潛力和編碼效率的提升。 Codestral Mamba 由 Mistral 開發,是基于創新 Mamba-2 架構構建的突破性編碼模型,專為實現出色的代碼完成而設計。 采用名為fill-in-the-middle ( ) 的先進技術,在生成準確且上下文相關的代碼示例方面樹立了新標準。 Codestral Mamba 與 NVIDIA NIM 實現無縫集成,用于容器化,

Source

]]>
10845
在 NVIDIA 平臺上為 Lama 3.1 提供強效助力 http://www.open-lab.net/zh-cn/blog/supercharging-llama-3-1-across-nvidia-platforms/ Tue, 23 Jul 2024 08:10:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=11038 Continued]]> Meta 的 Llama 大型語言模型集合是當今開源社區中最受歡迎的基礎模型,支持多種應用場景。全球數百萬開發者正在基于這些模型構建衍生模型,并將其集成到他們的應用程序中。 Meta 將在 Llama 3.1 中推出一套大型語言模型(LLMs)以及一套信任和安全模型,以確保 LLM 響應的安全。 Meta 工程師在 NVIDIA H100 Tensor Core GPU 上訓練了 Llama 3。他們顯著優化了完整的訓練堆棧,并將模型訓練推向超過 16K H100 GPU,使 405B 成為第一個在這種規模下訓練的 Llama 模型。 我們很高興地宣布,Llama 3.1 集合已針對全球超過 1 億個 GPU 進行優化,涵蓋 NVIDIA 所有平臺,從數據中心到邊緣和 PC。 最新的 NVIDIA H200 Tensor Core GPU 運行 TensorRT-LLM,

Source

]]>
11038
借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton 推理服務器提升 Meta Llama 3 性能 http://www.open-lab.net/zh-cn/blog/turbocharging-meta-llama-3-performance-with-nvidia-tensorrt-llm-and-nvidia-triton-inference-server/ Mon, 22 Apr 2024 05:16:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=9656 Continued]]> 我們很高興地宣布支持 Meta Llama 3 系列模型,通過 NVIDIA TensorRT LLM 加速和優化 LLM 推理性能。您現在可以立即嘗試 Llama 3 8B 和 Llama 3 70B,該系列中的第一個模型,通過瀏覽器用戶界面進行體驗。另外,您也可以通過 NVIDIA API 產品目錄 中的 API 端點訪問 Llama 3,后者被包裝為 NVIDIA NIM,提供了標準 API,能夠部署在任何地方。 大型語言模型需要大量的計算資源。它們的大小使其運行成本高昂且速度緩慢,尤其是在沒有正確技術的情況下。許多優化技術都可用,例如內核融合和量化到運行時優化(如 C++ 實現、KV 緩存、連續運行中批處理和分頁注意力)。 開發人員必須決定哪種組合有助于他們的用例。 TensorRT-LLM 簡化了這項工作。 TensorRT-LLM 是一個開源庫,

Source

]]>
9656
在 NVIDIA AI 推理平臺上使用 Stable Diffusion XL 生成令人驚嘆的圖像 http://www.open-lab.net/zh-cn/blog/generate-stunning-images-with-stable-diffusion-xl-on-the-nvidia-ai-inference-platform-2/ Thu, 07 Mar 2024 08:39:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=9245 Continued]]> 擴散模型正在各行各業中改變創意工作流程。這些模型通過采用降噪擴散技術,將隨機噪聲逐步塑造為 AI 生成的藝術,從而根據簡單的文本或圖像輸入生成令人驚嘆的圖像。這些模型可用于許多企業用例,例如為營銷創建個性化內容、為照片中的物體生成想象力的背景、為游戲設計動態高質量環境和角色等。 雖然擴散模型是增強工作流程的有用工具,但在大規模部署時,這些模型會非常計算密集。在非專用硬件 (如 CPU) 上生成一批四張圖像可能需要幾分鐘時間,這可能會阻礙創意流程,并且成為許多開發者滿足嚴格服務級別協議 (SLA) 的障礙。 在本文中,我們將向您展示 NVIDIA AI 推理平臺 可以專注于解決這些挑戰,穩定 Diffusion XL(SDXL)。我們首先探討企業在生產環境中部署 SDXL 時面臨的常見挑戰,然后深入探討如何 Google Cloud 的 G2 實例 由NVIDIA L4 Tensor…

Source

]]>
9245
在 NVIDIA AI 推理平臺上使用 Stable Diffusion XL 生成令人驚嘆的圖像 http://www.open-lab.net/zh-cn/blog/generate-stunning-images-with-stable-diffusion-xl-on-the-nvidia-ai-inference-platform/ Wed, 06 Mar 2024 06:25:59 +0000 http://www.open-lab.net/zh-cn/blog/?p=9121 Continued]]> 擴散模型正在各行各業中改變創意工作流程。這些模型通過采用降噪擴散技術,將隨機噪聲逐步塑造為 AI 生成的藝術,從而根據簡單的文本或圖像輸入生成令人驚嘆的圖像。這些模型可用于許多企業用例,例如為營銷創建個性化內容、為照片中的物體生成想象力的背景、為游戲設計動態高質量環境和角色等。 雖然擴散模型是增強工作流程的有用工具,但在大規模部署時,這些模型會非常計算密集。在非專用硬件 (如 CPU) 上生成一批四張圖像可能需要幾分鐘時間,這可能會阻礙創意流程,并且成為許多開發者滿足嚴格服務級別協議 (SLA) 的障礙。 在本文中,我們將向您展示 NVIDIA AI 推理平臺 可以專注于解決這些挑戰,穩定 Diffusion XL(SDXL)。我們首先探討企業在生產環境中部署 SDXL 時面臨的常見挑戰,然后深入探討如何 Google Cloud 的 G2 實例 由NVIDIA L4 Tensor…

Source

]]>
9121
NVIDIA TensorRT-LLM 為 Google Gemma 加速推理 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-revs-up-inference-for-google-gemma/ Wed, 21 Feb 2024 05:08:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=8948 Continued]]> 作為發布合作伙伴,NVIDIA 與 Google 合作提供了Gemma,這是一個新優化的開放模型系列,它基于創建 Gemini 模型時所使用的相同研究和技術構建。通過使用 TensorRT-LLM 的優化版本,用戶只需配備NVIDIA RTX GPU,即可享受到這些優勢。 由 Google DeepMind 創建,Gemma 2B 和 Gemma 7B 作為該系列的首批模型,Gemma 可實現高吞吐量和先進性能。通過 TensorRT-LLM (用于優化推理性能的開源庫) 加速,Gemma 可兼容從數據中心、云到本地 PC 的各種 NVIDIA AI 平臺。 以前,LLM 的優化和部署非常復雜,令人望而卻步。使用 TensorRT-LLM 簡化的 Python API 可以輕松實現量化和內核壓縮。Python 開發者可以針對熱門 LLM 自定義模型參數、減少內存占用、

Source

]]>
8948
掌握 LLM 技術:訓練 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-training/ Thu, 16 Nov 2023 05:30:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=8313 Continued]]> 大型語言模型 (LLM) 是一類使用 Transformer 網絡構建的生成式 AI 模型,能夠利用非常大的數據集來識別、匯總、翻譯、預測和生成語言。正如我們所知,LLM 有望改變社會,但訓練這些基礎模型極具挑戰性。 此博客闡述了使用 Transformer 網絡構建 LLM 的基本原理,涵蓋模型架構、注意力機制、嵌入技術和基礎模型訓練策略。 模型架構定義了 Transformer 網絡的骨干,大致規定了模型的功能和限制。LLM 的架構通常稱為編碼器、解碼器或編碼器 – 解碼器模型。 一些熱門架構包括: 另一個熱門架構決策是擴展到多模態模型,這些模型結合了來自文本、圖像、音頻和視頻等多種模式或形式的數據的信息。雖然訓練具有挑戰性,但多模態模型提供了來自不同模式的互補信息的關鍵優勢,正如人類通過分析來自多種感官的數據所理解的那樣。

Source

]]>
8313
人人超碰97caoporen国产