Benchmark – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 21 Mar 2025 09:13:22 +0000 zh-CN hourly 1 196178272 借助 NVIDIA Parabricks 和 NVIDIA AI Blueprints,將基因組學和單細胞分析時間縮短至幾分鐘 http://www.open-lab.net/zh-cn/blog/shrink-genomics-and-single-cell-analysis-time-to-minutes-with-nvidia-parabricks-and-nvidia-blueprints/ Fri, 21 Mar 2025 09:13:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=13269 Continued]]> NVIDIA Parabricks 是一款可擴展的基因組學分析軟件套件,通過加速計算和深度學習解決 omics 挑戰,實現新的科學突破。 NVIDIA Parabricks v4.5 在 NVIDIA GTC 2025 上發布,通過支持最新的 NVIDIA GPU 架構,并通過結合使用 Giraffe 和 DeepVariant 來改進對齊和變體識別,從而支持不斷增長的數據量。該版本還包括改進的功能,并縮短了跨多個行業領先工具 (包括 STAR、FQ2BAM 和 Minimap2) 的分析時間。 Parabricks v4.5 隨附用于基因組學和單細胞分析的全新 NVIDIA AI Blueprints,使生物信息學家和基因組學平臺提供商能夠輕松部署和測試 NVIDIA Parabricks 和 NVIDIA RAPIDS,而無需本地 GPU 或自管理云配置。通過擴展可訪問性,

Source

]]>
13269
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量 http://www.open-lab.net/zh-cn/blog/optimizing-qwen2-5-coder-throughput-with-nvidia-tensorrt-llm-lookahead-decoding/ Fri, 14 Feb 2025 04:58:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12977 Continued]]> 專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,包括增強代碼、修復錯誤、生成測試和編寫文檔。 為促進開源 LLM 的開發,Qwen 團隊最近發布了 Qwen2.5-Coder,這是一系列先進的 LLM,用于跨熱門編程語言的代碼生成、推理和修復。本文將探討針對 NVIDIA TensorRT-LLM 支持 的 Qwen2.5-Coder 模型進行推理優化的優勢,以及借助 NVIDIA NIM 輕松部署以提升變革潛力和編碼效率的好處。 Qwen2.5-Coder 模型在熱門的學術基準測試中取得了出色的性能。 NVIDIA TensorRT-LLM 已對 Qwen2.5-Coder 系列的三種熱門模型 (1.5B、7B 和 32B 版本) 進行優化,以實現高吞吐量和低延遲。

Source

]]>
12977
利用 RAPIDS cuML 加速時間序列預測 http://www.open-lab.net/zh-cn/blog/accelerating-time-series-forecasting-with-rapids-cuml/ Thu, 16 Jan 2025 06:20:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=12696 Continued]]> 時間序列預測是一種強大的數據科學技術,用于根據過去的數據點預測未來值 借助 skforecast 等開源 Python 庫,您可以輕松地對數據運行時間序列預測。它們允許您“自帶”與 scikit-learn API 兼容的回歸器,讓您能夠靈活地與所選模型無縫協作。 隨著數據集和技術(例如直接多步驟預測)的不斷增加,需要您一次運行多個模型,在基于 CPU 的基礎設施上運行預測時,計算成本會很快變得昂貴。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。 cuML 是一個 GPU 加速的 Python 機器學習庫,具有 scikit-learn 兼容 API。 在這篇博文中,我們展示了如何將 RAPIDS cuML 與 skforecast 結合使用,以加速時間序列預測,從而讓您能夠處理更大的數據集和預測窗口。 在當今數據驅動的世界中,

Source

]]>
12696
NVIDIA JetPack 6.2 為 NVIDIA Jetson Orin Nano 和 Jetson Orin NX 模塊引入超級模式 http://www.open-lab.net/zh-cn/blog/nvidia-jetpack-6-2-brings-super-mode-to-nvidia-jetson-orin-nano-and-jetson-orin-nx-modules/ Thu, 16 Jan 2025 06:11:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=12690 Continued]]> NVIDIA Jetson Orin Nano 超級開發者套件 的推出為小型邊緣設備開啟了 生成式 AI 的新時代。新的 超級模式 在開發者套件上實現了前所未有的生成式 AI 性能提升,最高可達 1.7 倍,使其成為最經濟實惠的生成式 AI 超級計算機。 JetPack 6.2 現已支持 Jetson Orin Nano 和 Jetson Orin NX 生產模組的超級模式,可將生成式 AI 模型的性能提升高達 2 倍。現在,您可以為新的和現有的機器人和邊緣 AI 應用釋放更多價值并降低總體擁有成本。 本文討論了 Super Mode 的詳細信息,包括新的功率模式、Jetson Orin Nano 和 Orin NX 模組上熱門生成式 AI 模型的基準測試、文檔更新,以及對支持 Super Mode 的 NPN 合作伙伴的見解。 JetPack 6.2…

Source

]]>
12690
RAPIDS 24.12 推出基于 PyPI 的 cuDF、適用于 Polar 的 CUDA 統一內存和更快的 GNN http://www.open-lab.net/zh-cn/blog/rapids-24-12-introduces-cudf-on-pypi-cuda-unified-memory-for-polars-and-faster-gnns/ Thu, 19 Dec 2024 08:59:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=12478 Continued]]> RAPIDS 24.12 將 cuDF 包引入 PyPI,加快了 聚合和從 AWS S3 讀取文件的速度,在 Polars GPU 引擎中支持大于 GPU 內存的查詢,并加快了真實圖形的圖形神經網絡 (GNN) 訓練速度。 從 24.12 版本的 RAPIDS 開始,、、 的 CUDA 12 版本及其所有依賴項現在均可 在 PyPI 上使用 。因此,安裝這些庫不再需要使用 和 的其他配置。試用: 這也意味著 Polars 用戶無需再在安裝期間指定額外的索引即可獲得 GPU 支持: 即可正常工作。 這是通過 pypi.org 提供 RAPIDS 庫的持續努力的第一步。敬請關注,了解更多信息。 我們與 Polars 一起在 Open Beta 中推出了基于 cuDF 構建的 Polars GPU 引擎,

Source

]]>
12478
借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍 http://www.open-lab.net/zh-cn/blog/boost-llama-3-3-70b-inference-throughput-3x-with-nvidia-tensorrt-llm-speculative-decoding/ Tue, 17 Dec 2024 04:36:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=12513 Continued]]> 隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。Llama 3.3 相對于較舊的 Llama 3.1 70B 模型提供了增強的性能,甚至可以在數學、推理、編碼和多語種支持等多項任務中匹配更大、計算成本更高的 Llama 3.1 405B 模型的功能。 NVIDIA TensorRT-LLM 是一款功能強大的推理引擎,可在最新的 LLM 上提供先進的性能,并整合了許多優化措施,可提供出色的 Llama 3.3 70B 推理吞吐量。其中包括在飛批處理、 KV 緩存 、 自定義 FP8 量化 、推測解碼等,可實現快速、經濟高效的 LLM 服務。 動態批處理默認作為運行時配置參數激活,TensorRT-LLM 支持同時批處理多個不同的請求,從而提高服務吞吐量。通過在上下文和生成階段交錯處理請求,

Source

]]>
12513
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能 http://www.open-lab.net/zh-cn/blog/llama-3-2-full-stack-optimizations-unlock-high-performance-on-nvidia-gpus/ Tue, 19 Nov 2024 09:20:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12199 Continued]]> Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,支持文本和圖像輸入。此外,Meta 還推出了 Llama 3.2 的純文本 小語言模型(SLM) 變體,具有 1B 和 3B 參數。NVIDIA 已對 Llama 3.2 模型集合進行優化,以便在全球數百萬個 GPU 上提供出色的性能和經濟高效的服務 – 從我們功能強大的數據中心和云 GPU 到本地 NVIDIA RTX 工作站 ,甚至是使用 NVIDIA Jetson 的低功耗邊緣設備。 Llama 3.2 VLM 支持長達 128K 的文本標記,以及分辨率為 1120 x 1120 像素的單張圖像輸入。為了實現低延遲響應,提供出色的用戶體驗,同時提供高吞吐量以經濟高效地提供這些模型,NVIDIA 平臺在技術堆棧的每一層都進行了優化。

Source

]]>
12199
借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署 http://www.open-lab.net/zh-cn/blog/streamlining-ai-inference-performance-and-deployment-with-nvidia-tensorrt-llm-chunked-prefill/ Fri, 15 Nov 2024 07:04:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=12029 Continued]]> 在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能,可提高 GPU 利用率并簡化開發者的部署體驗。本文基于之前的博文,討論了 TensorRT-LLM 中的高級 KV 緩存優化功能如何在需要系統預填充的用例中將性能提升高達 5 倍。 當用戶向模型提交請求時,它將經歷兩個不同的計算階段:預填充和解碼。每個階段使用 GPU 計算資源的方式各不相同。 在預填充階段,系統會處理所有輸入令牌以計算 KV 緩存,然后使用該緩存生成輸出的第一個令牌。此階段的計算要求很高,可以有效利用 GPU 龐大的并行計算資源。 在解碼階段,系統會單獨生成輸出 tokens,使用每個新 tokens 更新預填充階段的中間狀態。由于中間狀態計算的繁重計算工作是在預填充階段完成的,因此解碼階段主要涉及僅處理新生成的 tokens。因此,

Source

]]>
12029
NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-doubles-llm-training-performance-in-mlperf-training-v4-1/ Wed, 13 Nov 2024 07:46:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12054 Continued]]> 隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。 在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。

Source

]]>
12054
NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升 http://www.open-lab.net/zh-cn/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/ Fri, 08 Nov 2024 08:12:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12068 Continued]]> 在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA H100 Tensor Core GPU 上將首次生成令牌 (Time To First Token, TTFT) 的速度提升高達 14 倍,在 NVIDIA GH200 Superchip 上可將其提升高達 28 倍。在本文中,我們介紹了可以進一步推動 TTFT 加速的 KV 緩存重復使用技術和最佳實踐。 許多任務(包括問答和代碼生成)都迅速采用了 LLM 模型。為了生成響應,這些模型首先將用戶的提示符轉換為 tokens,然后將其轉換為 dense vectors。隨后會進行大量的 dot-product operations,以數學方式對 tokens 之間的關系建模,并構建對用戶輸入的上下文理解。

Source

]]>
12068
借助 NVIDIA NeMo 開發前沿的多模態生成式 AI 模型 http://www.open-lab.net/zh-cn/blog/state-of-the-art-multimodal-generative-ai-model-development-with-nvidia-nemo/ Wed, 06 Nov 2024 03:41:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=12293 Continued]]> 生成式 AI 已從基于文本的模型迅速發展為多模態功能。這些模型執行圖像字幕和視覺問答等任務,反映了向更接近人類的 AI 的轉變。該社區目前正在從文本和圖像擴展到視頻,為各行各業帶來了新的可能性。 視頻 AI 模型將徹底改變 機器人 、汽車和零售等行業。在機器人領域,它們可增強在復雜、不斷變化的環境中的自主導航,這對于制造和倉儲管理等行業至關重要。在汽車行業,視頻 AI 正在推動自動駕駛,提升車輛感知、安全性和預測性維護,從而提高效率。 要構建圖像和視頻基礎模型,開發者必須整理和預處理大量訓練數據,以高保真度標記生成的高質量數據,高效、大規模地訓練或定制預訓練模型,然后在推理過程中生成高質量的圖像和視頻。 NVIDIA NeMo 是一個端到端平臺,用于開發、定制和部署生成式 AI 模型。 NVIDIA 剛剛宣布擴展 NeMo,以支持開發多模態模型的端到端流程。

Source

]]>
12293
RAPIDS cuML 助力 GPU 實現 UMAP 的高速擴展 http://www.open-lab.net/zh-cn/blog/even-faster-and-more-scalable-umap-on-the-gpu-with-rapids-cuml/ Thu, 31 Oct 2024 09:15:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=11843 Continued]]> UMAP 是一種常用的降維算法,用于生物信息學、NLP 主題建模和 ML 預處理等領域。它的工作原理是創建 k 近鄰(k-NN)圖(在文獻中稱為全近鄰圖),以構建數據的模糊拓撲表示,用于將高維數據嵌入到較低維度中。 RAPIDS cuML 已經包含了加速的 UMAP,與最初基于 CPU 的 UMAP 相比,速度有了顯著提升。正如我們在本文中演示的那樣,還有改進空間。 在本文中,我們將探討如何使用 RAPIDS cuML 24.10 中引入的新功能。我們還將深入探討 nn-descent 算法和批處理流程的詳細信息。最后,我們分享基準測試結果,以強調可能的性能提升。在本文結束時,我們希望您對 RAPIDS 更快速且可擴展的 UMAP 所帶來的優勢感到興奮。 我們面臨的一個挑戰是,所有鄰居圖形構建階段需要很長時間,尤其是與 UMAP 算法中的其他步驟相比。

Source

]]>
11843
Mistral-NeMo-Minitron 8B 模型提供超高精度 http://www.open-lab.net/zh-cn/blog/mistral-nemo-minitron-8b-foundation-model-delivers-unparalleled-accuracy-2/ Tue, 08 Oct 2024 06:39:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=11441 Continued]]> 本文最初發布于 2024 年 8 月 21 日,但已根據當前數據進行了修訂。 最近,NVIDIA 和 Mistral AI 推出了 Mistral NeMo 12B ,這是一款先進的大語言模型 (LLM)。Mistral NeMo 12B 在 各種基準測試 中的表現始終優于類似大小的模型。 我們宣布推出 Mistral-NeMo-Minitron 8B,這是同類產品中最先進的開放訪問模型之一。該模型在九項熱門基準測試中始終提供領先的準確性。Mistral-NeMo-Minitron 8B 基礎模型是通過對 Mistral NeMo 12B 基礎模型 進行寬度剪枝獲得的,然后是使用知識蒸餾進行的輕量化重新訓練過程。這是 NVIDIA 最初在論文《 通過剪枝和知識蒸餾實現緊湊語言模型 》中提出的成功方法。NVIDIA Minitron 8B 和 4B 以及 Llama…

Source

]]>
11441
新的獎勵模型有助于改善 LLM 與人類偏好的匹配 http://www.open-lab.net/zh-cn/blog/new-reward-model-helps-improve-llm-alignment-with-human-preferences/ Thu, 03 Oct 2024 08:33:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=11471 Continued]]> 從人類反饋中進行強化學習(Reinforcement learning from human feedback)對于開發符合人類價值觀和偏好的 AI 系統至關重要。RLHF 使最強大的 LLMs,包括 ChatGPT、Claude 和 Nemotron 系列能夠生成出色的響應。 通過將人工反饋集成到訓練過程中,RLHF 使模型能夠學習更細致入微的行為,并做出更好地反映用戶期望的決策。這一方法提高了 AI 生成的響應的質量,并增強了 AI 應用中的信任度和可靠性。 為了幫助 AI 社區輕松采用 RLHF 來構建和自定義模型,NVIDIA 發布了 Llama 3.1-Nemotron-70B-Reward ,這是一種先進的獎勵模型,可對 LLM 生成的響應進行評分。這些分數可用于提高 LLM 響應質量,使人類與 AI 之間的互動更加積極、更具影響力。 Llama 3.1…

Source

]]>
11471
使用 RAPIDS cuDF pandas 加速器模式處理 10 億行數據 http://www.open-lab.net/zh-cn/blog/processing-one-billion-rows-of-data-with-rapids-cudf-pandas-accelerator-mode/ Wed, 11 Sep 2024 08:01:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=11278 Continued]]> 十億行挑戰賽 (One Billion Row Challenge) 是一個有趣的基準測試,旨在展示基本的數據處理操作。它最初是作為純 Java 競賽發起的,現已聚集了其他語言(包括 Python、Rust、Go、Swift 等)的開發者社區。對于許多有興趣探索文本文件閱讀細節、基于哈希的算法和 CPU 優化的軟件工程師來說,這項挑戰賽非常有用。截至 2024 年年中,One Billion Row Challenge GitHub 存儲庫已經吸引了超過 1.8K 個分叉,獲得了超過 6K 顆星,并啟發了數十篇博客文章和視頻。 本文將展示如何使用 RAPIDS cuDF pandas 加速器模式完成處理十億行數據的挑戰。具體而言,我們將展示 cuDF pandas 加速器版本 24.08 中的兩項新功能 —— 大字符串支持和帶預取的托管內存 —— 如何借助 GPU…

Source

]]>
11278
人人超碰97caoporen国产