• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 數據中心/云端

    NVIDIA Blackwell 平臺在 MLPerf Inference v4.1 中創下新的 LLM 推理記錄

    大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、高效的加速庫和高度優化的推理引擎。

    MLPerf Inference v4.1 是廣受認可的熱門 MLPerf Inference 基準測試的最新版本,由 MLCommons 聯盟開發。該基準測試包括許多熱門 AI 模型,涵蓋從 LLM 和生成式 AI 到推薦系統和計算機視覺的各種用例。這些基準測試會定期更新,以確保市場相關性。

    在這一輪中,NVIDIA 憑借整個 NVIDIA 技術堆棧的創新提交了許多出色的結果。亮點包括:

    本文將對這些結果進行詳細介紹。

    NVIDIA Blackwell 在首次亮相 MLPerf Inference 時大放異彩

    NVIDIA Blackwell 架構在 NVIDIA GTC 2024 上推出,是一種新型 AI 超級芯片。它由 2080 億個晶體管精心制作而成,并采用專為 NVIDIA 定制的 TSMC 4NP 工藝,是迄今為止最大的 GPU。Blackwell 架構還采用新的第二代 Transformer 引擎,該引擎將新的 Blackwell Tensor Core 技術與 TensorRT-LLM 創新相結合,可實現快速準確的 FP4 AI 推理。

    A photo of a GB200 compute node, with chips, cooling, among other components.
    圖 1.NVIDIA Blackwell 計算節點

    在這一輪 MLPerf 推理中,NVIDIA 使用 Blackwell 提交了首批結果。在 Llama 2 70B LLM 基準測試中,Blackwell 提供的每個 GPU 的令牌數每秒比 H100 GPU 高 4 倍。

    MLPerf Inference v4.1 Llama 2 70B 服務器
    令牌/秒
    離線
    令牌/秒
    1 塊 NVIDIA B200 GPU 10756 11264
    每個 GPU 的性能提升 4 倍 3.7 倍
    表 1. 在 MLPerf Llama 2 70B 基準測試中,與 NVIDIA Hopper 相比,每個 GPU 的性能提升。通過將提交的 8 個 GPU 結果除以 8 獲得每個 GPU 的 NVIDIA H100 吞吐量。

    MLPerf Inference v4.1 已關閉,數據中心。檢索自 2024 年 8 月 28 日 www.mlperf.org 的結果。Blackwell 結果在單個 GPU 上測量,并檢索自條目 4.1-0074 的 Closed,Preview 類別。H100 結果來自條目 4.1-0043(位于 8 個 H100 系統的 Closed,Available 類別),并除以每個 GPU 比較的 GPU 數量。每個 GPU 吞吐量不是 MLPerf Inference 的主要指標。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊和未注冊商標。保留所有權利。嚴禁未經授權使用。有關更多信息,請參閱 www.mlcommons.org

    此提交作品廣泛使用了 Blackwell FP4 Transformer 引擎。此提交作品也在封閉分區中進行,這意味著推理結果在不修改模型的情況下提供了這一性能,同時仍然滿足基準的高精度要求。FP4 量化使用 NVIDIA TensorRT Model Optimizer 庫執行,該庫融合了先進的模型優化技術,無需重新訓練模型。

    NVIDIA H200 Tensor Core GPU 可在每項基準測試中提供出色的性能。

    NVIDIA H200 GPU 使用業界最快的 AI 顯存 HBM3e 升級了 NVIDIA Hopper 架構。與 H100 相比,這將顯存容量增加了 1.8 倍,顯存帶寬增加了 1.4 倍,使內存敏感型用例受益。

    在這一輪中,NVIDIA 針對每個工作負載使用八個 H200 GPU 提交了結果,并在可用類別中提交了結果。

    基準測試 GPU 服務器 離線
    Llama 2 70B 8 H200
    (1000 瓦)
    32790 令牌/秒 34864 個令牌/秒
    Mixtral 8x7B









    8 H200
    (700 瓦)
    57177 令牌/秒 59022 令牌/秒
    GPT-J 19243 令牌/秒 20086 令牌/秒
    Stable Diffusion XL 16.78 條查詢/秒 17.42 個樣本/秒
    DLRM v2 99% 585208 條查詢/秒 637342
    樣本/秒
    DLRM v2 99.9% 370083 條查詢/秒 390953
    樣本/秒
    ResNet-50 v1.5 632229 條查詢/秒 756960
    樣本/秒
    BERT 99% 57609 條查詢/秒 73310 個樣本/s
    BERT 99.9% 51212 條查詢/秒 63950 個樣本/秒
    RetinaNet 13604 條查詢/秒 14439 個樣本/秒
    3D U-Net 不屬于基準測試 54.71 個樣本/秒
    表 2. 使用 NVIDIA H200 GPU 的 NVIDIA MLPerf Inference v4.1 數據中心結果。Llama 2 70B 結果基于配置為 1000W 的 NVIDIA H200,所有其他結果均使用 700W 的 NVIDIA H200。

    MLPerf Inference v4.1 已關閉,數據中心。檢索結果的網址為 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用 8 個 GPU 并檢索自以下條目:4.1-0046、4.1-0048、4.1-0050。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。保留所有權利。未經授權的使用嚴格禁止。有關更多信息,請參閱 www.mlcommons.org

    以下小節描述了在多個基準測試中所實現的改進。

    Llama 2 70B

    Llama 2 70B 基準測試是在上一輪測試中首次推出,并繼續代表熱門的 70B 級密集 LLM。

    NVIDIA 還將繼續增強 TensorRT-LLM 軟件,通過現有 GPU 為用戶提供更多的 LLM 推理性能。僅通過軟件改進,與上一輪的預覽提交相比,Llama 2 70B 在 H200 上的性能提升高達 14%。

    MLPerf Llama 2 自 v4.0 以來改進了 70B 服務器 離線
    H200 (700 W) 1.14 倍 1.12 倍
    H100 (700 W) 1.05 倍 1.12 倍
    表 3. 與上一輪相比,Hopper GPU 在 Llama 2 70B 基準測試中的改進。

    MLPerf Inference v4.0 和 v4.1 已關閉,數據中心。檢索結果的網址為 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用八個 GPU 并檢索自以下條目:4.0-0062、4.0-0070、4.1-0043、4.1-0048、4.1-0050。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。所有權利保留。未經授權的使用嚴格禁止。有關更多信息,請參閱 www.mlcommons.org

    這輪的主要改進包括 XQA 內核優化以及其他層融合。

    此外,NVIDIA 還提交了使用 H200 GPU(使用定制散熱解決方案)并將熱設計功耗(TDP)提高到 1,000 瓦的 Llama 2 70B 結果。與配置為 700 瓦 TDP 的 H200 相比,在 Llama 2 70B 基準測試中,性能最高可提升 12%。

    在這一輪中,NVIDIA 還使用運行 Triton Inference Server 的 H200 GPU 提交了 Llama 2 70B 結果,提供與 bare metal 提交相似的性能。在服務器場景中,配備 Triton Inference Server 的 H200 甚至在沒有 Triton Inference Server的情況下優于 H200。

    MLPerf Llama 2 70B 基準測試 服務器 離線
    配備 Triton 推理服務器的 8 H200 30128 31059
    8 不使用 Triton 推理服務器的 H200 29228 31303
    表 4. 使用和不使用 Triton 推理服務器的 8 個 H200 GPU 的性能。

    MLPerf Inference v4.1 關閉,數據中心。檢索結果的網址為 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用八個 GPU 并檢索自以下條目:4.1-0048、4.1-0050。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。保留所有權利。未經授權使用嚴禁。有關更多信息,請參閱 www.mlcommons.org

    這表明,在使用 Triton 推理服務器時,希望部署熱門模型的組織不需要以性能交換功能。

    最后,NVIDIA 使用單個 H200 GPU 提交了 Llama 2 70B 公開分區結果,展示了更廣泛的模型級優化可能帶來的性能提升。

    首先,對模型應用深度剪枝和寬度剪枝,通過智能刪除對整體模型輸出不太重要的層和中間維度,大幅減少模型中的參數總數。

    然后,為了恢復準確性,我們使用 MLPerf OpenORCA 開發數據集對模型執行了微調。最終剪枝模型具有 32 層和 14,336 MLP 中間維度,與原始模型的 80 層和 28,672 中間維度相比,這是一個顯著的縮減。

    雖然模型精度略低于 99% 的值,但模型明顯較小,可實現更高的吞吐量(離線),達到 11,189 token/s,或幾乎是封閉分區吞吐量的 3 倍。

    MLPerf Inference v4.1,Data Center,Open Division。結果源自條目 4.1-0089。MLPerf 名稱和徽標為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。所有權利保留。未經授權使用嚴禁。有關更多信息,請參閱 www.mlcommons.org

    Mixtral 8x7B

    在這一輪中,基于 Mistral AI 開發的 Mixtral 8x7B 模型添加了新的 LLM 工作負載。Mixtral 8x7B 采用由 8 名專家組成的稀疏專家混合(MoE)架構,總參數為 46.7 億,每個令牌使用 2 名專家和 12.9 億個參數。

    NVIDIA 使用 H100 和 H200 GPU,運行 TensorRT-LLM 軟件,并廣泛使用 FP8 精度,提交了 Mixtral 8x7B 結果。

    MLPerf Mixtral 8x7B 基準測試 服務器
    令牌/秒
    離線
    令牌/秒
    8 H200 57177 59022
    8 塊 H100 50796 52416
    H200 優勢 1.13 倍 1.13 倍
    表 5. H100 和 H200 在 MLPerf Mixtral 8x7B 基準測試中的性能和提升。

    MLPerf Inference v4.1 關閉,數據中心。檢索結果的網址為 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用 8 個 GPU 并檢索自以下條目:4.1-0043、4.1-0048。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。保留所有權利。嚴禁未經授權使用。有關更多信息,請參閱 www.mlcommons.org

    只有使用 NVIDIA GPU 的系統提交了 Mixtral 8x7B 的結果。隨著工作負載添加到 MLPerf 基準套件,NVIDIA 繼續提交出色的結果,這表明 NVIDIA 平臺為龐大且不斷擴展的 AI 模型領域提供高性能和出色的通用性。

    Stable Diffusion XL

    這輪,H200 性能得到提升,每秒生成兩張圖像,與上一輪相比,Stable Diffusion XL 的性能提升了 27%。這代表了基準測試的新紀錄

    MLPerf Stable Diffusion XL improvements since v4.0 服務器 離線
    8 H200 (700 W) 1.22 倍 1.27 倍
    8 H100 (700 W) 1.17 倍 1.25 倍
    表 6. 與 NVIDIA H100 和 H200 GPU 上的 v4.0 相比,MLPerf Inference v4.1 中的 Stable Diffusion XL 性能提升。

    MLPerf Inference v4.0 和 v4.1 已關閉,數據中心。結果檢索自 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用八個 GPU 并檢索自以下條目:4.0-0062、4.0-0070、4.1-0043、4.1-0048。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊和未注冊商標。保留所有權利。未經授權的使用嚴格禁止。有關更多信息,請參閱 www.mlcommons.org

    這些提升主要歸功于 NVIDIA 軟件堆棧的幾項關鍵優化,包括

    • UNet FP8 支持:通過使用 TensorRT 模型優化器,NVIDIA 本次提交的結果在滿足精度要求的同時使用了 FP8 精度。這在 Hopper GPU 上的全面性能提升中占據了最大部分。
    • NVIDIA 提交的 VAE INT8 支持:與上一輪中使用的 FP32 相比,本輪結果能夠量化某些層的 INT8 和其他層的 FP16。這將 VAE 性能提高了 70%,轉化為大約 4% 的端到端加速。

    變分自編碼器 (VAE) 批量分割:SDXL 流程的 VAE 部分需要非常大的內存占用空間。通過采用批量分割,NVIDIA 本次提交的數據能夠將批量大小從 8 增加到 64,從而提高性能。

    Diagram showing how a text prompt flows through the Stable Diffusion XL model to generate an output image.
    圖 2.Stable Diffusion XL 模型架構

    此外,NVIDIA 還在開放除法提交中提交了 SDXL 結果,該結果將這些優化與潛在一致性模型(Latent Consistency Model,LCM)相結合,將 H200 上的封閉除法離線吞吐量提高了近 5 倍,達到 11 個樣本/秒。這展示了通過對擴散模型進行更廣泛的模型級優化而進一步提升的性能。

    Jetson AGX Orin 上的生成式 AI 的巨大飛躍

    Jetson AGX Orin 提供邊緣生成式 AI 高的 AI 計算性能、大容量統一顯存和綜合軟件。

    通過廣泛的軟件優化,NVIDIA Jetson AGX Orin 64 GB 為邊緣的生成式 AI 模型實現了巨大飛躍,在 GPT-J 6B 參數 LLM 基準測試中,吞吐量提高了 6.2 倍,延遲提高了 2.4 倍。邊緣的生成式 AI 模型可以將圖像和視頻等傳感器數據轉換為具有強大上下文感知能力的實時可行見解。

    Jetson AGX Orin 由 NVIDIA 軟件堆棧提供支持,具有獨特的市場定位,是運行 transformer 模型(例如 GPT-J、視覺 transformer 和 Stable Diffusion at the Edge)的領先平臺。開發者可以利用 Jetson 生成式 AI 實驗室Jetson 平臺服務等其他平臺服務,提供出色的解決方案。

    GPT-J (邊緣) 單流延遲 (毫秒) 離線令牌/秒
    Jetson AGX Orin 64 GB v4.1 4176 64.47
    Jetson AGX Orin 64 GB v4.0 10132 10.35
    表 7. GPT-J LLM 在 MLPerf 推理中的性能;Edge (v4.0 和 v4.1) 上的 Jetson AGX Orin

    MLPerf Inference v4.0 和 v4.1 已關閉,Edge。結果檢索自 2024 年 8 月 28 日 www.mlperf.org上的結果。所有結果均使用八個 GPU 并檢索自以下條目:4.0-0072、4.1-0051。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。所有權利保留。未經授權的使用嚴格禁止。有關更多信息,請參閱 www.mlcommons.org

    通過對 TensorRT-LLM 進行多次軟件優化(包括使用動態批處理以及應用 INT4 激活感知權重量化(AWQ)),這種性能提升成為可能。AWQ 在更高精度的 FP16 中保留 1% 的“顯著權重”,并將剩余權重量化為 4 位整數(INT4)精度。這種技術顯著減少了內存占用,支持一次處理更大的批量,從而大幅提高了推理吞吐量。

    NVIDIA 也提交了在 Open Division 中運行在 Jetson AGX Orin 上的要求嚴苛的 Llama 2 70B 模型的結果,展示了更廣泛的模型優化技術的可能性。提交的模型與 H200 提交中的 16B 深度和寬度剪枝模型相同。本次提交中還使用了 INT4 AWQ(用于 Jetson AGX Orin 的 GPT-J 提交中的封閉部分)。模型參數剪枝和 INT4 量化相結合,大大縮小了 Llama 2 70B 模型的模型權重內存占用空間,僅約 8 GB。

    結束語

    在其首次提交的作品中,NVIDIA Blackwell 提供了出色的性能,相較于在 Llama 2 70B 上使用 H100,性能提升高達 4 倍。此外,在可用的解決方案中,Hopper GPU 在所有工作負載中提供了更高的多 GPU 生成式 AI 性能和每個加速器的最高性能,并繼續從持續的軟件優化中受益。NVIDIA Triton 推理服務器這一輪也取得了出色的成績,提供了與裸機提交作品相似的性能。對于邊緣和嵌入式 AI,Jetson AGX Orin 和豐富的 NVIDIA 軟件堆棧支持運行 GPT-J 6B 等適用模型,僅在一輪中性能就提升高達 6.2 倍。

    NVIDIA 在整個技術棧中繼續快速創新,從大型 AI 工廠到緊湊、低功耗的邊緣設備,為當前和未來的模型提供出色的推理性能。

    致謝

    許多 NVIDIA 員工的努力取得了這些出色的成果。我們要感謝 Chen-Han Yu、Kai Xu、Justin Xin、Asma Kuriparambil Thekkumpate、Linnan Wang、Wei-Ming Chen、Kaiyu Xie、Shobhit Verma、Viraat Chandra 等人的不懈努力。

    ?

    0

    標簽

    人人超碰97caoporen国产