大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、高效的加速庫和高度優化的推理引擎。
MLPerf Inference v4.1 是廣受認可的熱門 MLPerf Inference 基準測試的最新版本,由 MLCommons 聯盟開發。該基準測試包括許多熱門 AI 模型,涵蓋從 LLM 和生成式 AI 到推薦系統和計算機視覺的各種用例。這些基準測試會定期更新,以確保市場相關性。
在這一輪中,NVIDIA 憑借整個 NVIDIA 技術堆棧的創新提交了許多出色的結果。亮點包括:
- 首次提交使用?NVIDIA Blackwell 架構,與?NVIDIA H100 Tensor Core GPU?相比,在 Llama 2 70B 上提供高達 4 倍的性能提升。
- NVIDIA H200 Tensor Core GPU?在每個數據中心工作負載上的提交,與 H100 提交相比,可提供高達 1.5 倍的性能提升。
- 與上一輪提交的 H200 預覽作品相比,由于軟件改進,在 H200 上的性能提升高達 27%。?
- 首批使用?NVIDIA Triton 推理服務器提交的 Llama 2 70B 作品,其性能與?NVIDIA TensorRT-LLM?作品相似。?
- 與使用?NVIDIA Jetson?AGX Orin 平臺的上一輪相比,邊緣類別的 GPT-J 基準測試性能提升高達 6.2 倍。
- ?
本文將對這些結果進行詳細介紹。
NVIDIA Blackwell 在首次亮相 MLPerf Inference 時大放異彩
NVIDIA Blackwell 架構在 NVIDIA GTC 2024 上推出,是一種新型 AI 超級芯片。它由 2080 億個晶體管精心制作而成,并采用專為 NVIDIA 定制的 TSMC 4NP 工藝,是迄今為止最大的 GPU。Blackwell 架構還采用新的第二代 Transformer 引擎,該引擎將新的 Blackwell Tensor Core 技術與 TensorRT-LLM 創新相結合,可實現快速準確的 FP4 AI 推理。

在這一輪 MLPerf 推理中,NVIDIA 使用 Blackwell 提交了首批結果。在 Llama 2 70B LLM 基準測試中,Blackwell 提供的每個 GPU 的令牌數每秒比 H100 GPU 高 4 倍。
MLPerf Inference v4.1 Llama 2 70B | 服務器 令牌/秒 |
離線 令牌/秒 |
1 塊 NVIDIA B200 GPU | 10756 | 11264 |
每個 GPU 的性能提升 | 4 倍 | 3.7 倍 |
MLPerf Inference v4.1 已關閉,數據中心。檢索自 2024 年 8 月 28 日 www.mlperf.org 的結果。Blackwell 結果在單個 GPU 上測量,并檢索自條目 4.1-0074 的 Closed,Preview 類別。H100 結果來自條目 4.1-0043(位于 8 個 H100 系統的 Closed,Available 類別),并除以每個 GPU 比較的 GPU 數量。每個 GPU 吞吐量不是 MLPerf Inference 的主要指標。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊和未注冊商標。保留所有權利。嚴禁未經授權使用。有關更多信息,請參閱 www.mlcommons.org。
此提交作品廣泛使用了 Blackwell FP4 Transformer 引擎。此提交作品也在封閉分區中進行,這意味著推理結果在不修改模型的情況下提供了這一性能,同時仍然滿足基準的高精度要求。FP4 量化使用 NVIDIA TensorRT Model Optimizer 庫執行,該庫融合了先進的模型優化技術,無需重新訓練模型。
NVIDIA H200 Tensor Core GPU 可在每項基準測試中提供出色的性能。
NVIDIA H200 GPU 使用業界最快的 AI 顯存 HBM3e 升級了 NVIDIA Hopper 架構。與 H100 相比,這將顯存容量增加了 1.8 倍,顯存帶寬增加了 1.4 倍,使內存敏感型用例受益。
在這一輪中,NVIDIA 針對每個工作負載使用八個 H200 GPU 提交了結果,并在可用類別中提交了結果。
基準測試 | GPU | 服務器 | 離線 |
Llama 2 70B | 8 H200 (1000 瓦) |
32790 令牌/秒 | 34864 個令牌/秒 |
Mixtral 8x7B | 8 H200 (700 瓦) |
57177 令牌/秒 | 59022 令牌/秒 |
GPT-J | 19243 令牌/秒 | 20086 令牌/秒 | |
Stable Diffusion XL | 16.78 條查詢/秒 | 17.42 個樣本/秒 | |
DLRM v2 99% | 585208 條查詢/秒 | 637342 樣本/秒 |
|
DLRM v2 99.9% | 370083 條查詢/秒 | 390953 樣本/秒 |
|
ResNet-50 v1.5 | 632229 條查詢/秒 | 756960 樣本/秒 |
|
BERT 99% | 57609 條查詢/秒 | 73310 個樣本/s | |
BERT 99.9% | 51212 條查詢/秒 | 63950 個樣本/秒 | |
RetinaNet | 13604 條查詢/秒 | 14439 個樣本/秒 | |
3D U-Net | 不屬于基準測試 | 54.71 個樣本/秒 |
MLPerf Inference v4.1 已關閉,數據中心。檢索結果的網址為 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用 8 個 GPU 并檢索自以下條目:4.1-0046、4.1-0048、4.1-0050。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。保留所有權利。未經授權的使用嚴格禁止。有關更多信息,請參閱 www.mlcommons.org。
以下小節描述了在多個基準測試中所實現的改進。
Llama 2 70B
Llama 2 70B 基準測試是在上一輪測試中首次推出,并繼續代表熱門的 70B 級密集 LLM。
NVIDIA 還將繼續增強 TensorRT-LLM 軟件,通過現有 GPU 為用戶提供更多的 LLM 推理性能。僅通過軟件改進,與上一輪的預覽提交相比,Llama 2 70B 在 H200 上的性能提升高達 14%。
MLPerf Llama 2 自 v4.0 以來改進了 70B | 服務器 | 離線 |
H200 (700 W) | 1.14 倍 | 1.12 倍 |
H100 (700 W) | 1.05 倍 | 1.12 倍 |
MLPerf Inference v4.0 和 v4.1 已關閉,數據中心。檢索結果的網址為 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用八個 GPU 并檢索自以下條目:4.0-0062、4.0-0070、4.1-0043、4.1-0048、4.1-0050。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。所有權利保留。未經授權的使用嚴格禁止。有關更多信息,請參閱 www.mlcommons.org。
這輪的主要改進包括 XQA 內核優化以及其他層融合。
此外,NVIDIA 還提交了使用 H200 GPU(使用定制散熱解決方案)并將熱設計功耗(TDP)提高到 1,000 瓦的 Llama 2 70B 結果。與配置為 700 瓦 TDP 的 H200 相比,在 Llama 2 70B 基準測試中,性能最高可提升 12%。
在這一輪中,NVIDIA 還使用運行 Triton Inference Server 的 H200 GPU 提交了 Llama 2 70B 結果,提供與 bare metal 提交相似的性能。在服務器場景中,配備 Triton Inference Server 的 H200 甚至在沒有 Triton Inference Server的情況下優于 H200。
MLPerf Llama 2 70B 基準測試 | 服務器 | 離線 |
配備 Triton 推理服務器的 8 H200 | 30128 | 31059 |
8 不使用 Triton 推理服務器的 H200 | 29228 | 31303 |
MLPerf Inference v4.1 關閉,數據中心。檢索結果的網址為 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用八個 GPU 并檢索自以下條目:4.1-0048、4.1-0050。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。保留所有權利。未經授權使用嚴禁。有關更多信息,請參閱 www.mlcommons.org。
這表明,在使用 Triton 推理服務器時,希望部署熱門模型的組織不需要以性能交換功能。
最后,NVIDIA 使用單個 H200 GPU 提交了 Llama 2 70B 公開分區結果,展示了更廣泛的模型級優化可能帶來的性能提升。
首先,對模型應用深度剪枝和寬度剪枝,通過智能刪除對整體模型輸出不太重要的層和中間維度,大幅減少模型中的參數總數。
然后,為了恢復準確性,我們使用 MLPerf OpenORCA 開發數據集對模型執行了微調。最終剪枝模型具有 32 層和 14,336 MLP 中間維度,與原始模型的 80 層和 28,672 中間維度相比,這是一個顯著的縮減。
雖然模型精度略低于 99% 的值,但模型明顯較小,可實現更高的吞吐量(離線),達到 11,189 token/s,或幾乎是封閉分區吞吐量的 3 倍。
MLPerf Inference v4.1,Data Center,Open Division。結果源自條目 4.1-0089。MLPerf 名稱和徽標為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。所有權利保留。未經授權使用嚴禁。有關更多信息,請參閱 www.mlcommons.org。
Mixtral 8x7B
在這一輪中,基于 Mistral AI 開發的 Mixtral 8x7B 模型添加了新的 LLM 工作負載。Mixtral 8x7B 采用由 8 名專家組成的稀疏專家混合(MoE)架構,總參數為 46.7 億,每個令牌使用 2 名專家和 12.9 億個參數。
NVIDIA 使用 H100 和 H200 GPU,運行 TensorRT-LLM 軟件,并廣泛使用 FP8 精度,提交了 Mixtral 8x7B 結果。
MLPerf Mixtral 8x7B 基準測試 | 服務器 令牌/秒 |
離線 令牌/秒 |
8 H200 | 57177 | 59022 |
8 塊 H100 | 50796 | 52416 |
H200 優勢 | 1.13 倍 | 1.13 倍 |
MLPerf Inference v4.1 關閉,數據中心。檢索結果的網址為 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用 8 個 GPU 并檢索自以下條目:4.1-0043、4.1-0048。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。保留所有權利。嚴禁未經授權使用。有關更多信息,請參閱 www.mlcommons.org。
只有使用 NVIDIA GPU 的系統提交了 Mixtral 8x7B 的結果。隨著工作負載添加到 MLPerf 基準套件,NVIDIA 繼續提交出色的結果,這表明 NVIDIA 平臺為龐大且不斷擴展的 AI 模型領域提供高性能和出色的通用性。
Stable Diffusion XL
這輪,H200 性能得到提升,每秒生成兩張圖像,與上一輪相比,Stable Diffusion XL 的性能提升了 27%。這代表了基準測試的新紀錄
MLPerf Stable Diffusion XL improvements since v4.0 | 服務器 | 離線 |
8 H200 (700 W) | 1.22 倍 | 1.27 倍 |
8 H100 (700 W) | 1.17 倍 | 1.25 倍 |
MLPerf Inference v4.0 和 v4.1 已關閉,數據中心。結果檢索自 www.mlperf.org,日期為 2024 年 8 月 28 日。所有結果均使用八個 GPU 并檢索自以下條目:4.0-0062、4.0-0070、4.1-0043、4.1-0048。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊和未注冊商標。保留所有權利。未經授權的使用嚴格禁止。有關更多信息,請參閱 www.mlcommons.org。
這些提升主要歸功于 NVIDIA 軟件堆棧的幾項關鍵優化,包括
- UNet FP8 支持:通過使用 TensorRT 模型優化器,NVIDIA 本次提交的結果在滿足精度要求的同時使用了 FP8 精度。這在 Hopper GPU 上的全面性能提升中占據了最大部分。
- NVIDIA 提交的 VAE INT8 支持:與上一輪中使用的 FP32 相比,本輪結果能夠量化某些層的 INT8 和其他層的 FP16。這將 VAE 性能提高了 70%,轉化為大約 4% 的端到端加速。
變分自編碼器 (VAE) 批量分割:SDXL 流程的 VAE 部分需要非常大的內存占用空間。通過采用批量分割,NVIDIA 本次提交的數據能夠將批量大小從 8 增加到 64,從而提高性能。

此外,NVIDIA 還在開放除法提交中提交了 SDXL 結果,該結果將這些優化與潛在一致性模型(Latent Consistency Model,LCM)相結合,將 H200 上的封閉除法離線吞吐量提高了近 5 倍,達到 11 個樣本/秒。這展示了通過對擴散模型進行更廣泛的模型級優化而進一步提升的性能。
Jetson AGX Orin 上的生成式 AI 的巨大飛躍
Jetson AGX Orin 提供邊緣生成式 AI 高的 AI 計算性能、大容量統一顯存和綜合軟件。
通過廣泛的軟件優化,NVIDIA Jetson AGX Orin 64 GB 為邊緣的生成式 AI 模型實現了巨大飛躍,在 GPT-J 6B 參數 LLM 基準測試中,吞吐量提高了 6.2 倍,延遲提高了 2.4 倍。邊緣的生成式 AI 模型可以將圖像和視頻等傳感器數據轉換為具有強大上下文感知能力的實時可行見解。
Jetson AGX Orin 由 NVIDIA 軟件堆棧提供支持,具有獨特的市場定位,是運行 transformer 模型(例如 GPT-J、視覺 transformer 和 Stable Diffusion at the Edge)的領先平臺。開發者可以利用 Jetson 生成式 AI 實驗室和 Jetson 平臺服務等其他平臺服務,提供出色的解決方案。
GPT-J (邊緣) | 單流延遲 (毫秒) | 離線令牌/秒 |
Jetson AGX Orin 64 GB v4.1 | 4176 | 64.47 |
Jetson AGX Orin 64 GB v4.0 | 10132 | 10.35 |
MLPerf Inference v4.0 和 v4.1 已關閉,Edge。結果檢索自 2024 年 8 月 28 日 www.mlperf.org上的結果。所有結果均使用八個 GPU 并檢索自以下條目:4.0-0072、4.1-0051。MLPerf 名稱和徽標均為 MLCommons Association 在美國和其他國家地區的注冊商標和未注冊商標。所有權利保留。未經授權的使用嚴格禁止。有關更多信息,請參閱 www.mlcommons.org。
通過對 TensorRT-LLM 進行多次軟件優化(包括使用動態批處理以及應用 INT4 激活感知權重量化(AWQ)),這種性能提升成為可能。AWQ 在更高精度的 FP16 中保留 1% 的“顯著權重”,并將剩余權重量化為 4 位整數(INT4)精度。這種技術顯著減少了內存占用,支持一次處理更大的批量,從而大幅提高了推理吞吐量。
NVIDIA 也提交了在 Open Division 中運行在 Jetson AGX Orin 上的要求嚴苛的 Llama 2 70B 模型的結果,展示了更廣泛的模型優化技術的可能性。提交的模型與 H200 提交中的 16B 深度和寬度剪枝模型相同。本次提交中還使用了 INT4 AWQ(用于 Jetson AGX Orin 的 GPT-J 提交中的封閉部分)。模型參數剪枝和 INT4 量化相結合,大大縮小了 Llama 2 70B 模型的模型權重內存占用空間,僅約 8 GB。
結束語
在其首次提交的作品中,NVIDIA Blackwell 提供了出色的性能,相較于在 Llama 2 70B 上使用 H100,性能提升高達 4 倍。此外,在可用的解決方案中,Hopper GPU 在所有工作負載中提供了更高的多 GPU 生成式 AI 性能和每個加速器的最高性能,并繼續從持續的軟件優化中受益。NVIDIA Triton 推理服務器這一輪也取得了出色的成績,提供了與裸機提交作品相似的性能。對于邊緣和嵌入式 AI,Jetson AGX Orin 和豐富的 NVIDIA 軟件堆棧支持運行 GPT-J 6B 等適用模型,僅在一輪中性能就提升高達 6.2 倍。
NVIDIA 在整個技術棧中繼續快速創新,從大型 AI 工廠到緊湊、低功耗的邊緣設備,為當前和未來的模型提供出色的推理性能。
致謝
許多 NVIDIA 員工的努力取得了這些出色的成果。我們要感謝 Chen-Han Yu、Kai Xu、Justin Xin、Asma Kuriparambil Thekkumpate、Linnan Wang、Wei-Ming Chen、Kaiyu Xie、Shobhit Verma、Viraat Chandra 等人的不懈努力。
?