NVIDIA 、 Arm 和 Intel 發布 FP8 標準化規范作為 AI 的交換格式

人工智能處理需要跨硬件和軟件平臺的全棧創新，以滿足神經網絡日益增長的計算需求。提高效率的一個關鍵領域是使用較低精度的數字格式來提高計算效率，減少內存使用，并優化互連帶寬。

為了實現這些好處，業界已經從 32 位精度轉換為 16 位，現在甚至是 8 位精度格式。 transformer 網絡是人工智能中最重要的創新之一，尤其受益于 8 位浮點精度。我們相信，擁有一種通用的交換格式將使硬件和軟件平臺的快速發展和互操作性得以提高，從而推動計算。

NVIDIA 、 Arm 和 Intel 聯合撰寫了一份白皮書 FP8 Formats for Deep Learning ，描述了 8 位浮點（ FP8 ）規范。它提供了一種通用的格式，通過優化內存使用來加速人工智能的開發，并適用于人工智能訓練和推理。此 FP8 規格有兩種變體， E5M2 和 E4M3 。

該格式在 NVIDIA 料斗體系結構中本地實現，并在初始測試中顯示出出色的結果。它將立即受益于更廣泛的生態系統所做的工作，包括 AI 框架，為開發者實現它。

兼容性和靈活性

FP8 通過硬件和軟件之間的良好平衡，最大限度地減少了與現有 IEEE 754 浮點格式的偏差，以利用現有實現，加快采用速度，并提高開發人員的生產力。

E5M2 使用五位表示指數，兩位表示尾數，是一種截斷的 IEEE FP16 格式。在需要更高精度而犧牲某些數值范圍的情況下， E4M3 格式進行了一些調整，以擴展用四位指數和三位尾數表示的范圍。

新格式節省了額外的計算周期，因為它只使用 8 位。它可以用于人工智能訓練和推理，而不需要在精度之間進行任何重鑄。此外，通過最小化與現有浮點格式的偏差，它為未來 AI 創新提供了最大的自由度，同時仍堅持當前的慣例。

高精度訓練和推理

測試提議的 FP8 格式顯示，在廣泛的用例、架構和網絡中，其精度相當于 16 位精度。變壓器、計算機視覺和 GAN 網絡的結果都表明， FP8 訓練精度與 16 位精度相似，但可以顯著提高速度。有關精度研究的更多信息，請參閱 FP8 Formats for Deep Learning 白皮書。

Chart shows the accuracy performance of AI training of language models using 16-bit and FP8 formats. Several network types (Transformer, BERT, and GPT) and multiple networks are tested in each type. The accuracy metrics that are used are PPL and Loss to evaluate performance. The results show that the accuracy of the networks is comparable using either 16-bit or FP8 training. — *圖 1.語言模型人工智能培訓*

在圖 1 中，不同的網絡使用不同的精度度量（ PPL 和 Loss ），如圖所示。

Chart shows the accuracy performance of AI Inference of language models using 16-bit and 8-bit formats. BERT Base and BERT Large are tested. The accuracy metric used to evaluate performance is F1. The results show that the accuracy of the networks is comparable using either 16-bit floating point or FP8 inference, and both outperform INT-8. — *圖 2.語言模型 AI 推理*

在人工智能行業領先的基準 MLPerf Inference v2.1 中， NVIDIA Hopper 利用這種新的 FP8 格式在 BERT 高精度模型上實現了 4.5 倍的加速，在不影響精度的情況下獲得了吞吐量。

走向標準化

NVIDIA 、 Arm 和 Intel 以開放、無許可證的格式發布了此規范，以鼓勵行業廣泛采用。他們還將向 IEEE 提交該提案。

通過采用一種保持準確性的可互換格式，人工智能模型將在所有硬件平臺上持續高效地運行，并有助于推動人工智能的發展。

鼓勵標準機構和整個行業建立能夠有效采用新標準的平臺。這將通過提供通用的、可互換的精度，幫助加速 AI 的開發和部署。

NVIDIA 、 Arm 和 Intel 發布 FP8 標準化規范作為 AI 的交換格式

兼容性和靈活性

高精度訓練和推理

走向標準化

相關資源

標簽

關于作者

NVIDIA 、 Arm 和 Intel 發布 FP8 標準化規范作為 AI 的交換格式

兼容性和靈活性

高精度訓練和推理

走向標準化

相關資源

標簽

關于作者

相關文章

NVIDIA Blackwell 上的 OpenAI Triton 提升 AI 性能和可編程性

全棧創新為 NVIDIA 最高 MLPerf 推斷 2.1 結果提供燃料

相關文章

AI 模型為環保人士提供大規模保護漁業和野生動物的新工具

使用 DeepSeek-R1 NIM 構建具有專家推理功能的 AI 智能體

在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展

在 NVIDIA 視頻編解碼器 SDK 13.0 中使用 MV-HEVC 啟用立體和 3D 視圖

NVIDIA GTC 2025 上的人工智能促進氣候、能源和生態系統復原力