NVIDIA 、 Arm 和 Intel 發布 FP8 標準化規范作為 AI 的交換格式

Wed, 14 Sep 2022 05:05:00 +0000

人工智能處理需要跨硬件和軟件平臺的全棧創新，以滿足神經網絡日益增長的計算需求。提高效率的一個關鍵領域是使用較低精度的數字格式來提高計算效率，減少內存使用，并優化互連帶寬。為了實現這些好處，業界已經從 32 位精度轉換為 16 位，現在甚至是 8 位精度格式。 transformer 網絡是人工智能中最重要的創新之一，尤其受益于 8 位浮點精度。我們相信，擁有一種通用的交換格式將使硬件和軟件平臺的快速發展和互操作性得以提高，從而推動計算。 NVIDIA 、 Arm 和 Intel 聯合撰寫了一份白皮書 FP8 Formats for Deep Learning ，描述了 8 位浮點（ FP8 ）規范。它提供了一種通用的格式，通過優化內存使用來加速人工智能的開發，并適用于人工智能訓練和推理。此 FP8 規格有兩種變體， E5M2 和 E4M3 。

Source

]]>

floating point – NVIDIA 技術博客

NVIDIA 、 Arm 和 Intel 發布 FP8 標準化規范作為 AI 的交換格式