• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • AI 平臺/部署

    提升 AI 性能的 GPU 內存基礎知識

    生成式 AI 徹底改變了人們將想法變為現實的方式,而代理 AI 代表著這一技術變革的下一次飛躍。通過利用復雜的自主推理和迭代規劃,AI 智能體可以非常高效地處理復雜的多步驟問題。

    隨著 AI 不斷革新各行各業,對在本地運行 AI 模型的需求激增。無論是開發 AI 還是使用 AI,在本地運行 AI 模型都具有許多優勢,包括增強隱私、降低延遲以及離線工作的能力。

    本地 AI 正在改變組織的 AI 開發和部署方式。通過在本地處理數據,開發者能夠繼續進行 AI 實驗和原型設計,而無需付出持續使用云的代價。本地 AI 成為創新和原型的測試平臺,可實現快速迭代和想法測試。與此同時,云基礎架構和數據中心可處理更密集的工作負載和大規模部署。

    在本地運行 AI 模型還可滿足某些行業特定用例的獨特需求。在醫療健康領域,它可以實現安全的患者數據分析和快速診斷。金融機構利用該平臺進行實時欺詐檢測和風險評估。制造商可從即時質量控制和預測性維護中獲益。

    為了更好地利用這些優勢,用戶需要確保其硬件 (尤其是 GPU) 能夠勝任相應任務。此時,GPU 內存大小將成為一個關鍵考慮因素,因為它直接影響您可以在本地運行的模型的大小和復雜性。模型越大,所需的內存越多。

    AI 模型中的參數精度平衡

    要計算所需的 GPU 顯存大小,必須了解兩個關鍵概念:參數和精度。

    參數 是模型中用于確定其行為的學習值。將參數視為 AI 模型的知識。就像模型在學習過程中所做的無數細微調整一樣。例如,在語言模型中,參數有助于理解詞語和概念之間的關系。模型的參數越多,它可以理解的模式越復雜,但所需的內存也越多。

    精度是指在內存中存儲這些參數時保留的細節級別。這就像在常規尺子和超精度科學儀器之間進行選擇。更高的精度 (例如 32 位或 FP32) 就像使用卡尺或千分尺。它可以提供更精確的測量結果,但在寫下更多數字時,會占用更多空間。較低精度 (例如 16 位或 FP16) 等同于使用簡單的尺子。這可以節省空間,但可能會丟失一些微小的細節。

    模型所需的總顯存取決于它有多少參數,以及每個參數的存儲精確度。在參數數量和精度之間選擇適當的平衡至關重要,因為參數越多,模型就越智能,同時還需要更多內存。另一方面,精度降低可節省內存,但可能會略微降低模型的功能。

    適用于 AI 模型的 GPU 顯存?

    要估算所需的 GPU 顯存,請先查找參數數量。一種方法是 訪問 NVIDIA NGC 目錄 并查看型號名稱或型號顯卡。許多模型的名稱中都包含參數數量;例如,GPT-3 175B 表示有 175 億個參數。NGC 目錄還提供有關模型的詳細信息,包括 Model Architecture 或 Specifications 部分中的參數數量。

    接下來,為了確定預訓練模型的精度,您可以檢查模型卡,以獲取有關所使用數據格式的特定信息。FP32 (32 位浮點) 通常首選于訓練或在對最高精度至關重要時使用。它提供最高級別的數值精度,但需要更多的內存和計算資源。FP16 (16 位浮點) 可以在性能和準確性之間實現良好平衡,尤其是在搭載 Tensor Core NVIDIA RTX GPU 上。與 FP32 相比,它在保持較高準確性的同時,可將訓練和推理速度提升高達 2 倍。

    An infographic illustrating GPU memory requirements for different data formats. It shows that INT32/FP32 uses 4 bytes, INT16/FP16 uses 2 bytes, INT8/FP8 uses 1 byte, and INT4/FP4 uses 0.5 bytes, with an upward arrow emphasizing increased memory usage for larger formats.
    圖 1、為更大限度地提高 GPU 效率,與 FP32 等更大的數據格式相比,INT4 和 FP8 等更小的數據格式可減少顯存占用

    INT8 (8 位整數) 常用于在邊緣設備上進行推理,或優先考慮速度和效率。與 FP16 相比,它的顯存占用率可提升高達 4 倍,計算性能可提升 2 倍,非常適合在資源受限的環境中進行部署。

    FP4 (4 位浮點) 是一種新興精度格式,在 AI 應用中變得越來越普遍。這是朝著更高效的 AI 計算邁出的重要一步,可在保持合理準確性的同時大幅降低內存需求和計算需求。

    檢查模型的顯卡時,查找“precision”、“data format”或“quantization”等術語,以識別模型使用的格式。某些模型可能支持多種 precision 格式,或使用混合 precision 方法結合不同的格式來優化性能和準確性。

    通過將參數數量乘以每個參數的字節數 (FP32 為 4,FP16 為 2),然后將此數字翻倍以考慮優化器狀態和其他開銷,可以計算出所需 GPU 顯存的粗略估計值。例如,FP16 精度下的 70 億參數模型大約需要 28GB 的 GPU 顯存 (7 億 x 2 字節 x 2)。

    An infographic showing the memory requirements for the Llama 2 model with 7 billion parameters in FP16 format. The calculation is 7 billion parameters × 2 bytes × 2 overhead = 28 GB. The image highlights that a 48GB GPU is sufficient, while a 16 GB GPU cannot support it, with a green checkmark for the 48 GB GPU setup and a red cross for the 16 GB GPU setup.
    圖 2、在 FP16 中運行具有 7 億個參數的 Llama 2 至少需要 28 GB 的顯存,因此高容量 GPU 對于高級 AI 工作負載至關重要

    NVIDIA RTX GPU 可提供在本地運行模型所需的高性能。 NVIDIA RTX 6000 Ada Generation GPU 具有高達 48 GB 的 VRAM,可為大規模 AI 應用提供充足的顯存。此外,RTX GPU 配備專用的 Tensor Cores,可顯著加速 AI 計算,非常適合本地 AI 開發和部署。

    通過量化減少 AI 足跡

    對于希望在顯存受限的 GPU 上運行更大模型的開發者而言,量化技術可能是一種顛覆性技術。量化會降低模型參數的精度,顯著降低內存需求,同時保持模型的大部分準確性。 NVIDIA TensorRT-LLM 提供先進的量化方法,可將模型壓縮到 8-bit 甚至 4-bit 精度,從而能夠以更少的 GPU 顯存運行更大的模型。

    入門指南?

    隨著 AI 不斷滲透到我們的日常生活中,在功能強大的工作站上本地運行模型的能力變得越來越重要。您可以在 搭載 NVIDIA AI Workbench 的 NVIDIA RTX 助力的 AI 工作站 上開始使用, 將 NVIDIA NIM 微服務等 AI 功能引入桌面 ,在游戲、內容創作等領域發掘新的可能性。

    如需詳細了解如何將 RTX AI 工作站用于本地 AI 訓練和定制,請注冊參加 PNY 和 NVIDIA 的在線研討會“借助 NVIDIA AI 平臺和加速解決方案最大限度地提高 AI 訓練”。

    0

    標簽

    人人超碰97caoporen国产