• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    對話式人工智能

    Llama 3.2 加速部署從邊緣到云端實現提速

    擴展開源 Meta Llama 模型集合,Llama 3.2 集合包括視覺語言模型(VLM)、小語言模型(SLM)和更新版的 Llama Guard 模型,后者支持視覺功能。當與 NVIDIA 加速計算平臺配對使用時,Llama 3.2 為開發者、研究人員和企業提供了寶貴的新功能和優化,以實現其生成式 AI 應用案例。

    NVIDIA H100 Tensor Core GPU 上訓練的 SLM,尺寸為 1B 和 3B 的 SLM 非常適合部署在邊緣設備上的基于 Llama 的 AI 助手。尺寸為 11B 和 90B 的 VLM 支持文本和圖像輸入以及輸出文本。VLM 提供多模態支持,可幫助開發者構建需要視覺接地、推理和理解的強大應用程序。例如,他們可以構建用于圖像字幕、圖像文本檢索、視覺問答和文檔問答等的 AI 代理。Llama Guard 模型現在除了支持文本輸入之外,還支持圖像輸入護欄。

    Llama 3.2 模型架構是一種自動回歸語言模型,該模型使用經過優化的 Transformer 架構。指令調優版本使用監督微調 (SFT) 和人工反饋強化學習 (RLHF),以與人類偏好保持一致,以獲得有用性和安全性。所有模型都支持 128K 個令牌的長上下文長度,并針對推理進行了優化,支持分組查詢注意力 (GQA)。

    NVIDIA 正在優化 Llama 3.2 模型集合,以便為全球數百萬個 GPU(從數據中心到使用 NVIDIA RTX 的本地工作站,以及使用 NVIDIA Jetson 的邊緣)提供高吞吐量和低延遲。本文介紹了硬件和軟件優化、定制和易于部署的功能。

    使用 NVIDIA TensorRT 加速 Llama 3.2 性能

    NVIDIA 正在加速 Llama 3.2 模型收集,以降低成本和延遲,同時提供出色的吞吐量并提供最佳的最終用戶體驗。 NVIDIA TensorRT 包括 TensorRT 和 TensorRT-LLM 庫,用于高性能的深度學習推理。

    Llama 3.2 1B 和 Llama 3.2 3B 模型正在使用 縮放旋轉位置嵌入(RoPE) 技術和 其他幾項優化 (包括 KV 緩存和動態批處理)在 TensorRT-LLM 中加速長上下文支持。

    Llama 3.2 11B 和 Llama 3.2 90B 模型是多模態模型,包括帶有文本解碼器的視覺編碼器。視覺編碼器通過將模型導出到 ONNX 圖形 并構建 TensorRT 引擎 來加速。ONNX 導出使用內置運算符和標準數據類型創建標準模型定義,并專注于推理。TensorRT 使用 ONNX 圖形通過構建 TensorRT 引擎來優化目標 GPU 的模型。這些引擎提供各種硬件級優化,通過層和張量融合以及內核自動調整來最大限度地提高 NVIDIA GPU 的利用率。

    來自視覺編碼器的視覺信息通過 TensorRT-LLM 中的交叉注意力機制融合到 Llama 文本解碼器中。這使得 VLM 能夠高效地生成文本,考慮到文本輸入的上下文中的視覺推理和理解。

    使用 NVIDIA NIM 輕松部署生成式 AI 解決方案。

    通過使用 NVIDIA NIM 微服務的生產就緒型部署,可以實現 TensorRT 優化。NIM 微服務可加快生成式 AI 模型在 NVIDIA 加速基礎設施(包括云、數據中心和工作站)中的部署。

    Llama 3.2 90B Vision Instruct Llama 3.2 11B Vision Instruct Llama 3.2 3B Instruct Llama 3.2 1B Instruct 通過 NVIDIA NIM 微服務為生產部署提供支持。NIM 可簡化生成式 AI 工作負載的管理和編排,提供標準應用編程接口(API),并通過生產就緒型容器提供企業支持。全球超過 175 家合作伙伴將其解決方案集成到 NVIDIA NIM 微服務中,從而提供強大且不斷增長的生態系統支持,幫助開發人員、研究人員和企業最大限度地提高生成式 AI 應用的投資回報。

    使用 NVIDIA AI Foundry 和 NVIDIA NeMo 自定義和評估 Llama 3.2 模型

    NVIDIA AI Foundry 為 Llama 3.2 模型定制提供了一個端到端的平臺,可訪問先進的 AI 工具、計算資源和 AI 專家知識。根據專有數據進行微調的自定義模型使企業能夠在特定領域的任務中實現更高的性能和準確性,從而獲得競爭優勢。

    借助 NVIDIA NeMo ,開發者可以整理其訓練數據,利用 LoRA、SFT、DPO 和 RLHF 等高級調整技術來定制 Llama 3.2 模型,評估準確性,并添加護欄以確保模型做出適當響應。AI Foundry 為 NVIDIA DGX Cloud 提供專用容量,并由 NVIDIA AI 專家提供支持。輸出是一個自定義的 Llama 3.2 模型,打包為 NVIDIA NIM 推理微服務,可部署在任何地方。

    使用 NVIDIA RTX 和 NVIDIA Jetson 擴展本地推理

    如今, Llama 3.2 模型 已在全球超過 1 億臺 NVIDIA RTX PC 和工作站上進行優化。對于 Windows 部署,NVIDIA 已優化此套模型,以便使用 ONNX-GenAI 運行時和 DirectML 后端高效工作。開始使用 NVIDIA RTX 上的 Llama 3.2 3B 模型。

    新的 VLM 和 SLM 模型為 NVIDIA RTX 系統解鎖了新功能。為了演示,我們創建了一個 多模態檢索增強生成(RAG) 工作流示例,該工作流將文本和視覺數據處理(例如圖像、圖形和圖表)相結合,以增強信息檢索和生成。

    了解如何在使用 Llama 3.2 SLM 和 VLM 的 NVIDIA RTX Linux 系統上運行此工作流 。請注意,您需要配備 NVIDIA RTX 專業 GPU 且內存超過 30 GB 的 Linux 工作站。

    SLMs 是專為邊緣設備本地部署而設計的,使用蒸餾、剪枝和量化等技術來降低內存、延遲和計算需求,同時保持專注于應用領域的準確性。如需在 Jetson 上下載并部署 Llama 3.2 1B 和 3B SLM 以及優化的 GPU 推理和 INT4/FP8 量化,請參閱 NVIDIA Jetson AI 實驗室的 SLM 教程

    多模態模型在視頻分析和機器人開發中具有獨特的視覺功能,因此在邊緣應用中的用途越來越大。 嵌入式 Jetson AGX Orin 64 GB 支持 Llama 3.2 11B VLM

    推進社區 AI 模型發展?

    作為積極的開源貢獻者,NVIDIA 致力于優化社區軟件,以幫助用戶解決棘手的挑戰。開源 AI 模型還提高了透明度,并使用戶能夠廣泛分享 AI 安全性和彈性的工作成果。

    借助 Hugging Face 的推理即服務功能 ,開發者可以通過在 NVIDIA DGX 云 上運行的 NVIDIA NIM 微服務進行優化,快速部署領先的 大語言模型 (LLMs),例如 Llama 3 集合。

    通過 NVIDIA 開發者計劃 免費獲取 NIM,用于研究、開發和測試。

    進一步探索 NVIDIA AI 推理平臺,了解 NVIDIA NIM NVIDIA TensorRT -LLM 、NVIDIA TensorRT 和 NVIDIA Triton 如何使用 LoRA 等先進技術來加速最新的 LLM。

    ?

    +1

    標簽

    人人超碰97caoporen国产