NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型

Sat, 05 Apr 2025 06:37:58 +0000

最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速，在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token，并可作為 NVIDIA NIM 微服務進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構，原生支持多模態和多語言。Llama 4 模型提供各種多模態功能，推動規模、速度和效率的提升，使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型，每個令牌活躍 17B，由 16 位專家組成，擁有 10M 上下文長度的窗口，并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例，包括多文檔摘要、解析大量用戶活動以執行個性化任務，以及對大量代碼庫進行推理。

Source

]]>

輕量級、多模態、多語種 Gemma 3 模型實現性能優化

Wed, 12 Mar 2025 06:34:32 +0000

使用基礎模型構建 AI 系統需要在內存、延遲、存儲、計算等資源之間實現微妙的平衡。在將生成式 AI 功能引入快速發展的 AI 應用生態系統時，管理成本和用戶體驗的開發者無法做到一刀切。您需要高質量、可定制的模型選項，以便支持在數據中心、邊緣計算和設備端用例等不同計算環境中托管和部署的大規模服務，例如使用 GPU、DPU 和 Jetson 等硬件加速。 Google DeepMind 剛剛宣布推出 Gemma 3，這是一系列新的多模態和多語言開放模型。Gemma 3 由一個 1B 純文本小語言模型 (SLM) 和三個大小為 4B、12B 和 27B 的圖像文本模型組成。您可以使用 Hugging Face 中的模型，并在 NVIDIA API Catalog 中演示 1B 模型。 Gemma 3 1B 模型經過優化，可在需要低內存占用的設備應用程序或環境中高效運行，

Source

]]>

Pre-Trained / Foundation Models – NVIDIA 技術博客

NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型

輕量級、多模態、多語種 Gemma 3 模型實現性能優化