Pre-Trained / Foundation Models – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 11 Apr 2025 06:40:37 +0000 zh-CN hourly 1 196178272 NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型 http://www.open-lab.net/zh-cn/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/ Sat, 05 Apr 2025 06:37:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13527 Continued]]> 最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速,在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token,并可作為 NVIDIA NIM 微服務 進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構,原生支持多模態和多語言。Llama 4 模型提供各種多模態功能,推動規模、速度和效率的提升,使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型,每個令牌活躍 17B,由 16 位專家組成,擁有 10M 上下文長度的窗口,并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例,包括多文檔摘要、解析大量用戶活動以執行個性化任務,以及對大量代碼庫進行推理。

Source

]]>
13527
輕量級、多模態、多語種 Gemma 3 模型實現性能優化 http://www.open-lab.net/zh-cn/blog/lightweight-multimodal-multilingual-gemma-3-models-are-streamlined-for-performance/ Wed, 12 Mar 2025 06:34:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=13351 Continued]]> 使用基礎模型構建 AI 系統需要在內存、延遲、存儲、計算等資源之間實現微妙的平衡。在將生成式 AI 功能引入快速發展的 AI 應用生態系統時,管理成本和用戶體驗的開發者無法做到一刀切。 您需要高質量、可定制的模型選項,以便支持在數據中心、邊緣計算和設備端用例等不同計算環境中托管和部署的大規模服務,例如使用 GPU、DPU 和 Jetson 等硬件加速。 Google DeepMind 剛剛宣布推出 Gemma 3,這是一系列新的多模態和多語言開放模型。Gemma 3 由一個 1B 純文本小語言模型 (SLM) 和三個大小為 4B、12B 和 27B 的圖像文本模型組成。您可以使用 Hugging Face 中的模型,并在 NVIDIA API Catalog 中演示 1B 模型。 Gemma 3 1B 模型經過優化,可在需要低內存占用的設備應用程序或環境中高效運行,

Source

]]>
13351
人人超碰97caoporen国产