Anu Srivastava – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 26 Mar 2025 06:37:25 +0000
zh-CN
hourly
1
196178272 -
輕量級、多模態、多語種 Gemma 3 模型實現性能優化
http://www.open-lab.net/zh-cn/blog/lightweight-multimodal-multilingual-gemma-3-models-are-streamlined-for-performance/
Wed, 12 Mar 2025 06:34:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=13351
Continued]]>
使用基礎模型構建 AI 系統需要在內存、延遲、存儲、計算等資源之間實現微妙的平衡。在將生成式 AI 功能引入快速發展的 AI 應用生態系統時,管理成本和用戶體驗的開發者無法做到一刀切。 您需要高質量、可定制的模型選項,以便支持在數據中心、邊緣計算和設備端用例等不同計算環境中托管和部署的大規模服務,例如使用 GPU、DPU 和 Jetson 等硬件加速。 Google DeepMind 剛剛宣布推出 Gemma 3,這是一系列新的多模態和多語言開放模型。Gemma 3 由一個 1B 純文本小語言模型 (SLM) 和三個大小為 4B、12B 和 27B 的圖像文本模型組成。您可以使用 Hugging Face 中的模型,并在 NVIDIA API Catalog 中演示 1B 模型。 Gemma 3 1B 模型經過優化,可在需要低內存占用的設備應用程序或環境中高效運行,
Source
]]>
13351
-
在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展
http://www.open-lab.net/zh-cn/blog/latest-multimodal-addition-to-microsoft-phi-slms-trained-on-nvidia-gpus/
Wed, 26 Feb 2025 06:19:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=13020
Continued]]>
大語言模型(LLMs)已滲透到各行各業,并改變了技術潛力。但是,由于規模龐大,它們對于許多公司目前面臨的資源限制來說并不切實際。 小語言模型 (SLMs)的興起通過創建資源占用更小的模型,將質量和成本聯系起來。SLMs 是語言模型的一個子集,這些模型傾向于專注于特定領域,并使用更簡單的神經架構構建。隨著模型的發展模仿人類感知周圍環境的方式,模型必須接受多種形式的多模態數據。 Microsoft 宣布在 Phi 系列中推出新一代開放式 SLM,并新增兩項功能: Phi-4-multimodal 是第一個加入該系列的多模態模型,接受文本、音頻和圖像數據輸入。 這些模型足夠小,可以在設備上部署。此版本基于 2024 年 12 月發布的 Phi-4 14B 參數 SLM 的研究版本構建而成,可用于兩個新的較小模型的商業用途。
Source
]]>
13020
-
借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍
http://www.open-lab.net/zh-cn/blog/boost-llama-3-3-70b-inference-throughput-3x-with-nvidia-tensorrt-llm-speculative-decoding/
Tue, 17 Dec 2024 04:36:12 +0000
http://www.open-lab.net/zh-cn/blog/?p=12513
Continued]]>
隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。Llama 3.3 相對于較舊的 Llama 3.1 70B 模型提供了增強的性能,甚至可以在數學、推理、編碼和多語種支持等多項任務中匹配更大、計算成本更高的 Llama 3.1 405B 模型的功能。 NVIDIA TensorRT-LLM 是一款功能強大的推理引擎,可在最新的 LLM 上提供先進的性能,并整合了許多優化措施,可提供出色的 Llama 3.3 70B 推理吞吐量。其中包括在飛批處理、 KV 緩存 、 自定義 FP8 量化 、推測解碼等,可實現快速、經濟高效的 LLM 服務。 動態批處理默認作為運行時配置參數激活,TensorRT-LLM 支持同時批處理多個不同的請求,從而提高服務吞吐量。通過在上下文和生成階段交錯處理請求,
Source
]]>
12513
人人超碰97caoporen国产