Ji Lin – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 09 May 2024 08:43:48 +0000 zh-CN hourly 1 196178272 基于 VILA 的 NVIDIA 硬件可視化語言模型 http://www.open-lab.net/zh-cn/blog/visual-language-models-on-nvidia-hardware-with-vila/ Fri, 03 May 2024 08:38:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=9880 Continued]]> 視覺語言模型最近有了顯著的發展。然而,現有技術通常僅支持一個圖像。他們無法在多個圖像之間進行推理、支持上下文學習或理解視頻。此外,它們不會優化推理速度。 我們開發了 VILA,一個具有整體預訓練、指令調整和部署管道的可視化語言模型,以幫助我們的 NVIDIA 客戶在其多模式產品中取得成功。VILA 在圖像 QA 基準和視頻 QA 基準上都實現了 state-of-the-art(SOTA)性能,具有強大的多圖像推理能力和上下文學習能力。此外,它還針對速度進行了優化。 與其他 VLM 相比,它使用了 1/4 的令牌,并在不損失精度的情況下使用 4 位 AWQ 進行量化。VILA 有多種尺寸,從支持最高性能的 40B 到可部署在 NVIDIA Jetson Orin 等邊緣設備上的 3.5B 不等。 我們設計了一個高效的訓練管道,僅用兩天時間就在 128 NVIDIA A100…

Source

]]>
9880
視覺語言智能與 Edge AI 2.0 http://www.open-lab.net/zh-cn/blog/visual-language-intelligence-and-edge-ai-2-0/ Fri, 03 May 2024 07:12:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=9874 Continued]]> VILA 是 NVIDIA Research 和麻省理工學院共同開發的一系列高性能視覺語言模型。這些模型的參數規模從 ~3B 到 ~40B 不等。值得注意的是,VILA 是完全開源的,包括模型檢查點、訓練代碼和訓練數據。 在這篇文章中,我們描述了 VILA 在交付邊緣 AI 2.0 時如何與其他模型進行比較。 邊緣人工智能的初始版本涉及將壓縮的人工智能模型部署到邊緣設備上。這個階段被稱為 Edge AI 1.0,專注于特定任務的模型。這種方法的挑戰在于需要用不同的數據集訓練不同的模型,在這些數據集中,負樣本很難收集,異常情況也很難處理。這一過程非常耗時,凸顯了對適應性更強、通用性更強的人工智能解決方案的需求。 Edge AI 2.0 標志著由基礎視覺語言模型(VLM)推動的向增強泛化的轉變。 像 VILA 這樣的 VLM 表現出令人難以置信的多功能性,

Source

]]>
9874
人人超碰97caoporen国产