視覺語言智能與 Edge AI 2.0

Fri, 03 May 2024 07:12:18 +0000

VILA 是 NVIDIA Research 和麻省理工學院共同開發的一系列高性能視覺語言模型。這些模型的參數規模從 ~3B 到 ~40B 不等。值得注意的是，VILA 是完全開源的，包括模型檢查點、訓練代碼和訓練數據。在這篇文章中，我們描述了 VILA 在交付邊緣 AI 2.0 時如何與其他模型進行比較。邊緣人工智能的初始版本涉及將壓縮的人工智能模型部署到邊緣設備上。這個階段被稱為 Edge AI 1.0，專注于特定任務的模型。這種方法的挑戰在于需要用不同的數據集訓練不同的模型，在這些數據集中，負樣本很難收集，異常情況也很難處理。這一過程非常耗時，凸顯了對適應性更強、通用性更強的人工智能解決方案的需求。 Edge AI 2.0 標志著由基礎視覺語言模型（VLM）推動的向增強泛化的轉變。像 VILA 這樣的 VLM 表現出令人難以置信的多功能性，

Source

]]>

Shang Yang – NVIDIA 技術博客

視覺語言智能與 Edge AI 2.0