Yan Chang – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 25 Sep 2024 07:19:23 +0000 zh-CN hourly 1 196178272 借助 ReMEmbR,生成式 AI 賦予機器人推理和行動能力 http://www.open-lab.net/zh-cn/blog/using-generative-ai-to-enable-robots-to-reason-and-act-with-remembr/ Mon, 23 Sep 2024 07:14:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=11362 Continued]]> 視覺語言模型 (VLM)通過將文本和圖像投影到同一嵌入空間,將基礎 LLM 的強大語言理解能力與 視覺 Transformer (ViT)的視覺功能相結合。它們可以獲取非結構化多模態數據并對其進行推理,然后以結構化格式返回輸出。這些模型基于廣泛的預訓練基礎構建,可以通過提供新提示或參數高效微調輕松適應不同的視覺相關任務。 它們還可以與實時數據源和工具集成,以便在不知道答案時請求獲取更多信息,或在知道答案時采取行動。LLMs 和 VLMs 可以充當代理,對數據進行推理,幫助機器人執行可能難以定義的有意義任務。 在之前的文章“ 使用 NVIDIA Jetson 實現生成式 AI ”中,我們展示了您可以在 NVIDIA Jetson Orin 設備上運行 LLM 和 VLM,從而實現各種新功能,例如零樣本物體檢測、視頻字幕和在邊緣設備上生成文本。 但是,

Source

]]>
11362
人人超碰97caoporen国产