借助 ReMEmbR，生成式 AI 賦予機器人推理和行動能力

Mon, 23 Sep 2024 07:14:58 +0000

視覺語言模型（VLM）通過將文本和圖像投影到同一嵌入空間，將基礎 LLM 的強大語言理解能力與視覺 Transformer （ViT）的視覺功能相結合。它們可以獲取非結構化多模態數據并對其進行推理，然后以結構化格式返回輸出。這些模型基于廣泛的預訓練基礎構建，可以通過提供新提示或參數高效微調輕松適應不同的視覺相關任務。它們還可以與實時數據源和工具集成，以便在不知道答案時請求獲取更多信息，或在知道答案時采取行動。LLMs 和 VLMs 可以充當代理，對數據進行推理，幫助機器人執行可能難以定義的有意義任務。在之前的文章“ 使用 NVIDIA Jetson 實現生成式 AI ”中，我們展示了您可以在 NVIDIA Jetson Orin 設備上運行 LLM 和 VLM，從而實現各種新功能，例如零樣本物體檢測、視頻字幕和在邊緣設備上生成文本。但是，

Source

]]>

Yan Chang – NVIDIA 技術博客

借助 ReMEmbR，生成式 AI 賦予機器人推理和行動能力