Project Mellon 是一個輕量級的 Python 軟件包,能夠利用語音人工智能的重量級力量 (NVIDIA Riva) 和大型語言模型( LLM ) (NVIDIA NeMo 服務) 以簡化沉浸式環境中的用戶交互。 NVIDIA 在環境影響評估 GTC 2023開發人員可以開始測試 Project Mellon ,探索創建由自然語言語音命令控制的免提擴展現實( XR )體驗。
正如 J · R · R ·托爾金( J.R.R.Tolkien )的《守護杜林之門》( Doors of Durin )(“說朋友的話,然后進入”)所提醒的那樣,文字可以移山倒海。梅隆計劃背后的基本理念是,可以以一種實用的方式利用語音人工智能和 LLM 的力量來打開大門,并在虛擬世界中做更多的事情
在 XR 中,用戶界面可能復雜且難以使用,破壞了自然沉浸感,這是虛擬、混合和增強現實的本質。梅隆項目使幾乎任何應用程序的開發人員,無論是在 XR 還是平板屏幕世界,都可以輕松地將自然語言理解添加到他們的軟件中,作為一種新型的以人為中心的免提用戶界面。
梅隆項目平臺由以下部分組成:
- 梅隆項目 SDK
- 環境變量 Riva ( ASR 、 TTS 、 NMT )
- NeMo 服務(也支持其他 LLM )
Project Mellon 1.0 中的主要發布功能包括:
- 輕量級,易于集成 Python 庫
- LLM 支持自然語言理解的準確性
- 無需特定命令訓練的零樣本語言模型
- 具有對話和視覺上下文的自然語言命令支持
- 支持詢問有關命令和場景的問題,并提供自然語言回答
- 用于理解和執行命令的簡單 Python API
- 基于 Web 的測試應用程序
- ASR 、 TTS 、 LLM 和神經機器翻譯( NMT )可以在本地或遠程托管,具有較低的延遲響應時間
在〔ZGK3〕2023加入ESI集團在虛擬現實中與人工智能合作:沉浸式數字助理了解他們對動態協作 XR 環境中的團隊如何從對話 AI 的使用中受益的研究
ESI 集團解決方案和技術專家 Jan Wurster 表示:“我們發現,將對話式人工智能與 NVIDIA Project Mellon 集成,可以降低協作 XR 技術的入門門檻,并使 IC.IDO Weave 中的用戶體驗人性化。”。“通過使用自然語音作為輸入,我們的虛擬人工智能助手可以幫助團隊完成復習任務、查詢可用情況或發現問題,所有這些都只需用自然語言提問,而無需記住特定命令。”
開發人員今天就可以開始使用 Project Mellon 了。觀看梅隆項目演示,了解如何進行設計審查、進行實時配置更改、控制機器人以及操縱相機和場景元素,所有這些都是由自然語音命令驅動的。
視頻 1 。了解如何開始使用 Project Mellon 進行開發
人工智能正在改變我們與工作和工具互動的方式。通過語音人工智能和梅隆項目,開發人員可以簡化用戶體驗并使其人性化。不再需要培訓用戶如何操作虛擬現實( VR )中的每一項功能。你可以跳到虛擬現實應用程序中,用自己的話來控制體驗。