Pranjali Joshi – NVIDIA 技術博客

NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步

Thu, 09 Jan 2025 08:43:45 +0000

隨著機器人和自動駕駛汽車的發展，加速物理 AI 的發展變得至關重要，而物理 AI 使自主機器能夠感知、理解并在現實世界中執行復雜的操作。這些系統的核心是世界基礎模型 (WFMs)，即通過物理感知視頻模擬物理狀態的 AI 模型，使機器能夠做出準確決策并與周圍環境無縫交互。 NVIDIA Cosmos 平臺可幫助開發者大規模為物理 AI 系統構建自定義世界模型。它為從數據管護、訓練到定制的每個開發階段提供開放世界基礎模型和工具。本文將介紹 Cosmos 及其加速物理 AI 開發的主要功能。Cosmos 是一種開源的 Python 庫，用于加速物理 AI 開發。構建物理 AI 極具挑戰性，需要精確的模擬以及真實世界的行為理解和預測。克服這些挑戰的一個關鍵工具是世界模型，該模型根據過去的觀察結果和當前的輸入結果預測未來的環境狀態。

Source

]]>

借助 NVIDIA NeMo 開發前沿的多模態生成式 AI 模型

Wed, 06 Nov 2024 03:41:07 +0000

生成式 AI 已從基于文本的模型迅速發展為多模態功能。這些模型執行圖像字幕和視覺問答等任務，反映了向更接近人類的 AI 的轉變。該社區目前正在從文本和圖像擴展到視頻，為各行各業帶來了新的可能性。視頻 AI 模型將徹底改變機器人、汽車和零售等行業。在機器人領域，它們可增強在復雜、不斷變化的環境中的自主導航，這對于制造和倉儲管理等行業至關重要。在汽車行業，視頻 AI 正在推動自動駕駛，提升車輛感知、安全性和預測性維護，從而提高效率。要構建圖像和視頻基礎模型，開發者必須整理和預處理大量訓練數據，以高保真度標記生成的高質量數據，高效、大規模地訓練或定制預訓練模型，然后在推理過程中生成高質量的圖像和視頻。 NVIDIA NeMo 是一個端到端平臺，用于開發、定制和部署生成式 AI 模型。 NVIDIA 剛剛宣布擴展 NeMo，以支持開發多模態模型的端到端流程。

Source

]]>

參加首屆 NVIDIA LLM 開發者日活動：提升您的應用構建技能

Mon, 06 Nov 2023 05:41:56 +0000

NVIDIA LLM 開發者日是一項虛擬活動，為開發者提供了探索和構建基于 LLM 的應用和服務的實操指導。您可以了解關鍵技術及其優缺點，并探索示例應用。這些會議還介紹了如何使用托管 API、自我管理 LLM 和 Retrieval Augmented Generation 創建、自定義和部署應用。 NVIDIA 深度學習研究院將于 11 月 17 日上午 8 點(歐洲中部夏令時間下午 5 點)開始舉辦活動和會議。免費參與。由于生成式 AI技術生態系統呈爆炸式增長，提供了大量的選擇在不同層次的堆棧中，因此從何處開始是一項挑戰。 LLM 開發者日活動的研討會旨在幫助開發者評估其用例的起點，同時提供相關資源和工具。會議亮點包括：請將此日程添加到您的計劃中，傳播信息，并歡迎于 11 月 17 日加入我們。我們將推出新的工具和技術，并分享見解，

Source

]]>

AI 模型概述：跨行業的可擴展預訓練模型

Wed, 07 Dec 2022 02:41:00 +0000

到目前為止， 2022 年對 AI 愛好者來說是一個重大、激動人心、勢不可擋的一年。 Get3D 正在突破生成性 3D 建模的邊界， AI 模型現在可以像董事會認證的放射科醫生一樣準確地從 MRI 診斷乳腺癌，最先進的語音 AI 模型已將其視野擴展到擴展現實。 NVIDIA （ NVIDIA ）的預訓練模型重新定義了今年的表現，在 America’s Got Talent 的舞臺上逗樂了我們，贏得了四場全球比賽，并獲得了《時代雜志》（ Time Magazine ）的 2022 最佳發明獎。除了增強研究人員和數據科學家的能力外， NVIDIA 預訓練模型還通過提供深度學習預訓練模型和更快的收斂，增強開發人員創建尖端人工智能應用程序的能力。為了實現這一點， NVIDIA 率先開展了研究，為自動語音識別、姿態估計、對象檢測、 3D 生成、語義分割等用例構建和訓練這些預訓練模型。

Source

]]>

構建基尼亞盧旺達語的自動語音識別模型

Thu, 20 Oct 2022 04:11:00 +0000

語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。隨著為獨特的新興語言標記的數據集變得越來越廣泛，開發人員可以輕松、準確、經濟地構建 AI 應用程序，以增強本地區的技術開發和體驗。 Kinyarwanda 是盧旺達、烏干達、剛果民主共和國和坦桑尼亞 980 萬人的母語，全球共有 2000 多萬人使用。 2022 年 4 月， Mozilla Common Voice (MCV) ，一個眾包項目，旨在使語音識別向所有人開放和可訪問，對構建基尼亞盧旺達數據集做出了重大貢獻，詳見文章 Lessons from Building for Kinyarwanda on Common Voice 。這是一個 57 GB 的數據集，有 2000 多小時的音頻，是 MCV 平臺上最大的數據集。

Source

]]>