Pranjali Joshi – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 10 Jan 2025 08:51:46 +0000 zh-CN hourly 1 196178272 NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步 http://www.open-lab.net/zh-cn/blog/advancing-physical-ai-with-nvidia-cosmos-world-foundation-model-platform/ Thu, 09 Jan 2025 08:43:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=12593 Continued]]> 隨著機器人和 自動駕駛汽車 的發展,加速 物理 AI 的發展變得至關重要,而物理 AI 使自主機器能夠感知、理解并在現實世界中執行復雜的操作。這些系統的核心是 世界基礎模型 (WFMs),即通過物理感知視頻模擬物理狀態的 AI 模型,使機器能夠做出準確決策并與周圍環境無縫交互。 NVIDIA Cosmos 平臺可幫助開發者大規模為物理 AI 系統構建自定義世界模型。它為從數據管護、訓練到定制的每個開發階段提供開放世界基礎模型和工具。 本文將介紹 Cosmos 及其加速物理 AI 開發的主要功能。Cosmos 是一種開源的 Python 庫,用于加速物理 AI 開發。 構建物理 AI 極具挑戰性,需要精確的模擬以及真實世界的行為理解和預測。克服這些挑戰的一個關鍵工具是世界模型,該模型根據過去的觀察結果和當前的輸入結果預測未來的環境狀態。

Source

]]>
12593
借助 NVIDIA NeMo 開發前沿的多模態生成式 AI 模型 http://www.open-lab.net/zh-cn/blog/state-of-the-art-multimodal-generative-ai-model-development-with-nvidia-nemo/ Wed, 06 Nov 2024 03:41:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=12293 Continued]]> 生成式 AI 已從基于文本的模型迅速發展為多模態功能。這些模型執行圖像字幕和視覺問答等任務,反映了向更接近人類的 AI 的轉變。該社區目前正在從文本和圖像擴展到視頻,為各行各業帶來了新的可能性。 視頻 AI 模型將徹底改變 機器人 、汽車和零售等行業。在機器人領域,它們可增強在復雜、不斷變化的環境中的自主導航,這對于制造和倉儲管理等行業至關重要。在汽車行業,視頻 AI 正在推動自動駕駛,提升車輛感知、安全性和預測性維護,從而提高效率。 要構建圖像和視頻基礎模型,開發者必須整理和預處理大量訓練數據,以高保真度標記生成的高質量數據,高效、大規模地訓練或定制預訓練模型,然后在推理過程中生成高質量的圖像和視頻。 NVIDIA NeMo 是一個端到端平臺,用于開發、定制和部署生成式 AI 模型。 NVIDIA 剛剛宣布擴展 NeMo,以支持開發多模態模型的端到端流程。

Source

]]>
12293
參加首屆 NVIDIA LLM 開發者日活動:提升您的應用構建技能 http://www.open-lab.net/zh-cn/blog/join-the-first-nvidia-llm-developer-day-elevate-your-app-building-skills/ Mon, 06 Nov 2023 05:41:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=8167 Continued]]> NVIDIA LLM 開發者日是一項虛擬活動,為開發者提供了探索和構建基于 LLM 的應用和服務的實操指導。您可以了解關鍵技術及其優缺點,并探索示例應用。這些會議還介紹了如何使用托管 API、自我管理 LLM 和 Retrieval Augmented Generation 創建、自定義和部署應用。 NVIDIA 深度學習研究院將于 11 月 17 日上午 8 點(歐洲中部夏令時間下午 5 點)開始舉辦活動和會議。免費參與。 由于生成式 AI技術生態系統呈爆炸式增長,提供了大量的選擇在不同層次的堆棧中,因此從何處開始是一項挑戰。 LLM 開發者日活動的研討會旨在幫助開發者評估其用例的起點,同時提供相關資源和工具。 會議亮點包括: 請將此日程添加到您的計劃中,傳播信息,并歡迎于 11 月 17 日加入我們。我們將推出新的工具和技術,并分享見解,

Source

]]>
8167
AI 模型概述:跨行業的可擴展預訓練模型 http://www.open-lab.net/zh-cn/blog/ai-models-recap-scalable-pretrained-models-across-industries/ Wed, 07 Dec 2022 02:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5971 Continued]]> 到目前為止, 2022 年對 AI 愛好者來說是一個重大、激動人心、勢不可擋的一年。 Get3D 正在突破生成性 3D 建模的邊界, AI 模型 現在可以像董事會認證的放射科醫生一樣準確地從 MRI 診斷乳腺癌,最先進的語音 AI 模型已將其視野擴展到 擴展現實 。 NVIDIA ( NVIDIA )的預訓練模型重新定義了今年的表現,在 America’s Got Talent 的舞臺上逗樂了我們,贏得了四場全球比賽,并獲得了《時代雜志》( Time Magazine )的 2022 最佳發明獎 。 除了增強研究人員和數據科學家的能力外, NVIDIA 預訓練模型還通過提供深度學習預訓練模型和更快的收斂,增強開發人員創建尖端人工智能應用程序的能力。為了實現這一點, NVIDIA 率先開展了研究,為自動語音識別、姿態估計、對象檢測、 3D 生成、語義分割等用例構建和訓練這些預訓練模型。

Source

]]>
5971
構建基尼亞盧旺達語的自動語音識別模型 http://www.open-lab.net/zh-cn/blog/building-an-automatic-speech-recognition-model-for-the-kinyarwanda-language/ Thu, 20 Oct 2022 04:11:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5502 Continued]]> 語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。隨著為獨特的新興語言標記的數據集變得越來越廣泛,開發人員可以輕松、準確、經濟地構建 AI 應用程序,以增強本地區的技術開發和體驗。 Kinyarwanda 是盧旺達、烏干達、剛果民主共和國和坦桑尼亞 980 萬人的母語,全球共有 2000 多萬人使用。 2022 年 4 月, Mozilla Common Voice (MCV) ,一個眾包項目,旨在使語音識別向所有人開放和可訪問,對構建基尼亞盧旺達數據集做出了重大貢獻,詳見文章 Lessons from Building for Kinyarwanda on Common Voice 。這是一個 57 GB 的數據集,有 2000 多小時的音頻,是 MCV 平臺上最大的數據集。

Source

]]>
5502
人人超碰97caoporen国产