]]>12593借助 NVIDIA NeMo 開發前沿的多模態生成式 AI 模型
http://www.open-lab.net/zh-cn/blog/state-of-the-art-multimodal-generative-ai-model-development-with-nvidia-nemo/
Wed, 06 Nov 2024 03:41:07 +0000http://www.open-lab.net/zh-cn/blog/?p=12293Continued]]>生成式 AI 已從基于文本的模型迅速發展為多模態功能。這些模型執行圖像字幕和視覺問答等任務,反映了向更接近人類的 AI 的轉變。該社區目前正在從文本和圖像擴展到視頻,為各行各業帶來了新的可能性。 視頻 AI 模型將徹底改變 機器人 、汽車和零售等行業。在機器人領域,它們可增強在復雜、不斷變化的環境中的自主導航,這對于制造和倉儲管理等行業至關重要。在汽車行業,視頻 AI 正在推動自動駕駛,提升車輛感知、安全性和預測性維護,從而提高效率。 要構建圖像和視頻基礎模型,開發者必須整理和預處理大量訓練數據,以高保真度標記生成的高質量數據,高效、大規模地訓練或定制預訓練模型,然后在推理過程中生成高質量的圖像和視頻。 NVIDIA NeMo 是一個端到端平臺,用于開發、定制和部署生成式 AI 模型。 NVIDIA 剛剛宣布擴展 NeMo,以支持開發多模態模型的端到端流程。
]]>5971構建基尼亞盧旺達語的自動語音識別模型
http://www.open-lab.net/zh-cn/blog/building-an-automatic-speech-recognition-model-for-the-kinyarwanda-language/
Thu, 20 Oct 2022 04:11:00 +0000http://www.open-lab.net/zh-cn/blog/?p=5502Continued]]>語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。隨著為獨特的新興語言標記的數據集變得越來越廣泛,開發人員可以輕松、準確、經濟地構建 AI 應用程序,以增強本地區的技術開發和體驗。 Kinyarwanda 是盧旺達、烏干達、剛果民主共和國和坦桑尼亞 980 萬人的母語,全球共有 2000 多萬人使用。 2022 年 4 月, Mozilla Common Voice (MCV) ,一個眾包項目,旨在使語音識別向所有人開放和可訪問,對構建基尼亞盧旺達數據集做出了重大貢獻,詳見文章 Lessons from Building for Kinyarwanda on Common Voice 。這是一個 57 GB 的數據集,有 2000 多小時的音頻,是 MCV 平臺上最大的數據集。