Pretrained Models – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 30 Mar 2023 06:32:41 +0000 zh-CN hourly 1 196178272 利用三維合成數據進行自舉目標檢測模型訓練 http://www.open-lab.net/zh-cn/blog/bootstrapping-object-detection-model-training-with-3d-synthetic-data/ Wed, 29 Mar 2023 06:27:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=6615 Continued]]> 訓練人工智能模型需要大量的數據。獲取大量訓練數據可能很困難、耗時且成本高昂。此外,所收集的數據可能無法涵蓋各種角落的情況,從而使人工智能模型無法準確預測各種場景。 Synthetic data提供了一種替代真實世界數據的方法,使人工智能研究人員和工程師能夠引導人工智能模型訓練。除了引導模型訓練外,研究人員還可以通過改變許多不同的參數(如位置、顏色、對象大小或照明條件)來快速生成新的數據集,以生成有助于創建通用模型的不同數據 這篇文章向你展示了如何使用一個模型,使用從NVIDIA Omniverse Replicator,一個以編程方式生成物理上精確的 3D 合成數據的 SDKpretrained model使用這些數據,而不是收集真實世界的數據。使用合成數據,可以創建所需的確切場景,甚至可以添加新元素或調整場景,從而進一步迭代對象檢測管道 要生成合成數據,

Source

]]>
6615
使用 NVIDIA TAO Toolkit 5.0 訪問最新的視覺 AI 模型開發工作流 http://www.open-lab.net/zh-cn/blog/access-the-latest-in-vision-ai-model-development-workflows-with-nvidia-tao-toolkit-5-0/ Tue, 21 Mar 2023 07:20:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=6558 Continued]]> NVIDIA TAO Toolkit 提供了一個低代碼人工智能框架,用于加速視覺人工智能模型開發,適用于從新手到專家數據科學家的所有技能水平。借助 NVIDIA TAO (訓練、適應、優化)工具包,開發人員可以利用遷移學習的力量和效率,通過適應和優化,在創紀錄的時間內實現最先進的精度和生產級吞吐量。 在 NVIDIA GTC 2023 上, NVIDIA 發布了 NVIDIA TAO Toolkit5.0 ,帶來了突破性的功能來增強任何人工智能模型的開發。新功能包括開源架構、基于 transformer 的預訓練模型、人工智能輔助的數據注釋,以及在任何平臺上部署模型的能力。 NVIDIA TAO Toolkit 5.0 支持 ONNX 中的模型導出。這使得在邊緣或云中的任何計算平臺 GPU 、 CPU 、 MCU 、 DLA 、

Source

]]>
6558
使用 NVIDIA TAO 工具包和權重和偏差加速 AI 開發 http://www.open-lab.net/zh-cn/blog/accelerating-ai-development-with-nvidia-tao-toolkit-and-weights-biases/ Tue, 31 Jan 2023 07:34:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=6125 Continued]]> 利用圖像分類、對象檢測、 自動語音識別 ( ASR )和其他形式的人工智能可以推動公司和商業部門的大規模變革。然而,從頭開始構建人工智能和深度學習模型是一項艱巨的任務。 構建這些模型的一個共同前提是擁有大量高質量的訓練數據和正確的專業知識,以準備數據、構建神經網絡,并不斷微調模型以優化性能。對于開始機器學習( ML )之旅的組織來說,這通常是一個挑戰。盡管人工智能可以提供明確和可衡量的好處,但進入壁壘很高,往往會阻礙各種規模的企業采用人工智能。 這篇文章討論了 NVIDIA TAO Toolkit 和 Weights & Biases MLOps 平臺的結合如何有助于開啟組織利用人工智能和加速常見人工智能任務的旅程。開發人員現在可以使用 NVIDIA TAO (訓練適應優化)工具包和權重和偏差( W & B )可視化和比較多個訓練運行。此外,我們將介紹構建對象檢測模型的示例工作流。

Source

]]>
6125
基于 NVIDIA NeMo 的多語言和代碼切換自動語音識別 http://www.open-lab.net/zh-cn/blog/multilingual-and-code-switched-automatic-speech-recognition-with-nvidia-nemo/ Tue, 31 Jan 2023 07:11:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=6119 Continued]]> 多語言 自動語音識別 ( ASR )模型因其能夠以多種語言轉錄語音而獲得了極大的興趣。這是由不斷增長的多語言社區以及減少復雜性的需求所推動的。您只需要一個模型來處理多種語言。 這篇文章解釋了如何使用 NGC 目錄中的 預訓練多語言 NeMo ASR 模型 。我們還分享了創建自己的多語言數據集和訓練自己的模型的最佳實踐。 ASR 模型在高級別上將語音轉換為文本。在推斷時,它們使用音頻文件作為輸入,并生成文本標記或字符作為輸出(圖 1 )。更準確地說,在每個音頻采樣時間步,該模型輸出總共 標記中每一個的對數概率。 在培訓時,您提供文本記錄以及音頻文件作為輸入。當模型訓練時,它使用成績單來計算訓練損失。它逐漸減少了這種損失,并提高了其權重,使其輸出成績單盡可能接近原始。 多語言環境為這幅圖增添了幾個方面。在推斷過程中,您通常不知道音頻中包含的語言。但是,

Source

]]>
6119
NVIDIA 發布用于防盜的云原生 Metropolis 微服務和零售 AI 工作流 http://www.open-lab.net/zh-cn/blog/nvidia-announces-cloud-native-metropolis-microservices-and-retail-ai-workflows-for-theft-prevention/ Thu, 12 Jan 2023 09:40:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=6173 Continued]]> 零售萎縮呈上升趨勢, 2021 行業虧損總計 1000 億美元,并且由于通貨膨脹壓力而增長。為了幫助軟件開發人員加快零售損失預防解決方案的開發, NVIDIA 正在發布一套微服務,作為 NVIDIA Metropolis 的一部分,以及零售 AI 工作流。這些人工智能工作流提供了預訓練的人工智能模型,以及快速啟動開發所需的應用程序,快速索引數十萬商店產品以進行交叉攝像頭和條形碼掃描識別,并檢測票證切換和盜竊。 構建這些復雜的解決方案需要可擴展的分布式體系結構。利用云原生技術可確保可擴展性、可維護性、可升級性、適應性和部署環境的選擇。這些解決方案越來越依賴于需要多模態人工智能能力的多個數據和傳感器源。基于微服務的設計提供了支持這些需求的自然契合。 Metropolis 微服務參考架構 設計用于: 注冊以搶先體驗 Metropolis 微服務 .

Source

]]>
6173
AI 模型概述:跨行業的可擴展預訓練模型 http://www.open-lab.net/zh-cn/blog/ai-models-recap-scalable-pretrained-models-across-industries/ Wed, 07 Dec 2022 02:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5971 Continued]]> 到目前為止, 2022 年對 AI 愛好者來說是一個重大、激動人心、勢不可擋的一年。 Get3D 正在突破生成性 3D 建模的邊界, AI 模型 現在可以像董事會認證的放射科醫生一樣準確地從 MRI 診斷乳腺癌,最先進的語音 AI 模型已將其視野擴展到 擴展現實 。 NVIDIA ( NVIDIA )的預訓練模型重新定義了今年的表現,在 America’s Got Talent 的舞臺上逗樂了我們,贏得了四場全球比賽,并獲得了《時代雜志》( Time Magazine )的 2022 最佳發明獎 。 除了增強研究人員和數據科學家的能力外, NVIDIA 預訓練模型還通過提供深度學習預訓練模型和更快的收斂,增強開發人員創建尖端人工智能應用程序的能力。為了實現這一點, NVIDIA 率先開展了研究,為自動語音識別、姿態估計、對象檢測、 3D 生成、語義分割等用例構建和訓練這些預訓練模型。

Source

]]>
5971
使用 ROS 2 和 TAO-PointPillars 檢測點云中的對象 http://www.open-lab.net/zh-cn/blog/detecting-objects-in-point-clouds-using-ros-2-and-tao-pointpillars/ Fri, 30 Sep 2022 08:10:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5369 Continued]]> 準確、快速的目標檢測是機器人導航和避碰的重要任務。自主代理需要一張清晰的周圍地圖,才能導航到目的地,同時避免碰撞。例如,在使用自主移動機器人( AMR )運輸物品的倉庫中,避免可能損壞機器人的危險機器已成為一個具有挑戰性的問題。 本文介紹了一個 ROS 2 節點,用于使用基于 PointPillars 的 NVIDIA TAO Toolkit 預處理模型檢測點云中的對象。該節點將點云作為真實或模擬激光雷達掃描的輸入,執行 TensorRT 優化推斷以檢測該輸入數據中的對象,并將生成的 3D 邊界框作為每個點云的 Detection3DArray 消息輸出。 雖然存在多個 ROS 節點用于從圖像中檢測目標,但從激光雷達輸入執行目標檢測的優點包括: 通過使用激光雷達和相機的組合,可以使自主系統更加穩健。這是因為攝像機可以執行激光雷達無法執行的任務,例如檢測標志上的文字。

Source

]]>
5369
結合卷積和注意機制改進日語 ASR http://www.open-lab.net/zh-cn/blog/improving-japanese-language-asr-by-combining-convolutions-with-attention-mechanisms/ Mon, 12 Sep 2022 05:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5278 Continued]]> 自動語音識別( ASR )研究通常側重于高資源語言,如英語,它由數十萬小時的語音支持。最近的文獻重新關注更復雜的語言,如日語。與其他亞洲語言一樣,日語有大量的基本字符集(普通白話中使用了 3000 多個獨特的字符),并提出了獨特的挑戰,例如多個詞序。 這篇文章討論了最近提高日語 ASR 準確性和速度的工作。首先,我們改進了 Conformer ,這是一種最先進的 ASR 神經網絡架構,在訓練和推理速度方面取得了顯著的改進,并且沒有精度損失。其次,我們增強了一個具有多頭部自我注意機制的純深度卷積網絡,以豐富輸入語音波形的全局上下文表示的學習。 Conformer 是一種神經網絡體系結構,廣泛應用于多種語言的 ASR 系統中,并取得了較高的精度。然而, Conformer 在訓練和推斷方面都相對較慢,因為它使用了多頭自我注意,對于輸入音頻波的長度,其時間/

Source

]]>
5278
Metropolis 聚光燈: Sighthound 通過 NVIDIA GPU 加速人工智能技術增強交通安全 http://www.open-lab.net/zh-cn/blog/metropolis-spotlight-sighthound-enhances-traffic-safety-with-nvidia-gpu-accelerated-ai-technologies/ Mon, 04 Oct 2021 09:48:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=1850 Continued]]> NVIDIA Metropolis 合作伙伴Sighthound – 以前的 Boulder AI 正通過軟件和硬件解決方案幫助城市改善交通管理和行人安全,為邊緣數據智能帶來云本機解決方案。 為了設計高效、公平和可持續的基礎設施,城市規劃者依賴于準確的道路使用數據。 Sighthound 構建了邊緣化、以道路為中心的產品,為城市提供數據,用于保護十字路口行人、量化停車占用率和分析公路利用率的應用。 Sighthound 在競爭激烈的人工智能領域的主要目標是使用最先進的工具和全堆棧方法,以實現更快的計算優化解決方案上市時間。他們利用嵌入式 NVIDIA ® Jetson edge AI 平臺的強大功能,該平臺在為 DNN 攝像頭和節點供電的緊湊節能模塊中提供 GPU 加速計算。

Source

]]>
1850
人人超碰97caoporen国产