• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    計算機視覺/視頻分析

    AI 模型概述:跨行業的可擴展預訓練模型

    到目前為止, 2022 年對 AI 愛好者來說是一個重大、激動人心、勢不可擋的一年。 Get3D 正在突破生成性 3D 建模的邊界, AI 模型?現在可以像董事會認證的放射科醫生一樣準確地從 MRI 診斷乳腺癌,最先進的語音 AI 模型已將其視野擴展到 擴展現實?。

    NVIDIA ( NVIDIA )的預訓練模型重新定義了今年的表現,在 America’s Got Talent 的舞臺上逗樂了我們,贏得了四場全球比賽,并獲得了《時代雜志》( Time Magazine )的 2022 最佳發明獎?。

    除了增強研究人員和數據科學家的能力外, NVIDIA 預訓練模型還通過提供深度學習預訓練模型和更快的收斂,增強開發人員創建尖端人工智能應用程序的能力。為了實現這一點, NVIDIA 率先開展了研究,為自動語音識別、姿態估計、對象檢測、 3D 生成、語義分割等用例構建和訓練這些預訓練模型。

    模型部署可以簡化,用戶在過去 3 個月已經獲得了 870 種不同的 NVIDIA 預訓練模型的好處,這些模型支持多個行業的 50 多個用例。

    這篇文章介紹了一些頂尖的預訓練人工智能模型,這些模型是開創性人工智能應用程序背后的基礎。

    所有人的語音識別

    NVIDIA NeMo 正在為各種行業提供語音 AI 和自然語言處理的尖端 AI 應用開發服務。使用案例包括用阿拉伯語創建虛擬助理,以及為金融音頻提供最先進的自動語音識別( ASR )。

    對于特定語言的 ASR , NVIDIA NeMo 深度學習一致器轉換器預訓練模型和一致器 ctc (連接主義時間分類)預訓練模型很受歡迎。由于這些模型在一系列數據集(如 Librispeech 和 Mozilla Common Voice Data )上進行了預訓練,因此具有較高的準確性、較低的單詞錯誤率和較低的字符錯誤率。他們還擁有強大的 AI 架構。

    這些模型為最先進的 Kinyarwanda ASR modelKabyleCatalan 和許多低資源語言預訓練模型奠定了基礎,這些模型將增強語音 AI 的使用引入到低資源語言、地區和部門。

    有關詳細信息,請參見 NeMo automatic speech recognition models

    為更大的利益驗證演講者

    為了確定“誰在什么時候說話”,語音 AI 愛好者和應用程序開發人員正在將深度神經網絡語音識別與 speaker diarization 架構融合。

    除了視頻會議中的多揚聲器轉錄等眾所周知的用途外,開發人員正在從這種 AI 架構中獲得特殊用例的好處:

    • 臨床語音記錄和理解醫療對話,以實現有效的醫療保健
    • 在教育部門中捕獲和分離師生演講

    通過 NVIDIA NeMo 工具包可以訪問 TDNN ( ECAPA-TDNN )模型中改進的強調信道注意、傳播和聚合的預訓練嵌入。 Fisher 、 Voxceleb 和真實房間反應數據被用于訓練用于說話人識別和驗證的深度神經網絡模型。

    ECAPA 是揚聲器日記化的最佳解決方案之一,它基于時延神經網絡( TDNN )和具有 22.3M 參數的 SE (擠壓和激勵)結構。它通過強調信道關注、傳播和聚合以及顯著降低錯誤率,優于傳統的 TDNN 。

    有關詳細信息,請參見 Speaker Diarization

    SegFormer AI 模型的視覺圖像控制

    SegFormer 是一個有遠見的 research ,它使用 AI 來開創世界級的圖像控制。原始模型及其變體在包括制造業、醫療保健、汽車和零售業在內的各個行業蓬勃發展。虛擬更衣室、機器人圖像控制、醫學成像和診斷以及自動駕駛汽車中的視覺分析等應用程序充分展示了其巨大潛力。

    語義分割 AI 算法是一種用于分離圖像中各種對象的計算機視覺方法,是 SegFormer 的基礎。為了提高性能以滿足特定需求,經過微調的 SegFormer 在 ADE20k 和 CityScapes 等數據集上以多種分辨率進行預訓練,如 512×512640×6401024×1024 等。 AI 設計從 transformer 模型架構中汲取靈感,在各種任務中產生尖端成果。

    有關更多信息,請參閱 NVlabs/SegFormer GitHub repo 。

    專門為汽車低代碼開發人員構建的預訓練模型

    通過檢測和識別汽車、人、路標和兩輪車以了解交通流量, TrafficCamNet 一直在推動汽車行業的智能城市計劃和檢測技術。

    該模型已使用大量數據進行了徹底訓練,其中包括美國城市實際交通路口的照片。深度神經網絡模型 NVIDIA DetectNet _ v2 檢測器與 ResNet18 一起用作特征提取器。 AI 架構有時被稱為 GridBox 對象檢測,在輸入圖像中的規則網格上使用邊界框回歸。 NVIDIA TAO 工具箱可用于訪問和進一步微調專門構建的預訓練模型 TrafficCamNet ,以獲得同類最佳精度。

    有關詳細信息,請參見 Purpose-Built Models

    獲獎車型

    NVIDIA 預訓練的模型因其尖端性能、非凡的研究和解決現實問題的模范能力而贏得了無數獎項。以下是一些顯著的勝利。

    世界上最大的基因組學語言模型榮獲 2022 年戈登貝爾特別獎

    來自阿貢國家實驗室、 NVIDIA 、慕尼黑技術大學、芝加哥大學、加州理工學院、哈佛大學等的研究人員開發了世界上最大的基因組學語言模型之一,用于預測新冠病毒變異。由于他們的工作,他們獲得了 2022 年戈登·貝爾特別獎。

    該模型為及時的公共衛生干預策略和針對新出現的病毒變體的下游疫苗開發提供了信息。 The research was published in October 2022 并介紹了 GenSLM (基因組尺度語言模型),該模型可以準確快速地識別 SARS-CoV-2 病毒中的變異毒株。

    在> 110M 個基因序列上預處理大型基因組學語言模型,然后在 1.5M 個基因組上分別使用 2.5B 和 25B 可訓練參數微調 SARS-CoV-2 特異性模型。這項研究使程序員能夠通過創建可以幫助不同公共衛生計劃的應用程序來進一步進行遺傳語言建模。

    有關詳細信息,請參見 Speaking the Language of the Genome: Gordon Bell Winner Applies Large Language Models to Predict New COVID Variants

    最先進的視覺模型贏得 2022 年穩健視覺挑戰賽

    NVIDIA Research 的全注意力網絡( FAN ) transformer 型號贏得了 Robust Vision Challenge 2022 。如 Understanding The Robustness in Vision Transformers 論文所述,該團隊在 ImageNet-22k 預訓練的 FAN-B-Hybrid 模型上采用了 SegFormer 頭部。然后,該模型在一個合成的大規模數據集上進一步微調,類似于 MSeg

    NVIDIA Research 開發了所有使用的模型。該模型在具有 76.8M 參數的 ImageNet-1k 和 ImageNet-C 上實現了最先進的 87.1% 精度和 35.8%mCE 。我們還在兩個下游任務(語義分割和對象檢測)中展示了最先進的準確性和魯棒性。

    有關更多信息,請參閱 NVlabs/FAN GitHub repo 。

    贏得泰盧固語自動語音識別比賽

    NVIDIA 最近贏得了 Telugu-ASR challenge conducted by IIIT-Hyderabad ,印度。他們使用組織者提供的僅限泰盧固語的 2K 小時數據從頭訓練了一個 Conformer RNNT (遞歸神經網絡傳感器)模型。他們的努力有助于以 13.12% 的 WER 在封閉賽道的排行榜上獲得第一名。

    對于一個開放的比賽賽道,他們在一個預先訓練的 SSL Conformer RNNT 檢查點上進行了轉移學習,該檢查點使用 40 種印度語進行了 36K 小時的訓練。他們以 12.64% 的 WER 贏得了比賽。開發人員可以使用經過微調的獲勝模型創建自動語音識別應用程序,這將使全球 8300 萬泰盧固語使用者受益。

    NVIDIA 預訓練車型

    NVIDIA 預訓練的模型從一開始就不需要構建模型,也不需要使用其他不收斂的開源模型進行實驗,從而使高性能 AI 開發變得簡單、快速和可訪問。

    有關詳細信息,請參見 AI 模型

    ?

    0

    標簽

    人人超碰97caoporen国产