對話式人工智能/自然語言處理 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 13 Apr 2023 02:35:39 +0000 zh-CN hourly 1 196178272 探索文本到語音技術的獨特應用 http://www.open-lab.net/zh-cn/blog/exploring-unique-applications-of-text-to-speech-technology/ Wed, 12 Apr 2023 02:27:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=6665 Continued]]> 當你與虛擬助理互動時,你會發出命令并得到口頭回應。為這種生成的語音響應提供動力的技術被稱為文本到語音( TTS )。 TTS 應用程序非常有用,因為它們為使用輔助設備的用戶提供了更大的內容可訪問性。使用最新的 TTS 技術,您只需幾分鐘的音頻數據就可以生成合成語音——這非常適合那些失聲且錄音有限的人。 事實上,由于最近的進展, TTS 的使用正在增長: 這篇文章解釋了語音合成系統是如何操作的,然后介紹了 TTS 技術的常見和新穎用途。 顧名思義,文本到語音,或語音合成,是將書面文本轉換為自然的、類似人類的語音音頻的過程。在端到端 TTS 管道中,這些是使這種轉換成為可能的關鍵模型和模塊: TTS 通常是諸如虛擬助理之類的應用的最后階段,數字人和服務機器人. 在2021 IDC Conversational AI Adoption Survey在…

Source

]]>
6665
最新版本和資源: 2 月 3 日至 10 日 http://www.open-lab.net/zh-cn/blog/latest-releases-and-resources-feb-3-10/ Thu, 10 Feb 2022 02:33:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3037 Continued]]> 我們每周的綜述包括最新的軟件更新、學習資源、活動和值得注意的新聞。 Software releases 重新設計的 nvCOMP 2.2.0 接口提供了一個可以進行壓縮和解壓縮的 nvcompManagerBase 對象。用戶現在可以解壓縮 nvcomp 壓縮文件,而不知道它們是如何壓縮的。該接口還可以管理暫存空間,并將輸入緩沖區拆分為獨立的塊以進行并行處理。 What’s new: 立即下載: nvCOMP 2.2.0 版 Courses 這門免費的、 30 分鐘的在線課程是自定進度的,包括 NGC TAO 工具包對話人工智能集合中的一個樣本筆記本,以及一個實時 GPU 環境。 了解更多: 使用 Riva 部署文本分類模型 在這個一小時的免費課程中,

Source

]]>
3037
通過 NVIDIA DLI 課程開始學習 NLP 和對話人工智能 http://www.open-lab.net/zh-cn/blog/get-started-on-nlp-and-conversational-ai-with-free-courses-from-nvidia-dli/ Mon, 07 Feb 2022 07:06:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3009 Continued]]> 在過去的一年里,NVIDIA 宣布了在對話人工智能方面的幾項重大突破,用于構建和部署自動語音識別( ASR )、自然語言處理( NLP )和文本到語音( TTS )應用程序。 為了讓開發者在云 GPU 加速環境中快速入門, NVIDIA 深度學習培訓中心( DLI ) 提供了三個快速、免費、自定進度的課程。 這些教學性 DLI 課程讓開發者體驗如何使用現代工具快速創建對話式 AI 和 NLP GPU 加速應用程序。學習目標包括: 課程完成后,開發者將熟悉: 文本分類回答了這個問題:這段文本屬于哪一類?例如,如果你想知道電影評論是正面的還是負面的,你可以使用兩個類別來建立一個情緒分析項目。 更進一步,使用幾個類別按主題對句子或文檔進行分類。在這兩個用例中,您都從預先訓練好的語言模型開始,然后使用示例分類文本“訓練”分類器來創建文本分類項目。 誠然,

Source

]]>
3009
使用多種語言創建語音 AI 應用程序,并使用 Riva 自定義文本到語音 http://www.open-lab.net/zh-cn/blog/create-speech-ai-applications-in-multiple-languages-and-customize-text-to-speech-with-riva/ Mon, 07 Feb 2022 07:05:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3005 Continued]]> 本月, NVIDIA 在 Riva 中發布了西班牙語、德語和俄語的世界級語音到文本模型,為企業在全球部署語音 AI 應用提供了動力。此外,企業現在可以使用 Riva 的可定制文本到語音管道創建富有表現力的語音界面。 NVIDIA Riva 是一款 GPU 加速語音 AI SDK ,用于開發實時應用程序,如實時字幕、向基于文本的聊天機器人添加語音,以及在呼叫中心生成實時轉錄。為了便于實施, Riva 在 NGC 目錄中提供了高度精確的預訓練模型。 和 TAO 工具包 ,這些模型可以為任何行業定制,包括電信、金融、統一通信即服務和醫療保健。開發者可以使用 Riva 開箱即用地部署這些模型。它們經過優化,可以在云、數據中心和邊緣在不到 300 毫秒的時間內實時運行。 從呼叫中心到虛擬助手,每一個對話人工智能應用程序都嚴重依賴于自動語音識別。企業可以通過 Riva 英語、

Source

]]>
3005
自然語言處理的第一步:算法如何理解文本 http://www.open-lab.net/zh-cn/blog/natural-language-processing-first-steps-how-algorithms-understand-text/ Thu, 20 Jan 2022 08:34:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2844 Continued]]> 本文將討論如何通過矢量化、哈希、標記化和其他技術來準備文本,以便與機器學習( ML )和其他數值算法兼容。我將解釋并演示該過程。 自然語言處理( NLP )將 機器學習 ( ML )和其他技術應用于語言。然而,機器學習和其他技術通常在被稱為向量的數字數組上工作,這些向量表示數據集中的每個實例(有時稱為觀察、實體、實例或行)。我們稱所有這些數組的集合為矩陣;矩陣中的每一行表示一個實例。按列查看矩陣,每列表示一個特征(或屬性)。 到目前為止,如果不習慣數學語言,這種語言可能看起來相當抽象。然而,在處理表格數據時,數據專業人員已經接觸過這種類型的數據結構,包括電子表格程序和關系數據庫。 畢竟,當人們將行視為實例,將列視為特征時,電子表格就是矩陣。例如,考慮包含過去和現在雇員的數據集,其中每行(或實例)具有表示雇員的年齡、任期、工資、資歷級別等的列(或特征)。

Source

]]>
2844
使用 NVIDIA TAO 更快地創建定制、生產就緒的 AI 模型 http://www.open-lab.net/zh-cn/blog/create-custom-production-ready-ai-models-faster-with-nvidia-tao/ Thu, 02 Dec 2021 06:09:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2542 Continued]]> 所有 AI 應用程序都由模型提供支持。模型可以幫助發現零件的缺陷,檢測疾病的早期發病,翻譯語言,等等。但為特定用途構建定制模型需要大量數據和一支數據科學家隊伍。 NVIDIA TAO 是一個人工智能模型適應框架,它簡化并加速了人工智能模型的創建。通過微調最先進、經過預訓練的模型,您可以創建定制、生產就緒的計算機視覺和對話 AI 模型。這可以在數小時而不是數月內完成,從而消除了對大型培訓數據或人工智能專業知識的需求。 TAO toolkit 的最新版本現已可供下載。 TAO 工具包是基于 CLI 和 Jupyter 筆記本的 TAO 版本,它匯集了幾個新功能,可幫助您加快模型創建過程。 我們還將 TAO 提升到一個新的水平,使創建定制的、生產就緒的模型變得更加容易。 TAO 的圖形用戶界面版本目前正在開發中,它是零代碼模型開發解決方案的縮影。

Source

]]>
2542
使用 NVIDIA TensorRT 優化 T5 和 GPT-2 進行實時推理 http://www.open-lab.net/zh-cn/blog/optimizing-t5-and-gpt-2-for-real-time-inference-with-tensorrt/ Thu, 02 Dec 2021 05:46:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2526 Continued]]> 這個 transformer 體系結構 完全改變了(雙關語)自然語言處理( NLP )的領域。近年來,在 transformer 構建塊 BERT 、 GPT 和 T5 上構建了許多新穎的網絡體系結構。隨著品種的增加,這些型號的尺寸也迅速增加。 雖然較大的神經語言模型通常會產生更好的結果,但將它們部署到生產環境中會帶來嚴重的挑戰,尤其是對于在線應用程序,在這些應用程序中,幾十毫秒的額外延遲可能會對用戶體驗產生顯著的負面影響。 使用最新的 TensorRT 8.2 ,我們優化了 T5 和 GPT-2 模型,以實現實時推理。您可以將 T5 或 GPT-2 模型轉換為 TensorRT 引擎,然后將此引擎用作推理工作流中原始 PyTorch 模型的插件替換。與 PyTorch GPU 推理相比,此優化導致延遲減少 3-6 倍,與 PyTorch CPU 推理相比,延遲減少 9-21 倍。

Source

]]>
2526
NVIDIA 宣布 TensorRT 8.2 以及與 PyTorch 和 TensorFlow 的集成 http://www.open-lab.net/zh-cn/blog/nvidia-announces-tensorrt-8-2-and-integrations-with-pytorch-and-tensorflow/ Thu, 02 Dec 2021 05:44:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2522 Continued]]> 今天, NVIDIA 發布了 TensorRT 8.2 ,對十億參數 NLU 模型進行了優化。其中包括 T5 和 GPT-2 ,用于翻譯和文本生成,使實時運行 NLU 應用程序成為可能。 TensorRT 是一款高性能的深度學習推理優化器和運行時,為人工智能應用程序提供低延遲、高吞吐量推理。 TensorRT 用于醫療、汽車、制造、互聯網/電信服務、金融服務和能源等多個行業。 PyTorch 和 TensorFlow 是擁有數百萬用戶的最流行的深度學習框架。新的 TensorRT 框架集成現在在 PyTorch 和 TensorFlow 中提供了一個簡單的 API ,并提供了強大的 FP16 和 INT8 優化,從而將推理速度提高了 6 倍。 …

Source

]]>
2522
通過全堆棧優化提升 NVIDIA MLPerf Training v1.1 的性能 http://www.open-lab.net/zh-cn/blog/boosting-mlperf-training-v1-1-performance-with-full-stack-optimization/ Wed, 01 Dec 2021 05:30:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2511 Continued]]> 自 v1.0 以來已經過去了五個月,所以是時候進行新一輪 MLPerf 培訓基準了。在這個 v1.1 版本中,整個硬件和軟件堆棧的優化看到了基于 NVIDIA 平臺提交的基準測試套件的持續改進。這種改進在所有不同的尺度上都是一致的,從單個機器到工業超級計算機,例如由 560 個 NVIDIA DGX A100 系統組成的英偉達 SeleN 和由 768 個節點 A100 系統組成的微軟 Azure NDM A100 V4 集群。 越來越多的組織使用MLPerf基準來指導其AI基礎設施戰略。MLPerf(VZX19的一部分)是由學術界、研究實驗室和工業界的人工智能領導者組成的全球聯盟,其使命是 建立公平和有用的基準 ,為在規定條件下進行的硬件、軟件和服務的培訓和推理性能提供公正的評估。為了保持行業趨勢的領先地位,MLPerf不斷發展,定期舉行新的測試,并添加代表AI最先進水平的新工作負載。

Source

]]>
2511
語音識別:使用 NVIDIA Riva 生成準確的轉錄 http://www.open-lab.net/zh-cn/blog/speech-recognition-generating-accurate-transcriptions-using-riva/ Wed, 10 Nov 2021 07:11:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=2141 Continued]]> 這篇文章是關于生成準確語音轉錄的系列文章的一部分。有關第 2 部分,請參見Speech Recognition: Customizing Models to Your Domain Using Transfer Learning. 有關第 3 部分,請參見Speech Recognition: Deploying Models to Production. 每天,電信、金融和統一通信即服務( UCaaS )等行業都會產生數百萬分鐘的音頻。這些音頻會議記錄可以轉錄,以便為呼叫中心代理提供實時建議,從客戶呼叫記錄中提取見解,或在視頻會議中生成實時字幕。 自動語音識別使您能夠將語音轉錄成文本。生成高質量的文字記錄是一項挑戰,因為這些技能需要理解特定于行業的術語、數百到數千分鐘特定于領域的培訓音頻以及實時運行的管道。 NVIDIA Riva 語音識別是一項技術,

Source

]]>
2141
語音識別:使用遷移學習為您的領域定制模型 http://www.open-lab.net/zh-cn/blog/speech-recognition-customizing-models-to-your-domain-using-transfer-learning/ Tue, 09 Nov 2021 10:37:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=2131 Continued]]> 這篇文章是關于生成準確語音轉錄的系列文章的一部分。有關第 1 部分,請參見 Speech Recognition: Generating Accurate Transcriptions Using NVIDIA Riva. 有關第 3 部分,請參見 Speech Recognition: Deploying Models to Production. 從頭開始創建一個新的人工智能深度學習模型是一個非常耗費時間和資源的過程。解決這個問題的一個常見方法是采用遷移學習。為了使這一過程更加簡單,NVIDIA TAO Toolkit,它可以將工程時間框架從 80 周縮短到 8 周。 TAO 工具包支持計算機視覺和對話 AI ( ASR 和 NLP )用例。 在本文中,我們將介紹以下主題: 跟隨 download the Jupyter notebook。

Source

]]>
2131
語音識別:將模型部署到生產中 http://www.open-lab.net/zh-cn/blog/speech-recognition-deploying-models-to-production/ Tue, 09 Nov 2021 10:33:28 +0000 http://www.open-lab.net/zh-cn/blog/?p=2128 Continued]]> 這篇文章是關于生成準確語音轉錄的系列文章的一部分。有關第 1 部分,請參見Speech Recognition: Generating Accurate Transcriptions Using NVIDIA Riva.有關第 2 部分,請參見Speech Recognition: Customizing Models to Your Domain Using Transfer Learning NVIDIA Riva 是一款 AI 語音 SDK ,用于開發實時應用程序,如轉錄、虛擬助理和聊天機器人。它包括 NGC 中經過預訓練的最先進模型、用于在您的領域中微調模型的 TAO 工具包以及用于高性能推理的優化技能。 Riva 使使用 NGC 中的 Riva 容器或使用 Helm chart 在 Kubernetes 上部署模型變得更簡單。 Riva 技能由 NVIDIA TensorRT…

Source

]]>
2128
介紹 NVIDIA Riva :用于加速語音 AI 應用程序的 GPU 加速 SDK http://www.open-lab.net/zh-cn/blog/introducing-riva-a-gpu-accelerated-sdk-for-accelerating-speech-ai-apps/ Tue, 09 Nov 2021 10:10:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2275 Continued]]> 這篇文章從 2020 年 5 月開始更新. 語音人工智能用于各種應用,包括授權人工智能的呼叫中心、虛擬助理的語音接口以及視頻會議中的實時字幕。語音人工智能包括自動語音識別( ASR )和文本語音轉換( TTS )。 ASR 管道接收原始音頻并將其轉換為文本, TTS 管道接收文本并將其轉換為音頻。 開發和運行這些實時語音人工智能服務是一項復雜而艱巨的任務。構建語音 AI 應用程序需要數十萬小時的音頻數據、基于特定用例構建和自定義模型的工具,以及可擴展的部署支持。它還意味著實時運行,與用戶進行自然交互的時間遠低于 300 毫秒。 NVIDIA Riva 簡化了開發語音 AI 服務的端到端流程,并為類人交互提供實時性能。 NVIDIA Riva 是用于開發語音 AI 應用程序的 GPU 加速 SDK 。 Riva 旨在幫助您輕松快速地訪問對話 AI 功能。只需幾個命令,

Source

]]>
2275
NVIDIA 使用 DeepStream 6.0 為 Vision AI 帶來低代碼開發 http://www.open-lab.net/zh-cn/blog/nvidia-brings-low-code-development-to-vision-ai-with-deepstream-6-0/ Tue, 09 Nov 2021 09:52:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2192 Continued]]> DeepStream SDK 6 . 0 現在可下載。 DeepStream 是一款功能強大的 AI 流分析工具包,可幫助開發人員構建高性能、低延遲、復雜的視頻分析應用程序和服務。 此版本引入了 Graph Composer ,這是一種新的低代碼編程工具,可增強 DeepStream 用戶體驗。 DeepStream 和 Graph Composer 從用戶那里抽象出底層平臺、框架和庫細節,使開發人員能夠在幾天而不是幾周內構建加速的應用程序。 用戶使用簡單直觀的 UI ,通過拖放操作構建處理管道。工具中內置的兼容性和設計規則檢查可確保管道的構造是正確的。 英偉達擴展注冊中心為所有的深層插件提供了組件。 Graph Composer 還可以基于現有的 GStreamer 插件自動創建擴展,允許用戶利用現有的插件庫。模板可用于幫助用戶開發新的自定義擴展。

Source

]]>
2192
使用 NVIDIA TAO 工具包構建和部署對話 AI 模型 http://www.open-lab.net/zh-cn/blog/building-and-deploying-conversational-ai-models-using-tao-toolkit/ Tue, 09 Nov 2021 09:48:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2257 Continued]]> 對話式人工智能是一組技術,能夠在人類和設備之間基于最自然的界面(語音和自然語言)進行類似人類的交互。基于對話人工智能的系統可以通過識別語音和文本、在不同語言之間進行即時翻譯、理解我們的意圖以及以模仿人類對話的方式響應來理解命令。 構建對話式人工智能系統和應用程序很困難。為您的數據中心部署量身定制哪怕是單個組件來滿足您企業的需求就更難了。特定于領域的應用程序的部署通常需要幾個周期的重新培訓、微調和部署模型,直到滿足需求為止。 為了解決這些問題,本文介紹了三個關鍵產品: 由于這些產品的緊密集成,您可以將 80 小時的培訓、微調和部署周期壓縮到 8 小時。在本文中,我們將重點介紹 TAO 工具包,向您展示它如何支持各種遷移學習場景,以及它如何與 Riva 集成以部署對話 AI 模型和運行實時推理。 在對話人工智能系統中,有幾個組件,大致分為三個主要領域(圖 1 ):

Source

]]>
2257
人人超碰97caoporen国产