NVIDIA 最近發布了 NVIDIA Riva 在語音人工智能方面的新突破, NVIDIA NeMo 在大規模語言建模( LLM )方面的新突破。 Riva 是一款 GPU 加速語音人工智能 SDK ,用于企業為其品牌和虛擬助手生成富有表現力的類人語音。 NeMo 是語音和 NLU 的加速培訓框架,它現在有能力開發具有數萬億參數的大規模語言模型。
語音和語言人工智能的這些進步使企業和研究機構能夠輕松構建針對其行業和領域定制的最先進的對話人工智能功能。
英偉達 Riva
NVIDIA 發布了一個具有定制語音功能的新版本,企業只需 30 分鐘的語音數據即可輕松創建獨特的語音來代表其品牌。
此外, NVIDIA 宣布了Riva Enterprise,這是一項付費計劃,包括為需要大規模 Riva 部署的企業提供 NVIDIA 專家支持。 Riva 仍然免費提供給工作量較小的客戶和合作伙伴。
亮點包括:
- 在 A100 上用一天 30 分鐘的音頻數據創建一個新的神經語音。
- 細粒度控件以生成富有表現力的聲音。
- A100 上的 Fastpitch + HiFiGAN 比 V100 上的 Tacotron2 + WaveGlow 性能高 12 倍。
- 支持五種其他語言的世界級語音識別。
- 擴展到成百上千的實時流。
- 在任何云端、本地和邊緣運行。
注冊以接收有關 Riva Enterprise 的最新消息和更新,以進行大規模部署 >>
使用 Riva 開發應用程序
閱讀此introductory post to了解 Riva 工作流中的組件。
接下來,按照本教程構建您自己的端到端語音識別服務:
- Parthart: 1-EC6
- Parthart: H2-Em7
- Parthut: 3-ECEN-18
有關構建virtual assistants和transcription with entity recognition等語音應用程序的更多教程,請訪問Riva Getting Started. >>
在對話式 AI Demystified GTC 會議上了解更多信息 >>
NVIDIA NeMo Megatron 、 Triton 多 – GPU 多節點推理和 Megatron 530B
NVIDIA 還推出了為企業構建、定制和部署大型語言模型的功能。 NeMo Megatron 是 NeMo 框架中的一項新功能,用于培訓多達數萬億個參數的大型語言模型( LLM )。
它包括Megatron方面的進步,這是一個由 NVIDIA 研究人員領導的開源項目,旨在開發有效培訓法學碩士的技術。企業可以使用 NeMo Megatron 定制 LLM ,如 Megatron 530B ,并使用 NVIDIA Triton 推理服務器跨多個 GPU 和節點進行部署。

亮點包括:
- 在包含數十億頁文本的龐大數據集上自動化數據整理。
- 為新的域和語言培訓Megatron 530B等模型。
- 從單節點擴展到超級計算機,包括數十個DGX A100系統。
- 導出到多個節點和 GPU s ,用于使用 NVIDIA Triton 推理服務器進行實時推理。
注冊以接收有關 NeMo Megatron 最新版本的更多信息 >>
在以下 GTC 課程中了解更多信息:
NVIDIA NeMo: Speech Recognition, Speech Synthesis, and NLP Updates >>
A Step-by-step Guide to Building Large Custom Language Models >>