Maggie Zhang – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 28 Feb 2025 06:43:52 +0000 zh-CN hourly 1 196178272 使用 NVIDIA NIM 構建基于 VLM 的簡單多模態信息檢索系統 http://www.open-lab.net/zh-cn/blog/building-a-simple-vlm-based-multimodal-information-retrieval-system-with-nvidia-nim/ Wed, 26 Feb 2025 06:30:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=13023 Continued]]> 在當今數據驅動的世界中,即使是從少量數據中檢索準確信息的能力,對于尋求精簡、有效的快速部署、原型設計或實驗解決方案的開發者來說也至關重要。信息檢索領域的主要挑戰之一是管理非結構化數據集中的各種模式,包括文本、PDF、圖像、表格、音頻、視頻等。 多模態 AI 模型通過同時處理多個數據模式來應對這一挑戰,以不同的形式生成連貫一致的全面輸出。 NVIDIA NIM 微服務可簡化 AI 基礎模型 在語言、 計算機視覺 、語音、生物學等領域的安全可靠部署。 NIM 微服務可隨時隨地部署在 NVIDIA 加速基礎設施上,并提供行業標準 API,以快速集成應用和熱門 AI 開發框架 (包括 LangChain 和 LlamaIndex)。 本文將幫助您著手構建基于視覺語言模型(VLM)的多模態信息檢索系統,該系統能夠回答涉及文本、圖像和表格的復雜查詢。

Source

]]>
13023
利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 實現 LLM 擴展 http://www.open-lab.net/zh-cn/blog/scaling-llms-with-nvidia-triton-and-nvidia-tensorrt-llm-using-kubernetes/ Tue, 22 Oct 2024 03:19:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=11626 Continued]]> 大語言模型 (LLMs) 已廣泛應用于聊天機器人、內容生成、摘要、分類、翻譯等領域。State-of-the-art LLMs 和基礎模型如 Llama , Gemma , GPT 和 Nemotron ,已經展示了類似人類的理解能力和生成能力。借助這些模型,AI 開發者無需從頭開始經歷昂貴且耗時的訓練過程。 可應用 檢索增強生成(RAG)、prompt running 和 fine-tuning 等技術來定制基礎模型,并在更短的時間內針對特定任務實現更高的準確性,定制化模型可在生產環境中快速部署,滿足各種用例的推理請求。 本文分步介紹了如何使用 NVIDIA TensorRT-LLM 優化 Large Language Models、如何使用 NVIDIA Triton Inference Server 部署優化模型,

Source

]]>
11626
使用 Kubernetes 自動縮放 NVIDIA Riva 部署,用于生產中的語音 AI http://www.open-lab.net/zh-cn/blog/autoscaling-nvidia-riva-deployment-with-kubernetes-for-speech-ai-in-production/ Thu, 12 Jan 2023 09:23:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=6167 Continued]]> 語音 AI 應用,從呼叫中心到虛擬助理,嚴重依賴 自動語音識別 ( ASR )和文本轉語音( TTS )。 ASR 可以處理音頻信號并將音頻轉錄為文本。語音合成或 TTS 可以實時從文本中生成高質量、自然的聲音。語音 AI 的挑戰是實現高精度并滿足實時交互的延遲要求。 NVIDIA Riva 是一個 GPU 加速 SDK ,用于構建語音 AI 應用程序,使用最先進的模型實現高精度,同時提供高吞吐量。 Riva 提供世界級的語音識別和文本到語音技能,以與人類進行多種語言的交互。 Riva 可以部署在內部 、云中、邊緣或嵌入式平臺上,您可以擴展 Riva 服務器,以低延遲處理數百或數千個實時流。這篇文章一步一步地指導您如何使用 Kubernetes 進行自動縮放和 Traefik 進行負載平衡來大規模部署 Riva 服務器。 Riva 可以針對不同應用程序(如聊天機器人、

Source

]]>
6167
分割 NVIDIA A30 GPU 并征服多個工作負載 http://www.open-lab.net/zh-cn/blog/dividing-nvidia-a30-gpus-and-conquering-multiple-workloads/ Tue, 30 Aug 2022 03:12:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5007 Continued]]> 多實例 GPU ( MIG )是 NVIDIA H100 , A100 和 A30 張量核 GPU ,因為它可以將 GPU 劃分為多個實例。每個實例都有自己的計算核心、高帶寬內存、二級緩存、 DRAM 帶寬和解碼器等媒體引擎。 這使得多個工作負載或多個用戶能夠在一個 GPU 上同時運行工作負載,以最大化 CPU 利用率,同時保證服務質量( QoS )。單個 A30 可以被劃分為最多四個 MIG 實例,以并行運行四個應用程序。 這篇文章將指導您如何在 A30 上使用 MIG ,從劃分 MIG 實例到同時在 MIG 實例上運行深度學習應用程序。 默認情況下, A30 上禁用 MIG 模式。在分區 GPU 上運行任何 MIG 工作負載之前,必須啟用 CUDA 模式,然后對 A30 進行分區。要劃分 A30 ,請創建 GPU 實例,然后創建相應的計算實例。

Source

]]>
5007
使用 NVIDIA A30 GPU 加速人工智能推理工作負載 http://www.open-lab.net/zh-cn/blog/accelerating-ai-inference-workloads-with-nvidia-a30-gpu/ Wed, 11 May 2022 10:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3946 Continued]]> NVIDIA A30 GPU 基于最新的 NVIDIA Ampere 體系結構,可加速各種工作負載,如大規模人工智能推理、企業培訓和數據中心主流服務器的 HPC 應用程序。 A30 PCIe 卡將第三代 Tensor 內核與大容量 HBM2 內存( 24 GB )和快速 GPU 內存帶寬( 933 GB / s )組合在一個低功耗外殼中(最大 165 W )。 A30 支持廣泛的數學精度: 它還支持 Tensor Float 32 ( TF32 )和 Tensor Core FP64 等創新技術,提供了一個單一的加速器來加速每個工作負載。 圖 1 顯示了 TF32 ,其范圍為 FP32 ,精度為 FP16 。 TF32 是 PyTorch 、 TensorFlow 和 MXNet 中的默認選項,因此在上一代 NVIDIA Volta 架構中實現加速不需要更改代碼。

Source

]]>
3946
使用 MIG 和 Kubernetes 大規模部署 MIG Triton http://www.open-lab.net/zh-cn/blog/deploying-nvidia-triton-at-scale-with-mig-and-kubernetes/ Wed, 25 Aug 2021 06:40:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=1530 Continued]]> NVIDIA Triton 推理服務器是一款開源人工智能模型服務軟件,可簡化在生產中大規模部署經過培訓的人工智能模型。對于服務器管理的任何模型,客戶端可以遠程向提供的 HTTP 或 gRPC 端點發送推斷請求。 NVIDIA Triton 可以管理任意數量和混合型號(受系統磁盤和內存資源的限制)。它還支持多種深度學習框架,如 TensorFlow 、 PyTorch 、 NVIDIA TensorRT 等。這為開發者和數據科學家提供了靈活性,他們不再需要使用特定的模型框架。 NVIDIA Triton 旨在輕松與 Kubernetes 集成,以便在數據中心進行大規模部署。 多實例并行運行多個工作負載( MIG )可以最大化 A100 GPU 和新發布的 A30 GPU 的 GPU 利用率。它還可以讓多個用戶通過 GPU 共享一個 GPU ,就像有多個更小的 GPU 一樣。

Source

]]>
1530
從文本實時生成自然語音 http://www.open-lab.net/zh-cn/blog/generate-natural-sounding-speech-from-text-in-real-time/ Tue, 10 Sep 2019 08:38:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=359 Continued]]> 這篇文章,旨在為具有深入學習專業水平的開發人員準備,將幫助您生成一個準備生產、人工智能、文本到語音的模型。 幾十年來,將文本實時轉換為高質量、自然發音的語音一直是一項具有挑戰性的任務。最先進的語音合成模型是基于參數神經網絡 1 。文本到語音( TTS )合成通常分兩步完成。 優化的 Tacotron2 模型 2 和新的 WaveGlow 模型 1 利用 NVIDIA Volta 上的 張量核 和圖靈 GPUs 將文本實時轉換為高質量的自然發音語音。生成的音頻具有清晰的人聲,沒有背景噪音。 下面是一個使用此模型可以實現的示例: 輸入: “ 威廉·莎士比亞是英國詩人、劇作家和演員,被公認為英語中最偉大的作家和世界上最偉大的劇作家。他常被稱為英國的民族詩人和‘雅芳吟游詩人’。” 輸出: 在遵循 Jupyter 筆記本 中的步驟之后,

Source

]]>
359
人人超碰97caoporen国产