AI 智能體 正在通過實現流程自動化、優化決策制定和簡化操作來改變業務運營。其有效性取決于專家推理,從而實現更明智的規劃和高效執行。
代理式 AI 應用可以從 DeepSeek-R1 等模型的功能中受益。DeepSeek-R1 專為解決需要高級 AI 推理的問題而構建,是一個包含 671 億個參數的 開放式專家混合模型 (MoE)。經過強化學習 (RL) 技術的訓練,該模型能夠激勵準確、結構化的推理鏈,在邏輯推理、多步驟問題解決和結構化分析方面表現出色。
DeepSeek-R1 通過 chain-of-thought (CoT) 推理將復雜問題分解為多個步驟,使其能夠更準確、更深入地處理復雜問題。為此,DeepSeek-R1 使用 test-time scaling,這是一種新的 scaling law,通過在推理過程中分配額外的計算資源來增強模型的功能和演能力。
但是,這種結構化 AI 推理的代價是更長的推理時間。隨著模型處理更復雜的問題,推理時間會呈非線性擴展,這使得實時和大規模部署更具挑戰性。優化其執行力對于使 DeepSeek-R1 切實可行以實現更廣泛的采用至關重要。
本文將介紹 DeepSeek-R1 NIM 微服務 ,以及如何使用該服務構建 AI 智能體,將 PDF 轉換為獨白或對話形式的引人入勝的音頻內容。
DeepSeek-R1 掌握復雜的推理和戰略適應性
DeepSeek-R1 在 AIME 2024、CodeForces、GPQA Diamond、MATH-500、MMLU 和 SWE-Bench 等基準測試中的出色性能凸顯了其高級推理以及數學和編碼能力。對于企業代理式 AI 而言,這意味著各個領域的問題解決和決策能力得到了增強。它精通復雜任務,能夠實現復雜工作流程的自動化,從而實現更高效、更可擴展的操作。
然而,推理模型并不非常適合提取和總結信息等提取任務。他們沒有高效地檢索答案,而是傾向于過度思考,在回答問題之前不必要地分析細微差別。這降低了性能并浪費了計算資源,使其無法高效處理基于事實的高吞吐量任務,而在這些任務中,更簡單的檢索模型會更加有效。
使用 DeepSeek-R1 NIM 微服務增強代理推理
作為開發者,您可以使用 DeepSeek-R1 NIM 微服務 ,通過私有托管端點將先進的推理功能輕松集成到 AI 代理中,該服務現在可供下載并部署到任何地方。這種集成增強了 AI 代理的規劃、決策和行動。
NVIDIA NIM 微服務 支持行業標準 APIs,并且能夠在任何 Kubernetes 提供支持的 GPU 系統上大規模無縫部署,包括云、數據中心、工作站和 PC。在您的安全基礎設施上靈活運行 NIM 微服務,還可讓您完全控制專有數據。
NIM 微服務可提高模型的性能,使企業 AI 智能體能夠在 GPU 加速系統上更快地運行。更快的推理通過在動態環境中跨相互依賴的智能體加速決策來提高代理式 AI 系統的性能。
借助 NVIDIA NIM 大規模優化性能
NVIDIA NIM 經過優化,可跨不同的 NVIDIA GPU 提供高吞吐量和延遲。通過利用 Data Parallel Attention,NVIDIA NIM 可進行擴展,在單個 NVIDIA H200 Tensor Core GPU 節點上為用戶提供支持,確保即使在峰值需求下也能實現高性能。
它通過跨所有層利用的 NVIDIA Hopper 架構 FP8 Transformer 引擎,以及可加速 MoE 通信以實現無縫可擴展性的 900 GB/s NVLink 帶寬來實現這一效率。這種高效率可降低總體運營成本,而低延遲可提供快速響應,從而增強用戶體驗,使交互更加順暢、響應更靈敏。
隨著 NIM 中加入新的優化,DeepSeek-R1 模型的延遲和吞吐量將繼續提高。
使用 NVIDIA AI Blueprints 和 DeepSeek-R1 構建真實應用
NVIDIA Blueprints 是適用于代理式和生成式 AI 用例的參考工作流。您可以快速將 DeepSeek-R1 NIM 的功能與這些 blueprints 集成。為提供示例,本節將介紹 NVIDIA AI Blueprint 的集成,以便將 PDF 轉換為 podcast。借助此 blueprint,您可以將 PDF 轉換為獨白或對話形式的引人入勝的音頻內容。
此藍圖的一般工作流程如下:
- 用戶將目標 PDF 文檔傳遞給藍圖。本文檔是播客的主要信息來源。用戶可以選擇向藍圖提供多個上下文 PDF 文檔,這些文檔將用作其他信息源。
- 該藍圖將目標 PDF 處理為 markdown 格式,并將結果傳遞給長推理代理。
- 此藍圖的代理式工作流依賴于多個 LLM NIM 端點來迭代處理文檔,包括: 用于文檔摘要、原始大綱生成和對話合成的推理 NIM。 用于將原始大綱轉換為結構化片段,以及將對話轉換為結構化對話格式的 JSON NIM。 用于將片段轉換為轉錄的迭代 NIM,以及以連貫一致的方式將對話組合在一起。此 NIM 會被多次并行調用。
- 這些 LLM NIM 微服務以迭代方式使用,并在幾個階段形成最終的播客內容和結構。
- 在最終的結構和內容準備就緒后,使用 ElevenLabs 提供的 Text-to-Speech 服務生成播客音頻文件。
圖 1 概述了此藍圖,可通過 GitHub 上的 NVIDIA-AI-Blueprints/pdf-to-podcast 獲取。

用于每種處理類型的 NIM 可以輕松切換到任何遠程或本地部署的 NIM 端點,如后續章節所述。
Blueprint 要求
可在基于 Ubuntu 的機器 (v20.04 及更高版本) 上本地執行適用于 PDF 至播客的 NVIDIA AI Blueprint。需要遵循的最低要求包括:
- 帶有 NVIDIA Container Toolkit 和 Docker Compose 的 Docker 引擎
- ElevenLabs Text-to-Speech API 的 API 密鑰
- NIM 端點您可以通過注冊獲取 API 密鑰,將 NVIDIA 托管的端點用于 NVIDIA API Catalog 中提供的 DeepSeek-R1 NIM 。有關本地托管的 NIM 端點,請參閱 NVIDIA NIM for LLMs Getting Started 了解部署說明。請注意,DeepSeek-R1 需要部署 16 個 NVIDIA H100 Tensor Core GPUs (或 8 個 NVIDIA H200 Tensor Core GPUs)。確保端點已啟動且可訪問 (例如
localhost:8000
)。
有關更多信息,請參閱 NVIDIA AI Blueprint for PDF to Podcast 文檔 。
Blueprint 設置
要在本地計算機上設置藍圖,請運行以下命令:
# Clone the repository $ cd pdf-to-podcast # Setup the API keys $ echo "ELEVENLABS_API_KEY=your_key" >> .env $ echo "NVIDIA_API_KEY=your_key" >> .env # Avoid ElevenLabs API rate limiting issues $ echo "MAX_CONCURRENT_REQUESTS=1" >> .env # Install the dependencies $ make uv |
模型選擇
指定在各個工作流階段中使用的底層模型非常簡單,可以通過修改 models.json 本地存儲庫中的文件。
考慮到 DeepSeek-R1 的推理能力,此模型將用作推理 NIM,以確保對最終播客進行更深入的分析和討論。其他較小的模型將用于 JSON 和迭代 NIM 微服務,這將大大加快非推理處理階段的速度。
以下代碼演示了如何將 NVIDIA API Catalog 中的一些模型用于播客:
{ "reasoning": { "name": "deepseek-ai/deepseek-r1", "api_base": "https://integrate.api.nvidia.com/v1" }, "json": { "name": "meta/llama-3.1-8b-instruct", "api_base": "https://integrate.api.nvidia.com/v1" }, "iteration": { "name": "meta/llama-3.1-70b-instruct", "api_base": "https://integrate.api.nvidia.com/v1" } } |
請注意,在推理和測試時擴展過程中,DeepSeek-R1 通常會生成許多輸出令牌。如果您使用外部托管的模型或 API (例如通過 NVIDIA API Catalog 或 ElevenLabs TTS 服務提供的模型或 API),請注意 API 使用信用限制或其他相關成本和限制。
指定模型后,您可以通過運行以下命令啟動播客生成代理服務:
# Start the services $ make all-services |
此命令會在活動終端中啟動播客生成所需的所有服務。要停止服務,只需在該終端中發送 CTRL + C 信號即可。
生成播客
所有代理服務啟動并運行后,您就可以開始生成播客了。存儲庫提供了一些可在 samples
目錄下使用的示例文檔。您可以將自己的文檔復制到 samples
目錄,以使用這些文檔。
運行以下命令以開始生成播客:
# From inside the `pdf-to-podcast` directory: # Activate the virtual environment $ source .venv/bin/activate # To generate a podcast with two speakers (dialog form): $ python tests/test.py --target <main_doc.pdf> --context <context_doc.pdf> # To generate a podcast with a single speakers (monologue form): $ python tests/test.py --target <main_doc.pdf> --context <context_doc.pdf> --monologue |
以上命令執行完畢后,生成的播客將被寫入 tests
目錄下的 MP3 文件中。
請注意,在使用 DeepSeek-R1 模型作為推理模型時,我們建議為您的播客嘗試簡短的文檔 (例如一頁或兩頁),以避免遇到超時問題或 API 使用積分限制。
自定義和試驗
您可以控制此藍圖中使用的底層模型的行為,并根據自己的喜好對其進行自定義。 podcast_prompts.py 中提供了用于調用每個模型的提示。具體來說,定義 PODCAST_SUMMARY_PROMPT_STR
以及 PODCAST_MULTI_PDF_OUTLINE_PROMPT_STR
和 PODCAST_TRANSCRIPT_TO_DIALOGUE_PROMPT_STR
用于在生成過程中調用推理模型。調整這些提示并嘗試使用藍圖。
開始使用 DeepSeek-R1 NIM 微服務
通過將 DeepSeek-R1 的推理能力與 NVIDIA NIM 微服務提供的靈活、安全的部署相結合,您可以構建 AI 智能體,在現實世界的應用中提供快速、準確的推理。您還可以在各種 NVIDIA Blueprints 中利用 DeepSeek-R1 NIM。
使用 NVIDIA 托管的 API 開始使用 DeepSeek-R1 NVIDIA NIM ,或下載 NVIDIA 平臺并運行。
?
?