• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • AI 平臺/部署

    聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求

    對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎,每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。

    為了滿足這一需求,Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs NVIDIA Triton Inference Server NVIDIA TensorRT-LLM 來進行經濟高效的 大語言模型(LLM) 部署。本文根據他們的實操經驗,詳細介紹了一些部署最佳實踐和節省的 TCO。

    同時為多個 AI 模型提供服務?

    為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求,Perplexity 的推理團隊同時為 20 多個 AI 模型提供服務。其中包括熱門開源 Llama 3.1 模型的不同變體,如 8B、70B 和 405B。

    為了將每個用戶請求與適當的模型相匹配,該公司依靠較小的分類器模型來幫助確定用戶意圖。然后,分類器檢測到的用戶任務 (例如文本補全) 會被路由到部署在 GPU 節點上的特定模型。每個節點由一個或多個 NVIDIA H100 GPU 組成,并由 NVIDIA Triton Inference Server 實例管理。這些節點遵循嚴格的服務級別協議 (SLA) 運行,以實現成本效益和用戶交互。

    Architecture diagram showing how Perplexity uses a load balancer to route traffic across different NVIDIA H100 Tensor Core GPU pods that are serving LLMs using NVIDIA Triton Inference Server and NVIDIA TensorRT-LLM.
    圖 1. Perplexity AI 使用 NVIDIA HGX H100 4-GPU 和 8-GPU 系統大規模部署 LLM 生產,具有動態可擴展性、模型并行性和負載均衡功能

    為了適應龐大的 Perplexity 用戶群和全天波動的流量,Pod 托管在 Kubernetes 集群內。它們具有內置的前端調度程序,可根據負載和使用情況將流量路由到適當的 Pod,從而確保始終滿足 SLA。

    前端調度程序使用的調度算法會影響令牌間延遲,尤其是在改善最差性能百分位方面 (Figure 2)。Perplexity 團隊不斷尋找新的調度器優化,包括如何更好地考慮不同請求之間的序列長度變化。

    Chart showing how the different scheduling algorithms of round robin, least request, and power of two random choices affect the inter-token latency.
    圖 2、在 16 QPS 的中等請求速率下,在內部 Perplexity 基準測試中,循環、最小請求的令牌間延遲分配,以及兩種隨機選擇負載均衡策略的能力

    Triton Inference Server 是 Perplexity 部署架構的關鍵組件。它跨各種后端提供優化模型、批量處理傳入用戶請求,并向調度程序提供 GPU 利用率指標。這支持根據推理請求的數量增加或減少部署和 GPU 的數量。

    有關如何使用 Kubernetes 部署 NVIDIA Triton 的詳細指南,請參閱 使用 Kubernetes 擴展 LLMs with NVIDIA Triton 和 NVIDIA TensorRT-LLM

    滿足嚴格的服務級別協議?

    為了為公司的各種用例定義合適的 SLA,Perplexity 的推理團隊進行了全面的 A/B 測試,評估不同的配置及其對用戶體驗的影響。他們的目標是最大限度地提高 GPU 利用率,同時始終滿足每個特定用例的目標 SLA。通過在滿足目標 SLA 的同時改進 batching,推理服務成本得以優化。

    對于較小的模型,例如嵌入實時檢索中使用的 10 億個參數以下的模型,重點在于盡可能降低延遲。這些通常對用戶隱藏,并且是更廣泛工作流程的一部分。因此,這些查詢的配置通常具有較低的批量大小。鑒于這些模型的內存占用空間較小,該團隊在 NVIDIA H100 GPU 上同時運行多個模型,以保持高資源利用率。

    對于面向用戶的模型 (例如 Llama 8B、70B 和 405B),這些模型對用戶體驗和部署成本的影響更大,因此該團隊會進行更深入的性能分析,并評估關鍵指標,例如時間到第一個 token、每位用戶每秒 token 數以及每百萬次查詢的成本。

    為了在控制成本的同時優化性能,Perplexity 跨多個 GPU 并行部署這些模型。由于嚴格的服務水平協議 (SLA),該團隊選擇將張量并行性增加到 4 個和 8 個 GPU,他們發現這樣可以在固定的 GPU 預算內降低對延遲非常敏感的請求的服務成本。數據或 pipeline 并行有助于在延遲敏感度較低的設置中更大限度地提高吞吐量。

    Perplexity 團隊現在將 TensorRT-LLM 與使用優化的 CUDA 內核構建的專有 LLM 運行時相結合,以更低的成本在嚴格的 SLA 中成功為基于 Llama 的模型提供服務。

    Chart showing how Perplexity's cost per million token varies with different Time Per Output Token SLAs and model parallelism.
    圖 3、在四個 NVIDIA Hopper GPU 上使用張量并行機制對 Llama 8B 模型進行分片,可將 Perplexity 每百萬個令牌的相對成本降低高達 3 倍,以處理延遲敏感型請求

    最終,Perplexity 推理團隊決定托管模型,取決于他們能否以較低的成本為這些模型提供服務,同時仍滿足嚴格的服務水平協議 (SLA),與使用第三方 LLM 提供商 API 相比。例如,該團隊估計,與向第三方 LLM API 服務提供商發送相同的請求量相比,通過在云托管的 NVIDIA GPUs 上提供支持其 Related-Questions 功能的模型,他們每年能夠節省約 $1 million。“Related-Questions” 功能為 Perplexity 用戶提供后續問題建議,以便在搜索查詢后進行更深入的研究。

    Visual showing Perplexity’s annual savings from serving the AI models of one of their features internally versus using external third-party API services.
    圖 4、與使用第三方 LLM API 服務相比,Perplexity 使用其部署架構在云托管的 NVIDIA GPU 上提供 Related-Questions AI 模型,每年可節省約 100 萬美元

    提供更高水平的性能?

    Perplexity 的推理團隊對其路線圖采用全面的全棧方法,不斷優化和增強堆棧的每一層 (從應用和用例到為中間件和硬件加速器提供服務的推理)。

    在推理服務中間件方面,該團隊正在積極與 NVIDIA Triton 工程團隊合作,部署 分解服務 ,這是一項突破性技術,可將 LLM 工作流的預填充和解碼推理階段分離到單獨的 NVIDIA GPU。此技術可顯著提高整體系統吞吐量,同時滿足 SLA,從而降低每個令牌的成本。此外,鑒于 Perplexity 的特定硬件資源需求,此技術還可讓 Perplexity 在每個推理階段靈活使用不同的 NVIDIA GPU 產品。

    Perplexity 團隊明白,優化軟件堆棧只能在一定程度上推動性能提升。為了提供更高級別的性能,硬件創新至關重要。因此,他們迫切希望評估 NVIDIA Blackwell 平臺

    NVIDIA Blackwell 通過眾多技術創新實現了 顯著的性能飛躍 ,包括支持 FP4 數據格式的第二代 Transformer Engine、支持更大 NVLink 域的第五代 NVLink 和 NVSwitch 等。總體而言,這些創新可將 萬億級參數 LLM 的推理性能提升 30 倍。

    開始使用?

    NVIDIA Triton Inference Server NVIDIA TensorRT 是 GitHub 上的開源項目。它們還可用作 Docker 容器,可從 NVIDIA NGC 中提取。它們是 NVIDIA AI Enterprise 的一部分,可提供企業級安全性、穩定性和支持。尋求快速實現價值的企業可以使用 NVIDIA NIM ,這是一套易于使用的微服務,可加速各種 AI 模型(包括開源社區和 NVIDIA AI Foundation 模型)的推理。

    如需了解詳情,請查看以下資源:

    0

    標簽

    人人超碰97caoporen国产