Triton 推理服務器 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 26 Mar 2025 05:54:39 +0000
zh-CN
hourly
1
196178272 -
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架
http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/
Tue, 18 Mar 2025 05:47:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=13330
Continued]]>
NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時,該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容, NVIDIA TensorRT-LLM 和 vLLM,加入不斷擴大的推理工具社區,助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新,包括: 從今天開始,NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業,
Source
]]>
13330
-
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務
http://www.open-lab.net/zh-cn/blog/spotlight-naver-place-optimizes-slm-based-vertical-services-with-nvidia-tensorrt-llm/
Fri, 28 Feb 2025 06:40:09 +0000
http://www.open-lab.net/zh-cn/blog/?p=13155
Continued]]>
NAVER 是一家韓國熱門搜索引擎公司,提供 Naver Place ,這是一項基于地理的服務,可提供有關韓國數百萬家企業和興趣點的詳細信息。用戶可以搜索不同的地點、發表評論,以及實時進行預訂或下單。 NAVER Place 垂直服務基于小語言模型 (SLMs) 來提高可用性,并專門針對 Place、Map 和 Travel。本文分享了 NVIDIA 和 NAVER 如何使用 NVIDIA TensorRT-LLM 優化 SLM 推理性能,從而在 NVIDIA Triton Inference Server 上實現基于 SLM 的垂直服務。如需詳細了解 NAVER 如何使用 AI,請參閱 NAVER Place AI 開發團隊簡介 。 與 大語言模型(LLMs) 相比,小語言模型(SLMs)是能夠以更少的參數理解自然語言的 AI 模型。眾所周知,
Source
]]>
13155
-
借助 NVIDIA 全棧解決方案提升 AI 推理性能
http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/
Tue, 24 Dec 2024 05:43:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=12923
Continued]]>
AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,
Source
]]>
12923
-
AEC 檢索增強生成技術指南
http://www.open-lab.net/zh-cn/blog/a-guide-to-retrieval-augmented-generation-for-aec/
Wed, 18 Dec 2024 09:27:28 +0000
http://www.open-lab.net/zh-cn/blog/?p=12492
Continued]]>
大語言模型 (LLMs) 正在迅速改變業務格局,為自然語言處理 (NLP)、內容生成和數據分析提供新功能。這些 AI 驅動的工具改善了公司的運營方式,從簡化客戶服務到增強決策流程。 然而,盡管 LLM 擁有令人印象深刻的一般知識,但其準確性、最新信息和特定領域的知識卻常常捉見肘。這可能會導致建筑、施工和工程 (AEC) 等專業領域出現潛在的錯誤信息和過度簡化,而準確的最新信息對于做出明智決策和確保遵守行業法規至關重要。 想象一下,一個由建筑師和工程師組成的設計團隊會使用 LLM 提出山中房屋的構思。當被問及是否采用適合當地氣候的可持續建筑技術時,LLM 可能會提供有關使用太陽能板和綠色屋頂的通用回答,而無需考慮高海拔環境的特定挑戰,例如極端溫度波動和潛在的雪載。在問題更嚴重的情況下,LLM 可能會產生幻覺,并建議使用“太陽能融雪板”— — 這項技術聽起來很創新,但根本不存在。
Source
]]>
12492
-
聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求
http://www.open-lab.net/zh-cn/blog/spotlight-perplexity-ai-serves-400-million-search-queries-a-month-using-nvidia-inference-stack/
Thu, 05 Dec 2024 07:26:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=12401
Continued]]>
對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎,每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。 為了滿足這一需求,Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs 、 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 來進行經濟高效的 大語言模型(LLM) 部署。本文根據他們的實操經驗,詳細介紹了一些部署最佳實踐和節省的 TCO。 為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求,
Source
]]>
12401
-
AI 驅動的設備追蹤嚎叫以拯救狼群
http://www.open-lab.net/zh-cn/blog/ai-powered-devices-track-howls-to-save-wolves/
Tue, 29 Oct 2024 05:23:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=11776
Continued]]>
一種可部署在廣大偏遠地區的手機大小的新型設備正在使用人工智能識別和地理定位野生動物,以幫助保護主義者追蹤瀕危物種,包括黃石國家公園周圍的狼群。 這款名為 GrizCams 的電池供電設備由蒙大拿州的一家小型初創公司 Grizzly Systems 設計。他們與生物學家合作,在整個大黃石生態系統中部署一系列設備,以錄制有關狼或狼群叫的時間和地點的音頻和視頻。 一旦完全部署,這些數據可以幫助科學家和環保人士更好地了解狼的行為,并制定新的策略來阻止狼攻擊牲畜。 環保人士每隔幾個月就會在遠程錄音機上從 SD 卡中檢索音頻數據。這些數據由使用數 TB 的狼嚎叫數據訓練的 AI 模型輸入和分析。該模型是一種卷積神經網絡,可將音頻轉換為頻譜圖,然后分析數據,識別狼嚎叫的不同方面,并對聲音的來源進行地理定位。 Grizzly Systems 使用 Azure 云中的 NVIDIA…
Source
]]>
11776
-
利用圖形神經網絡加速金融服務業欺詐檢測效率
http://www.open-lab.net/zh-cn/blog/supercharging-fraud-detection-in-financial-services-with-graph-neural-networks/
Mon, 28 Oct 2024 05:53:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=11788
Continued]]>
金融服務欺詐是一個巨大的問題。根據 NASDAQ 的數據,在 2023 年,銀行在支付、支票和信用卡欺詐方面預計會面臨 442 億美元的損失。不過,這不僅僅與資金有關。欺詐會損害公司的聲譽,并在阻止合法購買時讓客戶失望。這被稱為 誤報 。遺憾的是,這些錯誤發生的頻率比您想象的要多,因為傳統的欺詐檢測方法根本跟不上欺詐的復雜性。 本文重點介紹信用卡交易欺詐,這是一種最常見的金融欺詐形式。雖然其他類型的欺詐(例如身份盜用、帳戶接管和反洗錢)也值得關注,但信用卡欺詐由于其交易量大、攻擊面廣,因此構成了一項獨特的挑戰,使其成為欺詐者的主要目標。據 Nilson 估計,到 2026 年,金融機構每年的信用卡損失預計將達到 430 億美元。 傳統的欺詐檢測方法依賴于基于規則的系統或統計方法,在識別復雜的欺詐活動方面反應遲鈍,并且效率越來越低。隨著數據量的增長和欺詐策略的演變,
Source
]]>
11788
-
利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 實現 LLM 擴展
http://www.open-lab.net/zh-cn/blog/scaling-llms-with-nvidia-triton-and-nvidia-tensorrt-llm-using-kubernetes/
Tue, 22 Oct 2024 03:19:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=11626
Continued]]>
大語言模型 (LLMs) 已廣泛應用于聊天機器人、內容生成、摘要、分類、翻譯等領域。State-of-the-art LLMs 和基礎模型如 Llama , Gemma , GPT 和 Nemotron ,已經展示了類似人類的理解能力和生成能力。借助這些模型,AI 開發者無需從頭開始經歷昂貴且耗時的訓練過程。 可應用 檢索增強生成(RAG)、prompt running 和 fine-tuning 等技術來定制基礎模型,并在更短的時間內針對特定任務實現更高的準確性,定制化模型可在生產環境中快速部署,滿足各種用例的推理請求。 本文分步介紹了如何使用 NVIDIA TensorRT-LLM 優化 Large Language Models、如何使用 NVIDIA Triton Inference Server 部署優化模型,
Source
]]>
11626
-
借助檢索增強型生成技術推動 AI 賦能游戲開發的演進
http://www.open-lab.net/zh-cn/blog/evolving-ai-powered-game-development-with-retrieval-augmented-generation/
Tue, 01 Oct 2024 08:52:57 +0000
http://www.open-lab.net/zh-cn/blog/?p=11486
Continued]]>
游戲開發是一個復雜且資源密集型的過程,尤其是在使用 像 Unreal Engine 這樣的高級工具 時。開發者會發現自己需要瀏覽大量信息,這些信息通常分散在教程、用戶手冊、API 文檔和源代碼本身中。這是一項多方面的工作,需要具備編程、設計和項目管理方面的專業知識,同時需要在創新和實際實施之間取得平衡,以滿足緊迫的截止日期和玩家期望。 大型語言模型(LLMs) 正在集成到開發流程的各個階段。這些模型通過驅動智能非玩家角色(NPC)、協助代碼生成以及最大限度地減少重復性任務所花費的時間,正在改變工作流程。然而,當 LLMs 缺乏對特定領域知識的訪問權限時——無論是角色的背景故事還是游戲引擎源代碼的復雜性——其有效性都會受到限制。雖然使用專業數據對這些模型進行微調可以幫助克服這些限制,但這一過程通常耗時且昂貴,對于希望在工作流程中充分利用人工智能的開發者來說,構成了重大挑戰。
Source
]]>
11486
-
NVIDIA Blackwell 平臺在 MLPerf Inference v4.1 中創下新的 LLM 推理記錄
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/
Wed, 28 Aug 2024 07:05:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=11091
Continued]]>
大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、高效的加速庫和高度優化的推理引擎。 MLPerf Inference v4.1 是廣受認可的熱門 MLPerf Inference 基準測試的最新版本,由 MLCommons 聯盟開發。該基準測試包括許多熱門 AI 模型,涵蓋從 LLM 和生成式 AI 到推薦系統和計算機視覺的各種用例。這些基準測試會定期更新,以確保市場相關性。 在這一輪中,NVIDIA 憑借整個 NVIDIA 技術堆棧的創新提交了許多出色的結果。亮點包括: 本文將對這些結果進行詳細介紹。 NVIDIA Blackwell 架構在 NVIDIA GTC 2024 上推出,是一種新型 AI 超級芯片。它由 2080 億個晶體管精心制作而成,并采用專為 NVIDIA 定制的 TSMC…
Source
]]>
11091
-
NVIDIA Triton 推理服務器在 MLPerf Inference 4.1 基準測試中實現出色性能
http://www.open-lab.net/zh-cn/blog/nvidia-triton-inference-server-achieves-outstanding-performance-in-mlperf-inference-4-1-benchmarks/
Wed, 28 Aug 2024 06:44:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=11085
Continued]]>
六年前,我們踏上了開發 AI 推理服務解決方案的旅程,該解決方案專為高吞吐量和時間敏感型生產用例而設計。當時,ML 開發者正在部署定制的、框架特定的 AI 解決方案,這推高了他們的運營成本,并且無法滿足其延遲和吞吐量服務級別協議。 我們很早就決定構建一個多功能的開源服務器,能夠服務于任何模型,不管其AI后端框架如何。 今天,NVIDIA Triton Inference Server 是 NVIDIA 最受歡迎的開源項目之一,被一些世界領先的組織用于在生產環境中部署 AI 模型,包括 Amazon、Microsoft、Oracle Cloud、American Express、Snap、Docusign 等。 我們很高興地宣布,NVIDIA Triton 在配備 8 個 H200 GPU 的系統上運行,實現了一個重要的里程碑,與 MLPerf Inference v4.1…
Source
]]>
11085
-
LLM 推理規模和性能優化的實踐策略
http://www.open-lab.net/zh-cn/blog/practical-strategies-for-optimizing-llm-inference-sizing-and-performance/
Wed, 21 Aug 2024 07:43:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=11025
Continued]]>
隨著聊天機器人和內容創建等許多應用越來越多地使用大型語言模型(LLM),了解擴展和優化推理系統的過程非常重要,以便就 LLM 推理的硬件和資源做出明智的決策。 在接下來的一場演講中,NVIDIA 的高級深度學習解決方案架構師Dmitry Mironov 和 Sergio Perez 將指導您了解 LLM 推理規模的關鍵方面。他們分享了他們的專業知識、最佳實踐和技巧,并將指導您如何高效地處理部署和優化 LLM 推理項目的復雜性。 請閱讀會議的 PDF,同時了解如何通過了解 LLM 推理規模中的關鍵指標為您的 AI 項目選擇正確的路徑。探索如何準確確定硬件和資源的規模、優化性能和成本,以及選擇最佳的部署策略,不論是在本地還是在云端。 您還將介紹NVIDIA NeMo推理規模計算器(使用此NIM進行LLM基準測試指南復制)和NVIDIA Triton性能分析器等高級工具,
Source
]]>
11025
-
使用 NVIDIA GenAI-Perf 和 OpenAI 兼容 API 測量生成式 AI 模型性能
http://www.open-lab.net/zh-cn/blog/measuring-generative-ai-model-performance-using-nvidia-genai-perf-and-an-openai-compatible-api/
Thu, 01 Aug 2024 06:03:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=10945
Continued]]>
NVIDIA 提供 Perf Analyzer 和 Model Analyzer 等工具,幫助機器學習工程師測量和平衡延遲與吞吐量之間的權衡,這對于優化 ML 推理性能至關重要。領先組織如 Snap 已采用 Model Analyzer 確定可提高吞吐量并降低部署成本的最佳配置。 但是,當為生成式 AI 模型(尤其是大型語言模型(LLMs))提供服務時,性能測量變得更加專業化。 對于 LLM,我們將延遲和吞吐量指標進一步細分為令牌級指標。以下列表顯示了關鍵指標,但跟蹤請求延遲、請求吞吐量和輸出令牌數量等其他指標也很重要。 在測量 LLM 時,必須快速且一致地查看用戶和模型的結果。對于許多應用程序,第一個令牌的時間被賦予最高優先級,其次是輸出令牌吞吐量和令牌間延遲。但是,能夠報告所有這些指標的工具可以幫助定義和測量對您特定系統和用例來說最重要的內容。
Source
]]>
10945
-
使用 NVIDIA NIM 實現多語種大語言模型部署
http://www.open-lab.net/zh-cn/blog/deploy-multilingual-llms-with-nvidia-nim/
Mon, 08 Jul 2024 07:40:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=10600
Continued]]>
對于在當今全球化商業環境中運營的企業而言,多語種大型語言模型(LLM)的重要性與日俱增。隨著企業跨越國界和文化擴展業務,使用多種語言進行有效溝通的能力對于取得成功至關重要。通過支持和投資多語種 LLM,企業可以打破語言障礙,培養包容性,并在全球市場中獲得競爭優勢。 基礎模型 在處理多語種語言時通常會面臨挑戰。大多數模型主要使用英語文本語料庫進行訓練,這導致了對西方語言模式和文化規范的內在偏見。 這導致 LLM 難以準確捕捉非西方語言和社會特有的細微差別、習語和文化語境。此外,許多低資源語言缺乏高質量數字化文本數據,這進一步加劇了資源緊缺問題,使 LLM 難以跨這些語言進行有效學習和泛化。因此,LLM 通常無法反映非西方語言固有的文化上適當的表達、情感含義和上下文微妙之處,從而導致潛在的錯誤解釋或有偏見的輸出。 根據Meta Llama 3最近的一篇博客文章:
Source
]]>
10600
-
借助 NVIDIA GPU 和無邊緣系統提高大型語言模型的安全性
http://www.open-lab.net/zh-cn/blog/advancing-security-for-large-language-models-with-nvidia-gpus-and-edgeless-systems/
Tue, 02 Jul 2024 04:50:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=10531
Continued]]>
Edgeless Systems 推出了 Continuum AI,這是首款生成式 AI 框架,始終通過機密計算對提示進行加密,方法是將機密 VM 與 NVIDIA H100 GPU 和安全沙盒相結合。 該平臺的推出凸顯了 AI 部署的新時代,在這個時代,強大的 LLM 的優勢可以在不影響數據隱私和安全的情況下實現。Edgeless Systems 是一家德國網絡安全公司,致力于開發用于機密計算的開源軟件,該公司正在與 NVIDIA 合作,助力各行各業的企業滿懷信心地將 AI 集成到其運營中。 機密 LLM 平臺不僅僅是一項技術進步,而是邁向組織可以安全利用 AI (即使是最敏感數據) 的未來的關鍵一步。 Continuum 技術有兩個主要的安全目標。它首先保護用戶數據,同時還保護 AI 模型權重不受基礎設施、服務提供商和其他的影響。
Source
]]>
10531
人人超碰97caoporen国产