LLM – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 24 Apr 2025 06:26:56 +0000
zh-CN
hourly
1
196178272 -
使用 NVIDIA NeMo 微服務,通過數據飛輪增強 AI 智能體
http://www.open-lab.net/zh-cn/blog/enhance-your-ai-agent-with-data-flywheels-using-nvidia-nemo-microservices/
Wed, 23 Apr 2025 05:54:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13617
Continued]]>
企業數據不斷變化。隨著時間的推移,這給保持 AI 系統的準確性帶來了重大挑戰。隨著企業組織越來越依賴 代理式 AI 系統 來優化業務流程,保持這些系統與不斷變化的業務需求和新數據保持一致變得至關重要。 本文將深入探討如何使用 NVIDIA NeMo 微服務構建數據飛輪迭代,并簡要概述構建端到端流程的步驟。如需了解如何使用 NeMo 微服務解決構建數據飛輪時面臨的各種挑戰,請參閱使用 NVIDIA NeMo 微服務更大限度地提高 AI Agent 性能。 數據飛輪是一種自我增強的循環。從用戶交互中收集的數據可改進 AI 模型,從而提供更好的結果,吸引更多用戶生成更多數據,從而在持續改進循環中進一步增強系統。這類似于獲取經驗和收集反饋以學習和改進工作的過程。 因此,需要部署的應用持續適應并保持高效是將數據 flywheel 整合到代理式系統中的主要動機。
Source
]]>
13617
-
NVIDIA Secure AI 正式發布
http://www.open-lab.net/zh-cn/blog/announcing-nvidia-secure-ai-general-availability/
Wed, 23 Apr 2025 05:39:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=13608
Continued]]>
隨著許多企業開始對其數據進行 AI 訓練或推理,需要保護數據和代碼,尤其是大語言模型 (LLMs) 。由于數據敏感性,許多客戶無法冒險將數據放在云端。此類數據可能包含個人身份信息 (PII) 或公司專有信息,且經過訓練的模型擁有寶貴的知識產權 (IP) 。 NVIDIA Confidential Computing (CC) 是保護大型 AI 模型和數據的出色解決方案。借助 NVIDIA CC,企業無需在性能和安全性之間做出權衡。NVIDIA 最初于 2023 年發布了 CC,并繼續與 CPU 合作伙伴、云提供商和獨立軟件供應商 (ISVs) 合作,以確保從傳統的加速工作負載到機密的加速工作負載的轉變是流暢和透明的。 本文將介紹基于 NVIDIA HGX H100 8-GPU 和 NVIDIA HGX H200 8-GPU 的安全 AI(即 Protected…
Source
]]>
13608
-
聚焦:Qodo 借助 NVIDIA DGX 實現高效代碼搜索創新
http://www.open-lab.net/zh-cn/blog/spotlight-qodo-innovates-efficient-code-search-with-nvidia-dgx/
Wed, 23 Apr 2025 05:33:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=13605
Continued]]>
大語言模型 (LLMs) 使 AI 工具能夠幫助您更快地編寫更多代碼,但隨著我們要求這些工具承擔越來越復雜的任務,其局限性變得顯而易見。理解編程語言的細微差別、復雜的依賴項以及適應代碼庫特定上下文等挑戰可能會導致代碼質量低下,并導致后續瓶頸。 Qodo 是 NVIDIA Inception 計劃 的成員,是一個多智能體代碼完整性平臺,可通過 AI 驅動的智能體進行代碼編寫、測試和審查,從而增強和自動化軟件質量工作流。 Qodo 愿景的一個核心原則是,相信只有在深度情境感知的情況下,AI 才能對軟件完整性進行有意義的改進。代碼并非孤立編寫,而是存在于復雜的架構、不斷演變的依賴項和特定的編碼標準中。為了讓 AI 有效地幫助開發者,它不僅必須理解語法,還必須理解代碼庫的意圖、模式和更廣泛的結構。 Qodo 在先進的 檢索增強生成 (RAG) 、
Source
]]>
13605
-
使用 NVIDIA NIM 構建 AI 驅動的自動引用驗證工具
http://www.open-lab.net/zh-cn/blog/developing-an-ai-powered-tool-for-automatic-citation-validation-using-nvidia-nim/
Wed, 16 Apr 2025 05:18:24 +0000
http://www.open-lab.net/zh-cn/blog/?p=13569
Continued]]>
引文的準確性對于保持學術和 AI 生成內容的完整性至關重要。當引用不準確或錯誤時,它們可能會誤導讀者并散布虛假信息。作為一支由悉尼大學機器學習和 AI 研究人員組成的團隊,我們正在開發一種 AI-powered 工具,能夠高效地交叉檢查和分析語義引用的準確性。 提及事實聲明可以幫助讀者相信其有效性,增強作者的可信度,并通過顯示信息來源來提高透明度。然而,確保語義引用的準確性(即確認聲明不僅匹配,而且忠實地代表引用來源的結論,而不會失真或誤解)非常耗時,而且通常需要深入的主題理解。 我們親身經歷了不準確的引用所帶來的挫折和挑戰,這促使我們開發了一個強大且可擴展的解決方案 — Semantic Citation Validation 工具。該解決方案簡化了引文驗證過程,并增強了各個領域的研究完整性。 隨著 大語言模型 (LLM) 的日益普及,對引文驗證的需求變得更加迫切。
Source
]]>
13569
-
宣布推出基于 CUDA 評估 LLM 的開源框架 ComputeEval
http://www.open-lab.net/zh-cn/blog/announcing-computeeval-an-open-source-framework-for-evaluating-llms-on-cuda/
Wed, 16 Apr 2025 05:12:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=13566
Continued]]>
大語言模型 (LLMs) 正在徹底改變開發者的編碼方式和編碼學習方式。對于經驗豐富的或初級的開發者來說,如今的先進模型可以生成 Python 腳本、基于 React 的網站等。未來,強大的 AI 模型將幫助開發者編寫高性能 GPU 代碼。這就提出了一個重要問題:如何確定 LLM 是否能夠處理復雜的 CUDA 編程? ComputeEval 是一個開源框架和數據集,旨在評估 LLM 在 CUDA 代碼生成上的能力。該數據集旨在評估 LLM 在不同的并行編程領域(如內存管理和線程同步)生成正確 CUDA 代碼的能力。該框架旨在簡化對生成代碼的評估。 本文將介紹 ComputeEval 作為評估框架的工作原理、我們對先進模型的評估結果,以及它對 AI 輔助 GPU 開發的未來意味著什么。 ComputeEval 旨在專門為 CUDA 和高性能 GPU…
Source
]]>
13566
-
在 NVIDIA NeMo Guardrails 中使用 Cleanlab 可信語言模型防止 LLM 幻覺
http://www.open-lab.net/zh-cn/blog/prevent-llm-hallucinations-with-the-cleanlab-trustworthy-language-model-in-nvidia-nemo-guardrails/
Wed, 09 Apr 2025 06:15:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=13509
Continued]]>
隨著越來越多的企業將 Large Language Models (LLM) 集成到其應用中,他們面臨著一個嚴峻的挑戰:LLM 可能會產生合理但錯誤的反應,即幻覺。AI 護欄 (即在 AI 模型和應用中執行的保護機制) 是確保 AI 應用可靠性的熱門技術。 本文將介紹如何使用 Cleanlab Trustworthy Language Model (TLM) 和 NVIDIA NeMo Guardrails 構建更安全、無幻覺的 AI 應用。 NVIDIA NeMo Guardrails 是一個可擴展的平臺,用于在 AI 智能體和其他生成式 AI 應用中定義、編排和執行 AI 導軌或策略。它包含一套可定制且可擴展的內容安全、越獄檢測、對話式主題控制等操作指南。NeMo Guardrails 提供了一個統一的框架,用于集成和編排各種 AI 護欄,
Source
]]>
13509
-
使用先進的開放式 NVIDIA Llama Nemotron 推理模型構建企業 AI 智能體
http://www.open-lab.net/zh-cn/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models-2/
Tue, 08 Apr 2025 06:21:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=13515
Continued]]>
此更新文章最初發布于 2025 年 3 月 18 日 。 企業組織正在采用 AI 智能體 來提高生產力并簡化運營。為了更大限度地發揮影響,這些智能體需要強大的推理能力來解決復雜問題、發現隱藏的聯系,并在動態環境中自主做出邏輯決策。 推理模型能夠解決復雜問題,因此已成為代理式 AI 生態系統的關鍵組成部分。通過使用長思考、Best-of-N 或自我驗證等技術,這些模型能夠更好地處理代理式流程不可或缺的推理密集型任務。 從自動化客戶支持到優化供應鏈和執行財務戰略,推理模型正在為各種應用提供支持。在物流領域,它們通過模擬假設場景 (例如在貨物中斷期間改變路線) 來提高效率。在科學研究中,它們有助于假設生成和多步驟解決問題。在醫療保健領域,它們可增強診斷和治療規劃。通過實現精確的邏輯推理,這些模型正在推動各行各業提供更可靠、更可擴展的 AI 解決方案。
Source
]]>
13515
-
LLM 基準測試:基本概念
http://www.open-lab.net/zh-cn/blog/llm-benchmarking-fundamental-concepts/
Wed, 02 Apr 2025 08:02:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=13428
Continued]]>
在過去幾年中,作為廣泛的 AI 革命的一部分, 生成式 AI 和 大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣,我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量,同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量,以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能,NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何 使用 GenAI-Perf 進行基準測試 。 可以使用各種工具來評估 LLMs 的性能。
Source
]]>
13428
-
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/
Wed, 02 Apr 2025 05:32:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=13408
Continued]]>
在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、
Source
]]>
13408
-
部署 NVIDIA AI Blueprint 實現成本高效的大語言模型路由
http://www.open-lab.net/zh-cn/blog/deploying-the-nvidia-ai-blueprint-for-cost-efficient-llm-routing/
Wed, 26 Mar 2025 05:59:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=13419
Continued]]>
自 2022 年 11 月 ChatGPT 發布以來, 大語言模型 (LLMs) 的能力激增,可用模型數量呈指數級增長。隨著此次擴展,LLMs 在成本、性能和專業領域的差異很大。例如,小型通用模型可以高效處理文本摘要等簡單任務。相比之下,代碼生成等復雜操作可受益于具有高級推理能力和擴展測試時計算的大型模型。 對于 AI 開發者和 MLOps 團隊而言,挑戰在于為每個提示選擇合適的模型 – 平衡準確性、性能和成本。一個一刀切的方法效率低下,導致不必要的支出或結果欠佳。 為了解決這個問題,適用于 LLM 路由器的 NVIDIA AI Blueprint 為多 LLM 路由提供了一個經過成本優化的加速框架。它無縫集成了 NVIDIA 工具和工作流,可將提示動態路由到最合適的 LLM,為企業級 LLM 運營提供強大的基礎。 LLM 路由器的主要特性包括:
Source
]]>
13419
-
借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能
http://www.open-lab.net/zh-cn/blog/boost-llama-model-performance-on-microsoft-azure-ai-foundry-with-nvidia-tensorrt-llm/
Thu, 20 Mar 2025 08:16:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13245
Continued]]>
微軟與 NVIDIA 合作,宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。這些進步由 NVIDIA TensorRT-LLM 優化提供支持,在保持模型輸出質量的同時,顯著提高了吞吐量、降低了延遲并提高了成本效益。 通過這些改進,Azure AI Foundry 客戶可以實現顯著的吞吐量提升:在模型目錄中的無服務器部署 (Model-as-a-Service) 產品中,Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%,Llama 3.1 8B 模型的吞吐量提高 34%。 更快的令牌生成速度和更低的延遲使聊天機器人、虛擬助理和自動化客戶支持等實時應用程序的響應速度更快、效率更高。這轉化為更好的價格-性能比率,顯著降低了由 LLM 驅動的應用的每個 token 的成本。
Source
]]>
13245
-
NVIDIA 虛擬 GPU 18.0 可在每個虛擬化平臺上實現適用于 AI 的 VDI
http://www.open-lab.net/zh-cn/blog/nvidia-virtual-gpu-v18-0-enables-vdi-for-ai-on-every-virtualized-platform/
Wed, 19 Mar 2025 08:25:18 +0000
http://www.open-lab.net/zh-cn/blog/?p=13251
Continued]]>
NVIDIA 虛擬 GPU (vGPU) 技術可在虛擬桌面基礎架構 (VDI) 中解鎖 AI 功能,使其比以往更加強大、用途更加廣泛。通過跨虛擬化環境為 AI 驅動的工作負載提供支持,vGPU 可提高工作效率、增強安全性并優化性能。新版軟件可助力企業和開發者進一步推動創新、轉變工作流程,并更大限度地發揮加速計算的潛力。 本文將介紹 NVIDIA vGPU 18.0 版本亮點,包括擴展受支持的生態系統平臺、新的 AI vWS 工具包以及針對 GPU 利用率的增強功能。 NVIDIA vGPU 18.0 支持 Microsoft Windows Server 2025,使用戶能夠利用 GPU 分區和跨分布式環境實時遷移等高級管理功能。 借助這些功能,用戶可以高效管理多個工作負載、執行硬件維護和升級軟件,而無需中斷虛擬機。 此外,NVIDIA vGPU 18.0…
Source
]]>
13251
-
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架
http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/
Tue, 18 Mar 2025 05:47:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=13330
Continued]]>
NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時,該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容, NVIDIA TensorRT-LLM 和 vLLM,加入不斷擴大的推理工具社區,助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新,包括: 從今天開始,NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業,
Source
]]>
13330
-
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/
Tue, 18 Mar 2025 05:30:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=13327
Continued]]>
NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統 ,在具有 671 億個參數的先進大型 DeepSeek-R1 模型上,每個用戶每秒可實現超過 250 個 token,或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ,這些性能頻譜兩端的快速性能提升得以實現。 隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限,這些性能記錄將會得到改善。 單個 DGX B200 8-GPU 系統和單個 DGX…
Source
]]>
13327
-
使用先進的開放式 NVIDIA Llama Nemotron 推理模型構建企業級 AI 智能體
http://www.open-lab.net/zh-cn/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/
Tue, 18 Mar 2025 05:22:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=13323
Continued]]>
企業組織正在采用 AI 智能體 來提高生產力并簡化運營。為了更大限度地發揮影響,這些智能體需要強大的推理能力來解決復雜的問題,發現隱藏的聯系,并在動態環境中自主做出邏輯決策。 由于推理模型能夠解決復雜問題,因此已成為代理式 AI 生態系統的關鍵部分。通過使用長思考、Best-of-N 或自我驗證等技術,這些模型可以更好地處理代理式流程不可或缺的推理密集型任務。 從自動化客戶支持到優化供應鏈和執行財務策略,推理模型正在為各種應用提供支持。在物流領域,它們通過模擬假設場景 (例如在中斷運輸期間改變貨運路線) 來提高效率。在科學研究中,它們有助于生成假設和多步驟解決問題。在醫療健康領域,它們增強了診斷和治療規劃。通過實現精確的邏輯推理,這些模型正在推動各行各業實現更可靠、更可擴展的 AI 解決方案。 本文將介紹 NVIDIA Llama Nemotron 推理模型系列 。
Source
]]>
13323
人人超碰97caoporen国产