Intermediate Technical – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 30 Apr 2025 09:13:14 +0000
zh-CN
hourly
1
196178272 -
構建應用程序以安全使用 KV 緩存
http://www.open-lab.net/zh-cn/blog/structuring-applications-to-secure-the-kv-cache/
Tue, 29 Apr 2025 08:32:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=13663
Continued]]>
在與基于 Transformer 的模型 (如 大語言模型 (LLM) 和 視覺語言模型 (VLM)) 交互時,輸入結構會塑造模型的輸出。但提示通常不僅僅是簡單的用戶查詢。在實踐中,它們通過動態組合來自系統指令、上下文數據和用戶輸入等各種來源的數據來優化響應。 在多租戶環境中,多個用戶共享同一應用程序基礎設施,這種動態提示結構可能會帶來意外的安全風險。其中一個風險來自 prefix caching 優化,如果處理不當,可能會跨用戶邊界泄露信息。 本文將探討提示結構與緩存的交集,以及它們的交互如何在 LLM 驅動的應用中造成細微漏洞。通過了解這些機制,開發者可以設計出更安全的系統。 如果您僅以聊天機器人用戶的身份與 LLM 進行交互,您可能會將提示視為如下所示: 但在大多數真實應用中,此用戶查詢只是更大規模的動態構建輸入(即應用提示)的 一部分。
Source
]]>
13663
-
R2D2:利用 NVIDIA 研究工作流程和模型提升靈巧機器人的適應性
http://www.open-lab.net/zh-cn/blog/rc2b2dc2b2-adapting-dexterous-robots-with-nvidia-research-workflows-and-models/
Fri, 25 Apr 2025 09:04:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=13681
Continued]]>
如今,Robotic arms 用于組裝、包裝、檢查等更多應用領域。但是,它們仍然經過預編程,可以執行特定的、通常是重復性的任務。為了滿足大多數環境中日益增長的適應性需求, perceptive arms 需要根據實時數據做出決策和調整行為。這提高了協作環境中任務的靈活性,并通過危險感知提高安全性。 本期 NVIDIA Robotics Research and Development Digest (R2 D2 ) 探討了 NVIDIA Research 的一些機器人靈活性、操作和抓取工作流以及 AI 模型 (如下所示) ,以及它們如何應對適應能力和數據稀缺等關鍵機器人挑戰: 靈巧的機器人能夠精準、高效地操控物體。機器人的靈活性涉及精細的運動控制、協調,以及通常在非結構化環境中處理各種任務的能力。機器人靈活性的關鍵方面包括抓握、操控、觸覺敏感度、
Source
]]>
13681
-
使用 NVIDIA NeMo 微服務,通過數據飛輪增強 AI 智能體
http://www.open-lab.net/zh-cn/blog/enhance-your-ai-agent-with-data-flywheels-using-nvidia-nemo-microservices/
Wed, 23 Apr 2025 05:54:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13617
Continued]]>
企業數據不斷變化。隨著時間的推移,這給保持 AI 系統的準確性帶來了重大挑戰。隨著企業組織越來越依賴 代理式 AI 系統 來優化業務流程,保持這些系統與不斷變化的業務需求和新數據保持一致變得至關重要。 本文將深入探討如何使用 NVIDIA NeMo 微服務構建數據飛輪迭代,并簡要概述構建端到端流程的步驟。如需了解如何使用 NeMo 微服務解決構建數據飛輪時面臨的各種挑戰,請參閱使用 NVIDIA NeMo 微服務更大限度地提高 AI Agent 性能。 數據飛輪是一種自我增強的循環。從用戶交互中收集的數據可改進 AI 模型,從而提供更好的結果,吸引更多用戶生成更多數據,從而在持續改進循環中進一步增強系統。這類似于獲取經驗和收集反饋以學習和改進工作的過程。 因此,需要部署的應用持續適應并保持高效是將數據 flywheel 整合到代理式系統中的主要動機。
Source
]]>
13617
-
NVIDIA cuPyNumeric 25.03 現已完全開源,支持 PIP 和 HDF5
http://www.open-lab.net/zh-cn/blog/nvidia-cupynumeric-25-03-now-fully-open-source-with-pip-and-hdf5-support/
Wed, 23 Apr 2025 05:49:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=13614
Continued]]>
NVIDIA cuPyNumeric 是一個庫,旨在為基于 Legate 框架構建的 NumPy 提供分布式和加速的插入式替換。它為多 GPU 和多節點 (MGMN) 加速計算帶來了零代碼更改擴展。 cuPyNumeric 25.03 是一次里程碑式的更新,為用戶和開發者引入了強大的新功能,并增強了可訪問性,詳情請參閱本文。 “借助 cuPyNumeric 25.03,NVIDIA 在 Apache 2 許可證下開源了支持 cuPyNumeric 的 Legate 框架和運行時層。現在,cuPyNumeric 的整個堆棧均在 Apache 2 許可證下提供。此舉符合 NVIDIA 對透明度、再現性和協作性的承諾。貢獻者現在可以毫無障礙地探索、審核、貢獻和擴展系統的任何組件。” cuPyNumeric 從一開始就支持通過 conda 進行安裝。現在,
Source
]]>
13614
-
利用 NVIDIA DesignWorks 實現實時 GPU 加速的高斯體渲染示例 vk_gaussian_splatting
http://www.open-lab.net/zh-cn/blog/real-time-gpu-accelerated-gaussian-splatting-with-nvidia-designworks-sample-vk_gaussian_splatting/
Wed, 23 Apr 2025 05:42:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=13611
Continued]]>
高斯射是一種渲染復雜 3D 場景的新穎方法,可將這些場景表示為 3D 空間中各向異性 Gaussians 的集合。這項技術能夠實時渲染從小集圖像中學習到的逼真場景,非常適合游戲、虛擬現實和實時專業可視化領域的應用。 vk_gaussian_splatting 是基于 Vulkan 的新示例,展示了實時高斯射,這是一種先進的立體渲染技術,可實現輻射場的高效表示。這是 NVIDIA DesignWorks 示例 的最新成員。 NVIDIA DevTech 團隊將這個新的示例項目視為探索和比較 3D 高斯射 (3D Gaussian splatting) 實時可視化的各種方法的試驗平臺。通過評估各種技術和優化,該團隊旨在就使用 Vulkan API 時的性能、質量和實施權衡提供有價值的見解。 初始實施基于光柵化,展示了兩種渲染 splats 的方法,
Source
]]>
13611
-
在 NVIDIA OptiX 中使用協作向量實現神經渲染
http://www.open-lab.net/zh-cn/blog/neural-rendering-in-nvidia-optix-using-cooperative-vectors/
Thu, 17 Apr 2025 06:19:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=13634
Continued]]>
NVIDIA OptiX 9.0 的發布引入了一項名為 Cooperative Vectors 的新功能,可將 AI 工作流作為光線追蹤內核的一部分。該功能利用 NVIDIA RTX Tensor Cores 在著色過程中進行硬件加速的矩陣運算和神經網絡計算。這解鎖了 NVIDIA RTX Neural Shaders 和 NVIDIA RTX Neural Texture Compression (NTC) 等 AI 渲染技術,并在實時渲染中進一步向電影級逼真材質邁進。 協作向量 API 已在 OptiX 、 DirectX 、 NVAPI 、 Slang 和 Vulkan 中推出。本文將探討適用于所有 API 的協作向量背后的概念,并通過使用 OptiX API 的示例進行工作。 多層感知器 (MLP) 是許多神經網絡算法的基本構建模塊。研究表明,
Source
]]>
13634
-
頂級大師專業提示:使用 NVIDIA cuDF-pandas 進行特征工程,在 Kaggle 競賽中奪冠
http://www.open-lab.net/zh-cn/blog/grandmaster-pro-tip-winning-first-place-in-kaggle-competition-with-feature-engineering-using-nvidia-cudf-pandas/
Thu, 17 Apr 2025 06:16:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=13631
Continued]]>
在處理表格數據時,特征工程仍然是提高模型準確性的最有效方法之一。與 NLP 和計算機視覺等神經網絡可以從原始輸入中提取豐富模式的領域不同,性能最佳的表格模型 (尤其是梯度提升決策樹) 仍然從精心打造的特征中獲得顯著優勢。然而,潛在的有用特征數量意味著,深入研究這些特征通常需要大量的計算。在 CPU 上使用標準 pandas 生成和驗證數百或數千個功能理念的速度太慢,無法實現。 這就是 GPU 加速改變游戲規則的地方。借助 NVIDIA cuDF-pandas,我可以在 GPU 上加速 pandas 操作,無需更改代碼,從而為 Kaggle 2 月的 Playground 比賽快速生成和測試 10000 多個設計功能。這種加速的發現過程是關鍵的差異化因素。在大幅縮短的時間內 (幾天而不是潛在的幾個月) ,發現的最佳 500 個特征顯著提高了我的 XGBoost 模型的準確性,
Source
]]>
13631
-
在大型語言模型時代,通過消息量化和流式傳輸實現高效的聯邦學習
http://www.open-lab.net/zh-cn/blog/efficient-federated-learning-in-the-era-of-llms-with-message-quantization-and-streaming/
Wed, 16 Apr 2025 05:23:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=13572
Continued]]>
聯邦學習 (Federated Learning, FL) 已成為一種在分布式數據源中訓練機器學習模型的有前景的方法,同時還能保護數據隱私。但是,在平衡模型要求和通信能力時,FL 面臨著與通信開銷和本地資源限制相關的重大挑戰。 特別是在當前的大語言模型 (LLMs) 時代,FL 在部署具有數十億參數的 LLMs 時面臨著計算挑戰。這些模型的龐大規模加劇了通信和內存限制。由于帶寬限制,一次性傳輸完整的模型更新可能不可行,并且本地內存限制可能會使處理大型模型進行通信具有挑戰性。解決這些問題需要創新策略。 NVIDIA FLARE 是一款與領域無關、開源且可擴展的聯邦學習 SDK,通過引入可靠的通信功能、對多個并發訓練作業的支持以及針對可能因網絡條件而中斷的作業的魯棒性,增強了現實世界的聯邦學習體驗。 NVFlare 2.4.0 版本引入了流式傳輸 API,
Source
]]>
13572
-
使用 NVIDIA NIM 構建 AI 驅動的自動引用驗證工具
http://www.open-lab.net/zh-cn/blog/developing-an-ai-powered-tool-for-automatic-citation-validation-using-nvidia-nim/
Wed, 16 Apr 2025 05:18:24 +0000
http://www.open-lab.net/zh-cn/blog/?p=13569
Continued]]>
引文的準確性對于保持學術和 AI 生成內容的完整性至關重要。當引用不準確或錯誤時,它們可能會誤導讀者并散布虛假信息。作為一支由悉尼大學機器學習和 AI 研究人員組成的團隊,我們正在開發一種 AI-powered 工具,能夠高效地交叉檢查和分析語義引用的準確性。 提及事實聲明可以幫助讀者相信其有效性,增強作者的可信度,并通過顯示信息來源來提高透明度。然而,確保語義引用的準確性(即確認聲明不僅匹配,而且忠實地代表引用來源的結論,而不會失真或誤解)非常耗時,而且通常需要深入的主題理解。 我們親身經歷了不準確的引用所帶來的挫折和挑戰,這促使我們開發了一個強大且可擴展的解決方案 — Semantic Citation Validation 工具。該解決方案簡化了引文驗證過程,并增強了各個領域的研究完整性。 隨著 大語言模型 (LLM) 的日益普及,對引文驗證的需求變得更加迫切。
Source
]]>
13569
-
宣布推出基于 CUDA 評估 LLM 的開源框架 ComputeEval
http://www.open-lab.net/zh-cn/blog/announcing-computeeval-an-open-source-framework-for-evaluating-llms-on-cuda/
Wed, 16 Apr 2025 05:12:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=13566
Continued]]>
大語言模型 (LLMs) 正在徹底改變開發者的編碼方式和編碼學習方式。對于經驗豐富的或初級的開發者來說,如今的先進模型可以生成 Python 腳本、基于 React 的網站等。未來,強大的 AI 模型將幫助開發者編寫高性能 GPU 代碼。這就提出了一個重要問題:如何確定 LLM 是否能夠處理復雜的 CUDA 編程? ComputeEval 是一個開源框架和數據集,旨在評估 LLM 在 CUDA 代碼生成上的能力。該數據集旨在評估 LLM 在不同的并行編程領域(如內存管理和線程同步)生成正確 CUDA 代碼的能力。該框架旨在簡化對生成代碼的評估。 本文將介紹 ComputeEval 作為評估框架的工作原理、我們對先進模型的評估結果,以及它對 AI 輔助 GPU 開發的未來意味著什么。 ComputeEval 旨在專門為 CUDA 和高性能 GPU…
Source
]]>
13566
-
NVIDIA Llama Nemotron 超開放模型實現突破性的推理準確性
http://www.open-lab.net/zh-cn/blog/nvidia-llama-nemotron-ultra-open-model-delivers-groundbreaking-reasoning-accuracy/
Tue, 15 Apr 2025 05:31:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=13575
Continued]]>
AI 不再只是生成文本或圖像,而是要針對商業、金融、客戶和醫療健康服務中的現實應用進行深度推理、詳細解決問題并實現強大的適應性。 NVIDIA 最新推出的 Llama Nemotron Ultra 推理模型在智能和編碼基準測試中提供了領先的開源模型準確性,同時提高了計算效率。您可以在 Hugging Face 上找到模型、權重和訓練數據,以便將 AI 應用于從研究助理、編碼助手到自動化工作流的各種工作中。 Llama Nemotron Ultra 正在重新定義 AI 在科學推理、編碼和數學基準測試中可以實現的目標。該模型針對復雜推理、人類匹配聊天、 檢索增強生成 (RAG) 和工具使用進行了后訓練,專為滿足現實世界企業的需求 (從 copilot 和知識助手到自動化工作流程) 而構建,具有高影響力 AI 所需的深度和靈活性。 Llama Nemotron Ultra 基于…
Source
]]>
13575
-
使用 NVIDIA NIM 管理科學文獻中的生物研究成果
http://www.open-lab.net/zh-cn/blog/curating-biological-findings-from-scientific-literature-with-nvidia-nim/
Fri, 11 Apr 2025 06:07:31 +0000
http://www.open-lab.net/zh-cn/blog/?p=13499
Continued]]>
科學論文多種多樣,通常為同一實體使用不同的術語,使用不同的方法來研究生物現象,并在不同的上下文中展示研究結果。從這些論文中提取有意義的見解需要對生物學的深刻理解、對方法的批判性評估,以及從不相關或不太可靠的發現中辨別出可靠發現的能力。 科學家必須仔細解釋上下文,評估實驗證據的可靠性,并識別研究中潛在的偏見或局限性。鑒于支持疾病建模中關鍵決策的高精度需求,生物學發現必須僅包含高質量的知識。 大語言模型 (LLM) 在集成到 檢索增強生成 (RAG) 流程中時,為自動化和加速生物發現的管理提供了顛覆性的機會。通過優化從科學論文中提取見解的過程,LLM 顯著提高了這一過程的可擴展性。這些語言模型可以篩選的論文數量遠超任何個人可以手動審查的論文,并發現了更多的相關發現。 CytoReason 團隊是 NVIDIA Inception 計劃的成員,
Source
]]>
13499
-
AI Fabric 的彈性以及網絡融合的重要性
http://www.open-lab.net/zh-cn/blog/ai-fabric-resiliency-and-why-network-convergence-matters/
Fri, 11 Apr 2025 05:53:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13584
Continued]]>
高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓,從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算(例如 all-reduce 或 broadcast)的性能,因為這些運算需要每個 GPU 的參與才能進行。 本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障,以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計,通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響: 為獲得最佳性能,NCCL 應在網絡上運行,并盡可能減少延遲、抖動和丟包。
Source
]]>
13584
-
借助 NVIDIA FLARE 和 Meta ExecuTorch,在移動設備上輕松進行聯邦學習
http://www.open-lab.net/zh-cn/blog/effortless-federated-learning-on-mobile-with-nvidia-flare-and-meta-executorch/
Fri, 11 Apr 2025 05:41:04 +0000
http://www.open-lab.net/zh-cn/blog/?p=13578
Continued]]>
NVIDIA 和 Meta 的 PyTorch 團隊宣布開展突破性合作,通過集成 NVIDIA FLARE 和 ExecuTorch ,將聯邦學習 (FL) 功能引入移動設備。 NVIDIA FLARE 是一款與領域無關、開源、可擴展的 SDK,使研究人員和數據科學家能夠根據聯合范式調整現有的機器學習或深度學習工作流程。它還使平臺開發者能夠為分布式多方協作構建安全、隱私保護的產品。 ExecuTorch 是一種端到端解決方案,可跨移動和邊緣設備實現設備端推理和訓練功能。它是 PyTorch Edge 生態系統的一部分,支持將各種 PyTorch 模型高效部署到邊緣設備。 通過集成這兩者,我們為您提供了一個解決方案,讓您在移動設備上利用 FL 的強大功能,同時保護用戶隱私和數據安全。要啟用跨設備 FL,有兩個關鍵組件: 借助 NVIDIA FLARE 和…
Source
]]>
13578
-
高效擴展 Polars 的 GPU Parquet 讀取器
http://www.open-lab.net/zh-cn/blog/efficiently-scaling-polars-gpu-parquet-reader/
Thu, 10 Apr 2025 06:09:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=13503
Continued]]>
在處理大型數據集時,數據處理工具的性能變得至關重要。 Polars 是一個以速度和效率聞名的開源數據操作庫,提供由 cuDF 驅動的 GPU 加速后端,可以顯著提高性能。 “但是,為了充分利用 Polars GPU 后端 的強大功能,必須優化數據加載過程并有效管理工作流程所需的內存。隨著 GPU 后端開發的不斷推進,在使用 GPU Parquet 閱讀器時,隨著數據集大小的增加,我們還可以使用一些其他技術來保持高性能。現有的 Polars GPU Parquet 讀取器 (到版本 24.10) 無法針對更高的數據集大小進行擴展。” 本文將探討分塊 Parquet Reader 與 Unified Virtual Memory (UVM) 相結合后,如何在性能上優于非分塊閱讀器和基于 CPU 的方法。 隨著規模系數 (SF) 的增加,
Source
]]>
13503
人人超碰97caoporen国产