生成型人工智能 – NVIDIA 技術博客

生成型人工智能 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Wed, 30 Apr 2025 09:04:04 +0000 zh-CN hourly 1 196178272 NVIDIA NIM Operator 2.0 借助 NVIDIA NeMo 微服務支持提高 AI 部署效率 http://www.open-lab.net/zh-cn/blog/nvidia-nim-operator-2-0-boosts-ai-deployment-with-nvidia-nemo-microservices-support/ Tue, 29 Apr 2025 08:49:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=13672 Continued]]> NVIDIA 的首個版本 NIM 運算符簡化了推理工作流的部署和生命周期管理 NVIDIA NIM 微服務，減少 MLOps、LLMOps 工程師和 Kubernetes 管理員的工作負載。它支持在 Kubernetes 集群上輕松快速地部署、自動擴展和升級 NIM。詳細了解首個版本。我們的客戶和合作伙伴一直在使用 NIM Operator 來高效管理其應用的推理流程，例如聊天機器人、代理式 RAG 和虛擬藥物研發。我們 Cisco Compute Solutions 團隊的合作伙伴正在使用 NIM Operator 部署適用于 RAG 的 NVIDIA AI Blueprint ，作為 Cisco Validated Design 的一部分。 “ 我們戰略性地將 NVIDIA NIM Operator 與思科驗證設計 (CVD) 集成到我們的 AI…

]]>

13672

選擇您的第一個本地人工智能項目 http://www.open-lab.net/zh-cn/blog/choosing-your-first-local-ai-project/ Tue, 29 Apr 2025 08:44:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13669 Continued]]> AI 正迅速超越集中式云和數據中心，成為可直接部署在專業工作站上的強大工具。借助先進的硬件和優化的軟件，您可以在桌面上或隨時隨地構建、運行和試驗復雜的 AI 模型。歡迎來到本地 AI 開發的世界！在工作站上本地運行和開發 AI 為開發者和組織帶來了顯著優勢：增強了數據隱私和安全性，敏感數據保留在內部，與持續云使用相比節省了成本，為應用程序提供了離線操作功能，以及無與倫比的動手開發和迭代環境。 NVIDIA RTX PRO Blackwell 系列等高性能硬件和為利用其功能而構建的優化軟件生態系統推動了向強大、可訪問的本地 AI 的轉變。本博文將使用專為專業工作流設計的 NVIDIA 生態系統，指導您選擇可管理的首個本地 AI 項目。專業 AI 加速的核心是 NVIDIA RTX 專業 GPU ，每個 GPU 具有高達 96 GB VRAM、企業級驅動、

]]>

13669

構建應用程序以安全使用 KV 緩存 http://www.open-lab.net/zh-cn/blog/structuring-applications-to-secure-the-kv-cache/ Tue, 29 Apr 2025 08:32:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13663 Continued]]> 在與基于 Transformer 的模型 (如大語言模型 (LLM) 和視覺語言模型 (VLM)) 交互時，輸入結構會塑造模型的輸出。但提示通常不僅僅是簡單的用戶查詢。在實踐中，它們通過動態組合來自系統指令、上下文數據和用戶輸入等各種來源的數據來優化響應。在多租戶環境中，多個用戶共享同一應用程序基礎設施，這種動態提示結構可能會帶來意外的安全風險。其中一個風險來自 prefix caching 優化，如果處理不當，可能會跨用戶邊界泄露信息。本文將探討提示結構與緩存的交集，以及它們的交互如何在 LLM 驅動的應用中造成細微漏洞。通過了解這些機制，開發者可以設計出更安全的系統。如果您僅以聊天機器人用戶的身份與 LLM 進行交互，您可能會將提示視為如下所示：但在大多數真實應用中，此用戶查詢只是更大規模的動態構建輸入（即應用提示）的一部分。

]]>

13663

聚焦：個人 AI 借助 NVIDIA Riva 為小企業主帶來 AI 接待員 http://www.open-lab.net/zh-cn/blog/spotlight-personal-ai-brings-ai-receptionists-to-small-business-owners-with-nvidia-riva/ Tue, 29 Apr 2025 08:27:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=13660 Continued]]> 星期二晚上 10 點，Sapochnick Law Firm (一家位于加利福尼亞州圣地亞哥的專業律師事務所) 的電話鈴響了。作為這家公司的客戶，打電話的人在電話鈴響時焦急萬分。他們收到了一封包含可能改變生活的消息的重要信件，并向律師提出了緊急問題。客戶很快意識到 Sapochnick 團隊可能在幾小時前離開了辦公室，但他們一直在排隊等待，希望至少有一個語音郵件問候可以提供某種幫助。沒有錄音，聲音用熱情、專業的問候打破了沉默。雙方之間自然而然地展開了對話，很明顯，律師事務所發出的聲音遠不止接電話。該公司精通細致入微的移民程序，熟悉該公司處理特定法律場景的方法，最重要的是，該公司擁有公司創始人 Jacob Sapochnick 廣泛的專有知識。這種真正的互動之所以能夠實現，是因為 Personal AI Receptionist 是一項由 Personal AI 和…

]]>

13660

借助代理式 AI 系統推進網絡安全運營 http://www.open-lab.net/zh-cn/blog/advancing-cybersecurity-operations-with-agentic-ai-systems/ Mon, 28 Apr 2025 08:59:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13678 Continued]]> 被動式 AI 時代已經過去。一個新時代正在開始，AI 不僅能做出響應，還能思考、計劃和行動。大語言模型 (LLM) 的快速發展釋放了代理式 AI 系統的潛力，使包括網絡安全在內的許多領域的繁瑣任務實現自動化。過去，網絡安全領域的 AI 應用主要側重于檢測跨不同數據源、網絡環境和網絡擊殺鏈各個階段的惡意或異常活動。由于檢測是自動化的中心，大部分安全操作仍然是手動操作。安全分析師仍需花費大量時間手動調查警報、交叉參考情報以及評估和響應潛在威脅。隨著代理式系統的興起，網絡安全領域的 AI 應用開始圍繞安全分析師的需求進行重新規劃。這些系統可自動執行分析師目前執行的許多耗時而繁瑣的任務，使他們能夠專注于更高級別的判斷決策和深度調查。通過利用高級推理、動態決策和工具調用功能，代理式系統現在可以承擔復雜但重復性的任務，例如研究威脅情報、關聯安全警報和執行初步響應操作。

]]>

13678

使用 NVIDIA NeMo 微服務，通過數據飛輪增強 AI 智能體 http://www.open-lab.net/zh-cn/blog/enhance-your-ai-agent-with-data-flywheels-using-nvidia-nemo-microservices/ Wed, 23 Apr 2025 05:54:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13617 Continued]]> 企業數據不斷變化。隨著時間的推移，這給保持 AI 系統的準確性帶來了重大挑戰。隨著企業組織越來越依賴代理式 AI 系統來優化業務流程，保持這些系統與不斷變化的業務需求和新數據保持一致變得至關重要。本文將深入探討如何使用 NVIDIA NeMo 微服務構建數據飛輪迭代，并簡要概述構建端到端流程的步驟。如需了解如何使用 NeMo 微服務解決構建數據飛輪時面臨的各種挑戰，請參閱使用 NVIDIA NeMo 微服務更大限度地提高 AI Agent 性能。數據飛輪是一種自我增強的循環。從用戶交互中收集的數據可改進 AI 模型，從而提供更好的結果，吸引更多用戶生成更多數據，從而在持續改進循環中進一步增強系統。這類似于獲取經驗和收集反饋以學習和改進工作的過程。因此，需要部署的應用持續適應并保持高效是將數據 flywheel 整合到代理式系統中的主要動機。

]]>

13617

聚焦：Qodo 借助 NVIDIA DGX 實現高效代碼搜索創新 http://www.open-lab.net/zh-cn/blog/spotlight-qodo-innovates-efficient-code-search-with-nvidia-dgx/ Wed, 23 Apr 2025 05:33:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=13605 Continued]]> 大語言模型 (LLMs) 使 AI 工具能夠幫助您更快地編寫更多代碼，但隨著我們要求這些工具承擔越來越復雜的任務，其局限性變得顯而易見。理解編程語言的細微差別、復雜的依賴項以及適應代碼庫特定上下文等挑戰可能會導致代碼質量低下，并導致后續瓶頸。 Qodo 是 NVIDIA Inception 計劃的成員，是一個多智能體代碼完整性平臺，可通過 AI 驅動的智能體進行代碼編寫、測試和審查，從而增強和自動化軟件質量工作流。 Qodo 愿景的一個核心原則是，相信只有在深度情境感知的情況下，AI 才能對軟件完整性進行有意義的改進。代碼并非孤立編寫，而是存在于復雜的架構、不斷演變的依賴項和特定的編碼標準中。為了讓 AI 有效地幫助開發者，它不僅必須理解語法，還必須理解代碼庫的意圖、模式和更廣泛的結構。 Qodo 在先進的檢索增強生成 (RAG) 、

]]>

13605

人工智能激勵藝術家和企業家重塑創作方式 http://www.open-lab.net/zh-cn/blog/ai-inspires-artists-and-industrialists-to-reimagine-their-crafts/ Mon, 21 Apr 2025 06:12:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=13628 Continued]]> AI 幾乎已成為創新的代名詞。隨著 AI 迅速進入世界舞臺，從藝術家到更傳統的工業發明家，各種創作者和問題解決者都在從中汲取靈感。 Alexander Reben 是全球領先的 AI 優先藝術家之一，他在職業生涯中將 AI 融入到不同的藝術媒介中。他目前的工作是探索 AI 和 robotics 技術，以及如何將這兩項先進技術相結合，從而創造出新穎的藝術。 Reben 在 NVIDIA GTC 2025 的小組討論中表示：“我一直將 2025 年稱為將藝術融入生活，將事物變為現實的一年。“如今，借助 AI 和機器人技術，想象事物與在現實生活中呈現事物之間的距離大大縮短。” 4 月 21 日是 World Creativity and Innovation Day ，一項聯合國發起的倡議，旨在慶祝各種發明和創造力，以及它們在解決和表達人類發展方面發揮的關鍵作用。

]]>

13628

使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻 http://www.open-lab.net/zh-cn/blog/optimizing-transformer-based-diffusion-models-for-video-generation-with-nvidia-tensorrt/ Mon, 21 Apr 2025 06:03:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=13623 Continued]]> 先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性，需要大量計算資源和高昂成本。通過在搭載 NVIDIA TensorRT 的 NVIDIA Hopper GPU 上利用最新的 FP8 量化功能，可以顯著降低推理成本，并以更少的 GPU 為更多用戶提供服務。雖然量化擴散器的部署可能比較復雜，但 TensorRT 背后的完整生態系統可以幫助克服這些挑戰。借助此方法，Adobe 將延遲降低了 60%，TCO 降低了近 40%，從而加快了推理速度并提高了響應速度。使用在由 Hopper GPU 加速的 Amazon Web Services (AWS) EC2 P5/P5en 上運行的 TensorRT 進行的優化部署，提高了可擴展性，以更少的 GPU 為更多用戶提供服務。本文將探討為增強 Adobe Firefly 視頻生成模型的性能而實施的策略和優化，

]]>

13623

在大型語言模型時代，通過消息量化和流式傳輸實現高效的聯邦學習 http://www.open-lab.net/zh-cn/blog/efficient-federated-learning-in-the-era-of-llms-with-message-quantization-and-streaming/ Wed, 16 Apr 2025 05:23:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=13572 Continued]]> 聯邦學習 (Federated Learning, FL) 已成為一種在分布式數據源中訓練機器學習模型的有前景的方法，同時還能保護數據隱私。但是，在平衡模型要求和通信能力時，FL 面臨著與通信開銷和本地資源限制相關的重大挑戰。特別是在當前的大語言模型 (LLMs) 時代，FL 在部署具有數十億參數的 LLMs 時面臨著計算挑戰。這些模型的龐大規模加劇了通信和內存限制。由于帶寬限制，一次性傳輸完整的模型更新可能不可行，并且本地內存限制可能會使處理大型模型進行通信具有挑戰性。解決這些問題需要創新策略。 NVIDIA FLARE 是一款與領域無關、開源且可擴展的聯邦學習 SDK，通過引入可靠的通信功能、對多個并發訓練作業的支持以及針對可能因網絡條件而中斷的作業的魯棒性，增強了現實世界的聯邦學習體驗。 NVFlare 2.4.0 版本引入了流式傳輸 API，

]]>

13572

宣布推出基于 CUDA 評估 LLM 的開源框架 ComputeEval http://www.open-lab.net/zh-cn/blog/announcing-computeeval-an-open-source-framework-for-evaluating-llms-on-cuda/ Wed, 16 Apr 2025 05:12:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=13566 Continued]]> 大語言模型 (LLMs) 正在徹底改變開發者的編碼方式和編碼學習方式。對于經驗豐富的或初級的開發者來說，如今的先進模型可以生成 Python 腳本、基于 React 的網站等。未來，強大的 AI 模型將幫助開發者編寫高性能 GPU 代碼。這就提出了一個重要問題：如何確定 LLM 是否能夠處理復雜的 CUDA 編程？ ComputeEval 是一個開源框架和數據集，旨在評估 LLM 在 CUDA 代碼生成上的能力。該數據集旨在評估 LLM 在不同的并行編程領域（如內存管理和線程同步）生成正確 CUDA 代碼的能力。該框架旨在簡化對生成代碼的評估。本文將介紹 ComputeEval 作為評估框架的工作原理、我們對先進模型的評估結果，以及它對 AI 輔助 GPU 開發的未來意味著什么。 ComputeEval 旨在專門為 CUDA 和高性能 GPU…

]]>

13566

NVIDIA Llama Nemotron 超開放模型實現突破性的推理準確性 http://www.open-lab.net/zh-cn/blog/nvidia-llama-nemotron-ultra-open-model-delivers-groundbreaking-reasoning-accuracy/ Tue, 15 Apr 2025 05:31:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=13575 Continued]]> AI 不再只是生成文本或圖像，而是要針對商業、金融、客戶和醫療健康服務中的現實應用進行深度推理、詳細解決問題并實現強大的適應性。 NVIDIA 最新推出的 Llama Nemotron Ultra 推理模型在智能和編碼基準測試中提供了領先的開源模型準確性，同時提高了計算效率。您可以在 Hugging Face 上找到模型、權重和訓練數據，以便將 AI 應用于從研究助理、編碼助手到自動化工作流的各種工作中。 Llama Nemotron Ultra 正在重新定義 AI 在科學推理、編碼和數學基準測試中可以實現的目標。該模型針對復雜推理、人類匹配聊天、檢索增強生成 (RAG) 和工具使用進行了后訓練，專為滿足現實世界企業的需求 (從 copilot 和知識助手到自動化工作流程) 而構建，具有高影響力 AI 所需的深度和靈活性。 Llama Nemotron Ultra 基于…

]]>

13575

使用先進的開放式 NVIDIA Llama Nemotron 推理模型構建企業 AI 智能體 http://www.open-lab.net/zh-cn/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models-2/ Tue, 08 Apr 2025 06:21:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=13515 Continued]]> 此更新文章最初發布于 2025 年 3 月 18 日。企業組織正在采用 AI 智能體來提高生產力并簡化運營。為了更大限度地發揮影響，這些智能體需要強大的推理能力來解決復雜問題、發現隱藏的聯系，并在動態環境中自主做出邏輯決策。推理模型能夠解決復雜問題，因此已成為代理式 AI 生態系統的關鍵組成部分。通過使用長思考、Best-of-N 或自我驗證等技術，這些模型能夠更好地處理代理式流程不可或缺的推理密集型任務。從自動化客戶支持到優化供應鏈和執行財務戰略，推理模型正在為各種應用提供支持。在物流領域，它們通過模擬假設場景 (例如在貨物中斷期間改變路線) 來提高效率。在科學研究中，它們有助于假設生成和多步驟解決問題。在醫療保健領域，它們可增強診斷和治療規劃。通過實現精確的邏輯推理，這些模型正在推動各行各業提供更可靠、更可擴展的 AI 解決方案。

]]>

13515

初創公司利用人工智能改善孕產期和新生兒護理服務 http://www.open-lab.net/zh-cn/blog/startups-use-ai-to-deliver-better-maternal-and-newborn-care/ Mon, 07 Apr 2025 06:35:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=13524 Continued]]> 每年，全球有近 30 萬名女性死于因孕期或生產引起的并發癥。在出生后的第一個月內死亡的死產兒和嬰兒的數量每年超過近 400 萬。 4 月 7 日是“ 世界衛生日 ”，今年的活動重點是提高人們對努力消除可預防的孕產期和新生兒死亡的認識。為女性和嬰兒提供更好的護理服務是一項至關重要的社會責任，從巴黎到舊金山以及介于兩者之間的任何地方的初創公司都認為 AI 可以幫助解決這一挑戰。兩家成立于 2022 年的初創公司 (總部相距半個世界) 已開始推出 AI 解決方案，以改善女性和孕期母親的醫療保健服務。總部位于巴黎的 BrightHeart 由兩位兒科心臟病專家創立，該公司將 AI 與醫生辦公室常見的超聲波設備相集成，支持對胎兒超聲波進行更全面、更準確的分析。這家初創公司的平臺剛剛獲得 FDA 批準，該平臺有助于識別常規超聲波檢查經常漏掉的產前心臟缺陷。大約 1%

]]>

13524

使用合成數據評估和增強 RAG 工作流性能 http://www.open-lab.net/zh-cn/blog/evaluating-and-enhancing-rag-pipeline-performance-using-synthetic-data/ Mon, 07 Apr 2025 06:31:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=13521 Continued]]> 隨著大語言模型 (LLM) 在各種問答系統中的普及，檢索增強生成 (RAG) 流程也成為焦點。RAG 流程將 LLM 的生成能力與外部數據源和檢索機制相結合，使模型能夠訪問微調期間可能不存在的特定領域信息。 RAG 性能很大程度上取決于底層文本嵌入模型的質量。嵌入模型不佳會導致檢索結果欠佳，進而降低 RAG 系統的整體性能。在處理企業特定的內部數據時尤其如此，因為開箱即用的模型可能無法提供所需的準確性。為確保 RAG 系統能夠有效處理您的特定數據，您必須評估預訓練嵌入模型在語料庫中的表現是否良好。此評估所需的標注數據與最終用戶提交的查詢類型非常相似。例如，帶標注的樣本數據集可能包括以下內容：在許多情況下，現有嵌入模型在應用于特定領域的數據時無法產生最佳結果。這就需要使用與企業語料庫共享相同分布的標注數據來定制這些模型。在本文中，

]]>

13521

人人超碰97caoporen国产