LLMs – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Tue, 27 Feb 2024 23:11:02 +0000
zh-CN
hourly
1
196178272 -
構建由 LLM 提供支持的 API Agent 來執行任務
http://www.open-lab.net/zh-cn/blog/build-an-llm-powered-api-agent-for-task-execution/
Wed, 21 Feb 2024 04:27:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=8923
Continued]]>
長期以來,開發者一直在構建 Web 應用程序等界面,使用戶能夠利用正在構建的核心產品。要了解如何在您的大型語言模型(LLM) 應用程序中實現這一點,請參閱之前的博文,為數據分析構建由 LLM 提供支持的數據代理。在本文中,我將討論一種將自由形式對話添加為具有 API 的另一個接口的方法。該方法有助于實現與任何 API 進行細致入微的對話式交互的解決方案。 如果您想了解關于 LLM 代理的基本知識以及如何構建它們,請閱讀LLM 智能體簡介和構建您的首個 LLM 智能體應用。 API 或執行代理是為執行目標而設計的。這些代理通過使用一組預定義的執行函數來執行用戶請求的任務或一組任務。基于數據源回答用戶的問題是其中的一個重要部分。另一個重要部分是執行用戶(人類)或另一個代理(機器)的需求。 傳統上,這是通過 API 和某種形式的應用邏輯和交互層(例如 Web…
Source
]]>
8923
-
構建 LLM 支持的數據代理以進行數據分析
http://www.open-lab.net/zh-cn/blog/build-an-llm-powered-data-agent-for-data-analysis/
Tue, 20 Feb 2024 05:19:12 +0000
http://www.open-lab.net/zh-cn/blog/?p=8952
Continued]]>
AI 智能體是一個由規劃功能、內存和工具組成的系統,用于執行用戶請求的任務。對于數據分析或與復雜系統交互等復雜任務,您的應用可能依賴于不同類型智能體之間的協作。有關更多背景信息,請參閱 LLM 智能體簡介 和 構建您的首個 LLM 智能體應用。 本文介紹了構建準確的 LLM 應用(可在查詢時處理細致入微的數據分析任務)所需的代理類型。本文將介紹構建數據分析代理應用(包括代碼片段)的示例用例。最后,本文將介紹 AI 開發者在優化和構建 LLM 代理應用時需要考慮的一些注意事項。 首先,本節介紹兩種主要類型的 LLM 代理及其工作原理 – 數據代理和 API 或執行代理。我還將介紹代理集群用例,其中涉及多個代理合作解決問題。請注意,這些代理類型在某種程度上代表頻譜的端部。可以為特定用例創建混合的專用代理。 數據代理通常專為提取目標而設計。換言之,
Source
]]>
8952
-
使用新的 NVIDIA AI 基礎模型生成代碼、回答查詢并翻譯文本
http://www.open-lab.net/zh-cn/blog/generate-code-answer-queries-and-translate-text-with-leading-generative-ai-models/
Mon, 05 Feb 2024 07:43:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=8903
Continued]]>
本周的 Model Monday 版本包含 NVIDIA 優化的代碼 Lama、Kosmos-2 和 SeamlessM4T,您可以直接在瀏覽器中體驗。 通過NVIDIA AI 基礎模型和端點,您可以訪問由 NVIDIA 構建的一系列精選社區,生成式 AI用于在企業應用程序中體驗、自定義和部署的模型。 Meta 的 Code Llama 70B 是最新的先進代碼 LLM,專用于代碼生成。它基于 Llama 2 模型構建,提供更高的性能和適應性。該模型可以從自然語言生成代碼,在編程語言之間翻譯代碼,編寫單元測試,并協助調試。 Code Lama 70B 具有 10 萬個令牌的大上下文長度,因此能夠處理和生成時間更長、更復雜的代碼,這對于更全面的代碼生成和提高處理復雜編碼任務的性能非常重要。這種開源模型可用于代碼翻譯、匯總、文檔、分析和調試等各種應用。
Source
]]>
8903
-
借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton 部署 AI 編碼助手
http://www.open-lab.net/zh-cn/blog/deploy-an-ai-coding-assistant-with-nvidia-tensorrt-llm-and-nvidia-triton/
Thu, 01 Feb 2024 08:00:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=8908
Continued]]>
大型語言模型 (LLM) 的出現革新了人工智能領域,為與數字世界的交互提供了全新的方式。盡管 LLM 通常能夠提供良好的通用解決方案,但為了更好地支持特定領域和任務,它們往往需要進行調整。 AI 編碼助手(或代碼 LLM)已成為幫助實現這一目標的一個領域。到 2025 年,80% 的產品開發生命周期將使用 生成式 AI 進行代碼生成,開發者將充當后端和前端組件及集成的驗證者和編排者。您可以調整用于代碼任務的 LLM,簡化開發者的工作流程,并降低新手編程人員的門檻。Code LLM 不僅可以生成代碼,還可以填充缺失的代碼、添加文檔,并提供解決難題的提示。 本文將介紹如何部署端到端代碼 LLM,包括具體的提示指南、優化技術和客戶端 – 服務器部署。我們使用NVIDIA Triton 推理服務器并使用NVIDIA TensorRT-LLM,
Source
]]>
8908
-
使用現已推出 Beta 版的 NVIDIA AI Workbench 來創建、共享和擴展企業 AI 工作流程
http://www.open-lab.net/zh-cn/blog/create-share-and-scale-enterprise-ai-workflows-with-nvidia-ai-workbench-now-in-beta/
Tue, 30 Jan 2024 03:49:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=8855
Continued]]>
NVIDIA AI Workbench 現已進入測試階段,帶來了豐富的新功能,可簡化企業開發者創建、使用和共享 AI 和機器學習 (ML) 項目的方式。在 SIGGRAPH 2023 上發布的 NVIDIA AI Workbench,使開發者能夠在支持 GPU 的環境中輕松創建、協作和遷移 AI 工作負載。欲了解更多信息,請參閱借助 NVIDIA AI Workbench 無縫開發和部署可擴展的生成式 AI 模型。 本文介紹了 NVIDIA AI Workbench 如何幫助簡化 AI 工作流程,并詳細介紹了測試版的新功能。本文還介紹了編碼副駕駛參考示例,該示例使您能夠使用 AI Workbench 在所選平臺上創建、測試和自定義預訓練的生成式 AI 模型。 借助 AI Workbench,開發者和數據科學家可以在 PC 或工作站上靈活地在本地啟動 AI 或 ML 項目,
Source
]]>
8855
-
在 GPU 上高效部署語音 AI 模型
http://www.open-lab.net/zh-cn/blog/deploy-speech-ai-model-on-gpu/
Tue, 09 Jan 2024 02:37:24 +0000
http://www.open-lab.net/zh-cn/blog/?p=8605
Continued]]>
導讀:本文將介紹如何在GPU上高效地部署語音AI模型,主要內容如下: ▌語音AI部署背景介紹 首先介紹下搭建語音識別和語音生成類工作管線的痛點與挑戰。 首先,AI模型的部署,有端上和云上兩種不同的方式。在云上部署時,常常面對服務延時高、并發路數低、部署成本高等問題。我們希望通過更有效地利用 GPU 資源,服務更多的用戶,同時降低部署成本。 第二,語音 AI 與傳統的 CV 算法不同,其工作管線更為復雜,通常包含多個模塊,并且需要處理流之間的狀態維護、管理以及狀態切換。這使得開發難度大,有時簡單的 Python 腳本調度并不高效。 第三,當前許多從事語音 AI 服務的實踐者開始探索使用大型模型,如Whisper,來完成語音識別和語音模型的任務。然而,使用大型模型帶來了更大的計算需求,因此迫切需要提升大語言模型在 ASR、
Source
]]>
8605
-
2023 年最熱門的 NVIDIA 技術博客文章:生成式 AI、LLM、機器人開發和虛擬世界的突破
http://www.open-lab.net/zh-cn/blog/year-in-review-trending-posts-of-2023/
Tue, 19 Dec 2023 04:58:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=8555
Continued]]>
在 NVIDIA 激動人心的又一年即將結束之際,是時候回顧 2023 年 NVIDIA 技術博客中最熱門的案例了。 生成式 AI、大型語言模型 (LLM)、高性能計算 (HPC) 和機器人等領域的突破性研究和開發正在引領變革性 AI 解決方案的發展,并吸引了讀者的興趣。其他熱門文章探討了視頻技術和視頻會議領域的進步、增強用戶體驗以及 AI 安全方面的突破。 以下是 2023 年的部分亮點。 借助生成式 AI 快速生成虛擬世界的 3D 素材 NVIDIA Omniverse 上的新生成式 AI 技術增強了虛擬環境中的 3D 素材創建。這些進步旨在使元宇宙中的虛擬世界創建更快、更輕松。 利用 NVIDIA Maxine 眼神交流功能,增強視頻會議中的人際互動 NVIDIA Maxine 眼神交流技術利用 AI 實時調整您對攝像頭的注視點,
Source
]]>
8555
-
RAG 101:揭秘檢索增強生成流程
http://www.open-lab.net/zh-cn/blog/rag-101-demystifying-retrieval-augmented-generation-pipelines/
Mon, 18 Dec 2023 05:24:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=8575
Continued]]>
大型語言模型 (LLM) 在理解和生成類似人類的響應方面具有前所未有的能力,這給世界留下了深刻的印象。它們的聊天功能在人類和大型數據語料庫之間提供了快速且自然的交互。例如,它們可以從數據中總結和提取亮點,或者用自然語言替換 SQL 查詢等復雜查詢。 雖然假設這些模型可以輕松地創造商業價值非常吸引人,但遺憾的是現實并非總是這樣。幸運的是,企業可以通過使用自己的數據來增強大型語言模型(LLM),從而從中提取價值。這可以通過檢索增強生成(RAG)來實現,正如 NVIDIA 生成式 AI 示例 在面向開發者的 GitHub 庫中所展示的。 通過使用業務數據增強 LLM,企業可以提高其 AI 應用的敏捷性并響應新的開發。例如: 本文介紹了在構建 LLM 應用時使用 RAG 技術的好處,以及 RAG 工作流的組成部分。閱讀完本文后,歡迎參閱RAG 101:
Source
]]>
8575
-
RAG 101:檢索增強型生成問題
http://www.open-lab.net/zh-cn/blog/rag-101-retrieval-augmented-generation-questions-answered/
Mon, 18 Dec 2023 05:17:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=8569
Continued]]>
在設計和部署 RAG 工作流時,數據科學家、AI 工程師、MLOps 工程師和 IT 基礎架構專業人員必須考慮各種因素:從 LLM 等核心組件到評估方法,不一而足。 關鍵在于,RAG 是一個系統,而不僅僅是一個模型或一組模型。該系統由幾個階段組成,在 RAG 101:揭秘檢索增強生成流程 中有詳細解釋。所有這些階段都提供了根據您的需求做出設計決策的機會。 以下是熱門問題和答案的列表。 在 LLM 領域中,在微調、高效參數微調 (PEFT)、提示工程和檢索增強生成 (RAG) 之間進行選擇取決于應用程序的特定需求和限制。 這并不是說使用一種或另一種技術。事實上,這些技術可以同時使用。例如,PEFT 可能會集成到 RAG 系統中,以進一步優化 LLM 或嵌入模型。最佳方法取決于應用程序的特定要求,以及在準確性、資源可用性和計算限制之間取得平衡。
Source
]]>
8569
-
生成式 AI 研究聚焦:揭開基于擴散的模型的神秘面紗
http://www.open-lab.net/zh-cn/blog/generative-ai-research-spotlight-demystifying-diffusion-based-models/
Thu, 14 Dec 2023 05:41:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=8589
Continued]]>
借助互聯網級數據,AI 生成內容的計算需求顯著增加,數據中心在數周或數月內全力運行單個模型,更不用說通常作為服務提供的高生成推理成本。在這種情況下,犧牲性能的次優算法設計是一個代價高昂的錯誤。 近期,AI 生成的圖像、視頻和音頻內容取得了很大進展,降噪擴散 —— 一種以迭代方式將隨機噪聲塑造成新數據樣本的技術。我們的團隊最近發表的一篇研究論文 《闡明基于擴散的生成模型的設計空間》 獲得了 NeurIPS 2022 杰出論文獎,該論文識別出了文檔中看似復雜的方法背后的簡單核心機制。從對基礎知識的清晰認識開始,我們能夠發現在質量和計算效率方面的先進實踐。 降噪是指從圖像中消除傳感器噪聲或從錄音中消除聲等操作。本文將使用圖像作為運行示例,但該過程也適用于許多其他領域。此任務非常適合卷積神經網絡。 這與生成新圖像有什么關系?想象一下,圖像上有大量噪點。確實,
Source
]]>
8589
-
借助 NVIDIA H100 Tensor Core GPU 和 NVIDIA TensorRT-LLM 實現出色的推理性能
http://www.open-lab.net/zh-cn/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/
Wed, 13 Dec 2023 07:00:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=8494
Continued]]>
出色的 AI 性能需要高效的并行計算架構、高效的工具堆棧和深度優化的算法。NVIDIA 發布了 NVIDIA TensorRT-LLM,它包括專為 NVIDIA RTX GPU 設計的優化,以及針對 NVIDIA Hopper 架構 的優化,這些架構是 NVIDIA H100 Tensor Core GPU 的核心,位于 NVIDIA Omniverse 中。這些優化使得如 Lama 2 70B 等模型能夠在 H100 GPU 上利用加速的 FP8 運算進行執行,同時保持推理準確性。 在最近的一次發布活動中,AMD 談到了 H100 GPU 與其 MI300X 芯片相比的推理性能。分享的結果沒有使用經過優化的軟件,如果基準測試正確,H100 的速度會提高 2 倍。 以下是在 Llama 2 70B 模型上搭載 8 個 NVIDIA H100 GPU 的單個 NVIDIA…
Source
]]>
8494
-
新的 NVIDIA NeMo 框架功能和 NVIDIA H200 強效助力 LLM 訓練性能和通用性
http://www.open-lab.net/zh-cn/blog/new-nvidia-nemo-framework-features-and-nvidia-h200-supercharge-llm-training-performance-and-versatility/
Mon, 04 Dec 2023 05:37:31 +0000
http://www.open-lab.net/zh-cn/blog/?p=8419
Continued]]>
AI 在規模、復雜性和多樣性方面的快速增長推動了對 大型語言模型 (LLM) 訓練性能的不斷需求。要提供出色的性能,需要能夠在整個數據中心規模上高效地訓練模型。這是通過技術堆棧的每一層 — 包括芯片、系統和軟件 — 的卓越工藝來實現的。 我們的 NVIDIA NeMo 框架 是一個端到端的云原生框架,旨在構建、自定義和部署生成式 AI 模型。它整合了一系列先進的并行技術,以實現大規模 LLM 的高效訓練。 實際上,NeMo 支持 NVIDIA 最近在 MLPerf 訓練 行業標準基準測試中提交的出色 GPT-3 1750 億參數性能數據,每個 H100 GPU 可實現高達 797 TFLOPS 的性能。此外,在 NVIDIA 提交的最大規模測試中,使用了前所未有的 10752 個 H100 Tensor Core GPU,實現了創紀錄的性能和近線性的性能擴展。
Source
]]>
8419
-
在 NVIDIA ACE 中使用 AI 動畫和語音功能打造逼真的虛擬形象
http://www.open-lab.net/zh-cn/blog/create-lifelike-avatars-with-ai-animation-and-speech-features-in-nvidia-ace/
Mon, 04 Dec 2023 05:32:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=8416
Continued]]>
NVIDIA 今日公布了 NVIDIA Avatar Cloud Engine (ACE) 一系列技術,增強了 AI 虛擬形象和數字人的真實感和可訪問性。這些新的動畫和語音功能實現了更自然的對話和情感表達。 開發者現在可以使用新的云 API 在應用中輕松實現和擴展智能虛擬形象,包括 自動語音識別 (ASR)、文本轉語音 (TTS)、神經機器翻譯 (NMT) 和 Audio2Face (A2F)。 借助這些高級功能,搶先體驗計劃的創作者可以利用 NVIDIA 技術快速構建新一代虛擬形象體驗。現在,使用 Unreal Engine 5 等一些熱門渲染工具,可以更輕松地在任何地方大規模構建和部署數字人。 使用最新的 ACE AI 動畫功能和微服務(包括新添加的 A2F 情感支持)構建更具表現力的數字人。現在還提供用于身體、
Source
]]>
8416
-
如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型
http://www.open-lab.net/zh-cn/blog/qwen-model-support-nvidia-tensorrt-llm/
Mon, 04 Dec 2023 04:32:23 +0000
http://www.open-lab.net/zh-cn/blog/?p=8380
Continued]]>
大型語言模型正以其驚人的新能力推動人工智能的發展,擴大其應用范圍。然而,由于這類模型具有龐大的參數規模,部署和推理的難度和成本極高,這一挑戰一直困擾著 AI 領域。此外,當前存在大量支持模型部署和推理的框架和工具,如 ModelScope 的 Model Pipelines API,和 HuggingFace 的 Text Generation Inference 等,各自都有其獨特的特點和優勢。然而,這些工具往往未能充分發揮 GPU 的性能。 為了解決這些問題,NVIDIA 推出了一種全新的解決方案——TensorRT-LLM。這是一款高度優化的開源計算框架,它將 NVIDIA TensorRT 的深度學習編譯器、FasterTransformer 的優化內核、預處理和后處理,以及多 GPU / 多節點通信等功能封裝在一個簡單的開源 Python/C++ API 中,
Source
]]>
8380
-
構建您的首個 LLM 代理申請
http://www.open-lab.net/zh-cn/blog/building-your-first-llm-agent-application/
Thu, 30 Nov 2023 07:56:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=8440
Continued]]>
在構建 大型語言模型 (LLM) 智能體應用時,您需要四個關鍵組件:智能體核心、內存模塊、智能體工具和規劃模塊。無論您是設計問答智能體、多模態智能體還是智能體群,您都可以考慮許多實現框架 — 從開源到生產就緒。有關更多信息,請參閱 LLM 代理簡介。 對于首次嘗試開發 LLM 代理的用戶,本文提供了以下內容: 你們大多數人可能已經閱讀過有關 LangChain 或 LLaMa-Index 代理的文章。以下是目前可用的一些實現框架: 那么,我推薦哪一種?答案是,“這取決于”。 社區構建了多個框架來推進 LLM 應用開發生態系統,為您提供了開發代理的簡單路徑。熱門框架的一些示例包括 LangChain、LlamaIndex 和 Haystack.這些框架提供通用代理類、連接器和內存模組功能、第三方工具的訪問權限,以及數據檢索和提取機制。
Source
]]>
8440
人人超碰97caoporen国产