AI Inference – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 27 Feb 2024 23:11:02 +0000 zh-CN hourly 1 196178272 借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton 部署 AI 編碼助手 http://www.open-lab.net/zh-cn/blog/deploy-an-ai-coding-assistant-with-nvidia-tensorrt-llm-and-nvidia-triton/ Thu, 01 Feb 2024 08:00:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=8908 Continued]]> 大型語言模型 (LLM) 的出現革新了人工智能領域,為與數字世界的交互提供了全新的方式。盡管 LLM 通常能夠提供良好的通用解決方案,但為了更好地支持特定領域和任務,它們往往需要進行調整。 AI 編碼助手(或代碼 LLM)已成為幫助實現這一目標的一個領域。到 2025 年,80% 的產品開發生命周期將使用 生成式 AI 進行代碼生成,開發者將充當后端和前端組件及集成的驗證者和編排者。您可以調整用于代碼任務的 LLM,簡化開發者的工作流程,并降低新手編程人員的門檻。Code LLM 不僅可以生成代碼,還可以填充缺失的代碼、添加文檔,并提供解決難題的提示。 本文將介紹如何部署端到端代碼 LLM,包括具體的提示指南、優化技術和客戶端 – 服務器部署。我們使用NVIDIA Triton 推理服務器并使用NVIDIA TensorRT-LLM,

Source

]]>
8908
使用全卷積網絡在 Transformer 模型中模擬注意力機制 http://www.open-lab.net/zh-cn/blog/emulating-the-attention-mechanism-in-transformer-models-with-a-fully-convolutional-network/ Mon, 29 Jan 2024 04:14:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=8866 Continued]]> 在過去十年中,深度學習技術在計算機視覺 (CV) 任務中的應用大幅增加。卷積神經網絡 (CNN) 一直是這場革命的基石,展示了卓越的性能,并在視覺感知方面實現了顯著進步。 通過采用本地化濾鏡和分層架構,CNN 已證明擅長捕捉空間層次結構、檢測模式,以及從圖像中提取信息豐富的特征。例如,在用于圖像識別的深度殘差學習中,卷積層表現出平移等方差,使其能夠泛化為平移和空間轉換。然而,盡管 CNN 取得了成功,但其在捕獲遠程依賴項和全局上下文理解方面仍存在局限性,這在需要精細理解的復雜場景或任務中變得越來越重要。 相比之下,Transformer 架構在計算機視覺領域中正變得越來越有吸引力,這得益于其在自然語言處理 (NLP) 領域的成功應用。正如論文Attention Is All You Need中所展示的,Transformer 通過避免局部卷積,提供了一種自注意力機制,

Source

]]>
8866
借助 NVIDIA RTX 系統為 Windows PC 上的 LLM 應用程序提供強效助力 http://www.open-lab.net/zh-cn/blog/supercharging-llm-applications-on-windows-pcs-with-nvidia-rtx-systems/ Mon, 08 Jan 2024 05:52:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=8666 Continued]]> 大型語言模型 (LLM) 正在從根本上改變我們與計算機的交互方式。從互聯網搜索到辦公效率工具,這些模型正被整合到各種應用中。它們正在推進實時內容生成、文本摘要、客戶服務聊天機器人和問答用例的發展。 如今,由 LLM 提供支持的應用程序主要在云端運行。但是,許多用例都將受益于在 Windows PC 上本地運行 LLM,包括游戲、創意、生產力和開發者體驗。 在 CES 2024 上, NVIDIA 發布了一些開發者工具,用于在適用于 Windows PC 的 NVIDIA RTX 系統上加速 LLM 推理和開發。您現在可以使用 NVIDIA 端到端開發者工具在 NVIDIA RTX AI 就緒型 PC 上創建和部署 LLM 應用。 NVIDIA 剛剛宣布為熱門社區模型提供優化支持,包括 Phi-2。除了在 NVIDIA RTX 系統上對 Lama2、

Source

]]>
8666
借助 H2O.ai 和 NVIDIA 加速端到端工作流程的推理 http://www.open-lab.net/zh-cn/blog/accelerating-inference-on-end-to-end-workflows-with-h2o-ai-and-nvidia/ Thu, 04 Jan 2024 06:08:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=8683 Continued]]> 數據科學家利用生成式 AI和預測分析構建新一代 AI 應用。在金融服務領域,AI 建模和推理可用于多種解決方案,包括用于投資分析的替代數據、AI 智能文檔自動化,以及交易、銀行和支付中的欺詐檢測。 H2O.ai 與 NVIDIA 合作,利用 NVIDIA AI Enterprise 平臺以及 H2O.ai 的 LLM Studio 和 Driverless AI AutoML,為生成式 AI 和數據科學提供了一個端到端的工作流程。H2O.ai 還利用 NVIDIA AI Enterprise 部署了新一代 AI 推理技術,包括大型語言模型 (LLM),用于構建安全可靠的企業級金融 GPT 和大規模定制應用。 此集成旨在幫助組織開發和部署自己的 LLM 和自定義模型,以用于自然語言處理 (NLP) 以外的各種應用(包括圖像生成)。這些模型支持使用多種內容模式(例如文本、音頻、

Source

]]>
8683
生成式 AI 研究聚焦:揭開基于擴散的模型的神秘面紗 http://www.open-lab.net/zh-cn/blog/generative-ai-research-spotlight-demystifying-diffusion-based-models/ Thu, 14 Dec 2023 05:41:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=8589 Continued]]> 借助互聯網級數據,AI 生成內容的計算需求顯著增加,數據中心在數周或數月內全力運行單個模型,更不用說通常作為服務提供的高生成推理成本。在這種情況下,犧牲性能的次優算法設計是一個代價高昂的錯誤。 近期,AI 生成的圖像、視頻和音頻內容取得了很大進展,降噪擴散 —— 一種以迭代方式將隨機噪聲塑造成新數據樣本的技術。我們的團隊最近發表的一篇研究論文 《闡明基于擴散的生成模型的設計空間》 獲得了 NeurIPS 2022 杰出論文獎,該論文識別出了文檔中看似復雜的方法背后的簡單核心機制。從對基礎知識的清晰認識開始,我們能夠發現在質量和計算效率方面的先進實踐。 降噪是指從圖像中消除傳感器噪聲或從錄音中消除聲等操作。本文將使用圖像作為運行示例,但該過程也適用于許多其他領域。此任務非常適合卷積神經網絡。 這與生成新圖像有什么關系?想象一下,圖像上有大量噪點。確實,

Source

]]>
8589
借助 NVIDIA H100 Tensor Core GPU 和 NVIDIA TensorRT-LLM 實現出色的推理性能 http://www.open-lab.net/zh-cn/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/ Wed, 13 Dec 2023 07:00:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=8494 Continued]]> 出色的 AI 性能需要高效的并行計算架構、高效的工具堆棧和深度優化的算法。NVIDIA 發布了 NVIDIA TensorRT-LLM,它包括專為 NVIDIA RTX GPU 設計的優化,以及針對 NVIDIA Hopper 架構 的優化,這些架構是 NVIDIA H100 Tensor Core GPU 的核心,位于 NVIDIA Omniverse 中。這些優化使得如 Lama 2 70B 等模型能夠在 H100 GPU 上利用加速的 FP8 運算進行執行,同時保持推理準確性。 在最近的一次發布活動中,AMD 談到了 H100 GPU 與其 MI300X 芯片相比的推理性能。分享的結果沒有使用經過優化的軟件,如果基準測試正確,H100 的速度會提高 2 倍。 以下是在 Llama 2 70B 模型上搭載 8 個 NVIDIA H100 GPU 的單個 NVIDIA…

Source

]]>
8494
宣布推出 HelpSteer:用于構建實用 LLM 的開源數據集 http://www.open-lab.net/zh-cn/blog/announcing-helpsteer-an-open-source-dataset-for-building-helpful-llms/ Mon, 27 Nov 2023 06:37:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=8368 Continued]]> NVIDIA 最近宣布了 NVIDIA NeMo SteerLM 技術,它是 NVIDIA NeMo 的一部分。此技術允許用戶在推理期間控制大型語言模型(LLM)的響應。開發者社區對使用此方法構建自定義 LLM 表現出極大的興趣。 NVIDIA NeMo 團隊目前正在開源一個名為 Helpfulness SteerLM 數據集(HelpSteer)的資源。有了這個新資源,開發者可以迅速開始利用 SteerLM 技術,并構建先進的自定義模型。 HelpSteer 是我們團隊與 Scale AI 之間的協作成果。它與 SteerLM 技術相結合,提高了響應的真實性和一致性。現在,開發者可以根據復雜性和詳細程度等其他屬性來指導 LLM 響應,并增強最終用戶響應的整體可控性。 通過使用此新數據集和 SteerLM 技術,NVIDIA 訓練了一個 Llama 2 70B 基礎模型,

Source

]]>
8368
掌握 LLM 技術:推理優化 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-inference-optimization/ Fri, 17 Nov 2023 05:14:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=8306 Continued]]> 通過堆疊 Transformer 層來創建大型模型,可以提高準確性、實現少量學習功能,并且在各種語言任務中實現近乎人類的性能。這些基礎模型的訓練成本高昂,而且在推理過程中可能會占用大量內存和計算資源(這是一種重復性成本)。目前最熱門的大型語言模型 (LLM)可以達到數百億到數千億的參數規模,并且根據用例,可能需要處理長輸入(或上下文),這也會增加費用。 本文討論了大型語言模型(LLM)推理中最緊迫的挑戰及其實用解決方案。建議讀者對 Transformer 架構 和通用注意力機制有基本的了解。我們將在下一節重點討論掌握 LLM 推理復雜性的重要性。 大多數熱門的僅使用解碼器的 LLM (例如 GPT-3)都基于因果關系建模目標進行了預訓練,本質上是作為次詞預測器。這些 LLM 接受一系列標記作為輸入,并以自回歸方式生成后續標記,直到它們滿足停止標準(例如,

Source

]]>
8306
人人超碰97caoporen国产