Ankit Patel – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:07:23 +0000 zh-CN hourly 1 196178272 借助 Codestral Mamba 新一代編碼 LLM 實現代碼完成革新突破 http://www.open-lab.net/zh-cn/blog/revolutionizing-code-completion-with-codestral-mamba-the-next-gen-coding-llm/ Thu, 25 Jul 2024 08:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10845 Continued]]> 在快速發展的生成式 AI 領域,編碼模型已成為開發者不可或缺的工具,可提高軟件開發的生產力和精度。它們通過自動執行復雜任務、增強可擴展性和促進創新提供顯著優勢,使其成為現代軟件開發的寶貴工具。 本文將探討 Codestral Mamba 的優勢,重點介紹其 Mamba-2 架構,在 NVIDIA TensorRT-LLM 中支持的推理優化,以及借助 NVIDIA NIM 輕松部署以實現變革潛力和編碼效率的提升。 Codestral Mamba 由 Mistral 開發,是基于創新 Mamba-2 架構構建的突破性編碼模型,專為實現出色的代碼完成而設計。 采用名為fill-in-the-middle ( ) 的先進技術,在生成準確且上下文相關的代碼示例方面樹立了新標準。 Codestral Mamba 與 NVIDIA NIM 實現無縫集成,用于容器化,

Source

]]>
10845
借助由 NVIDIA RTX GPU 優化的 Firebase Genkit 強效助力生成式 AI 開發 http://www.open-lab.net/zh-cn/blog/supercharge-generative-ai-development-with-firebase-genkit-optimized-by-nvidia-rtx-gpus/ Mon, 20 May 2024 05:03:14 +0000 http://www.open-lab.net/zh-cn/blog/?p=10110 Continued]]> 在 Google I/O 2024 大會上,Google 宣布了 Firebase Genkit,這是一個新的開源框架,旨在供開發者使用諸如 Google Gemini 和 Google Gemma 等技術。借助 Firebase Genkit,您可以構建集成智能代理、自動化客戶支持、使用語義搜索的應用,并將非結構化數據轉換為見解。此外,Genkit 還包含開發者 UI,使您能夠在本地開發者環境中對 AI 功能進行原型設計、開發和測試。 Google 與 NVIDIA 合作,共同優化 Google Gemma 模型的推理性能。此外,NVIDIA RTX 專業 GPU 和NVIDIA GeForce RTX GPU 也可以提高推理性能,從而提高開發者的工作效率,使您的解決方案更加流暢。 借助 Firebase Genkit,您可以通過在 NVIDIA GPU 上本地運行…

Source

]]>
10110
借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton 推理服務器提升 Meta Llama 3 性能 http://www.open-lab.net/zh-cn/blog/turbocharging-meta-llama-3-performance-with-nvidia-tensorrt-llm-and-nvidia-triton-inference-server/ Mon, 22 Apr 2024 05:16:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=9656 Continued]]> 我們很高興地宣布支持 Meta Llama 3 系列模型,通過 NVIDIA TensorRT LLM 加速和優化 LLM 推理性能。您現在可以立即嘗試 Llama 3 8B 和 Llama 3 70B,該系列中的第一個模型,通過瀏覽器用戶界面進行體驗。另外,您也可以通過 NVIDIA API 產品目錄 中的 API 端點訪問 Llama 3,后者被包裝為 NVIDIA NIM,提供了標準 API,能夠部署在任何地方。 大型語言模型需要大量的計算資源。它們的大小使其運行成本高昂且速度緩慢,尤其是在沒有正確技術的情況下。許多優化技術都可用,例如內核融合和量化到運行時優化(如 C++ 實現、KV 緩存、連續運行中批處理和分頁注意力)。 開發人員必須決定哪種組合有助于他們的用例。 TensorRT-LLM 簡化了這項工作。 TensorRT-LLM 是一個開源庫,

Source

]]>
9656
NVIDIA TensorRT-LLM 為 Google Gemma 加速推理 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-revs-up-inference-for-google-gemma/ Wed, 21 Feb 2024 05:08:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=8948 Continued]]> 作為發布合作伙伴,NVIDIA 與 Google 合作提供了Gemma,這是一個新優化的開放模型系列,它基于創建 Gemini 模型時所使用的相同研究和技術構建。通過使用 TensorRT-LLM 的優化版本,用戶只需配備NVIDIA RTX GPU,即可享受到這些優勢。 由 Google DeepMind 創建,Gemma 2B 和 Gemma 7B 作為該系列的首批模型,Gemma 可實現高吞吐量和先進性能。通過 TensorRT-LLM (用于優化推理性能的開源庫) 加速,Gemma 可兼容從數據中心、云到本地 PC 的各種 NVIDIA AI 平臺。 以前,LLM 的優化和部署非常復雜,令人望而卻步。使用 TensorRT-LLM 簡化的 Python API 可以輕松實現量化和內核壓縮。Python 開發者可以針對熱門 LLM 自定義模型參數、減少內存占用、

Source

]]>
8948
NVIDIA TensorRT-LLM 在 NVIDIA H100 GPU 上大幅提升大語言模型推理能力 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/ Fri, 08 Sep 2023 04:01:53 +0000 http://www.open-lab.net/zh-cn/blog/?p=7796 Continued]]> 大語言模型(LLM)提供異常強大的新功能,拓展了 AI 的應用領域。但由于其龐大的規模和獨特的執行特性,很難找到經濟高效的使用方式。 NVIDIA 一直在與 Meta、Anyscale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(現已并入 Databricks)、OctoML、ServiceNow、Tabnine、Together AI 和 Uber 等頭部企業密切合作,共同加速和優化 LLM 推理性能。 這些創新已被集成到開源的 NVIDIA TensorRT-LLM 軟件中,可用于 Ampere、Lovelace 和 Hopper 架構 GPU,并將在未來幾周內發布。TensorRT-LLM 包含 TensorRT 深度學習編譯器,并且帶有經過優化的內核、前處理和后處理步驟,以及多 GPU/多節點通信原語,

Source

]]>
7796
SDK 加速行業 5.0 、數據管道、計算科學等在 GTC 2023 上亮相 http://www.open-lab.net/zh-cn/blog/sdks-accelerating-industry-5-0-data-pipelines-computational-science-and-more-featured-at-gtc-2023/ Wed, 22 Mar 2023 06:45:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=6530 Continued]]> 在 2023 年的 NVIDIA GTC 2023 上, NVIDIA 公布了其 NVIDIA AI 軟件套件的顯著更新,供開發者加速計算。這些更新降低了幾個領域的成本,例如使用 NVIDIA RAPIDS 的數據科學工作負載、使用 NVIDIA Triton 的模型分析、使用 NVID IA CV- CUDA 的人工智能成像和計算機視覺等。 為了跟上 NVIDIA 最新的 SDK 進步,請觀看首席執行官黃仁勛的 GTC keynote 。 NVIDIA RAPIDS Accelerator for Apache Spark 現已在 NVIDIA AI Enterprise 3.1 軟件套件中提供。使用 Apache Spark 3 在不更改代碼的情況下加快數據處理和分析或模型培訓,同時降低基礎設施成本。 亮點: 立即申請 ,

Source

]]>
6530
新的 SDK 加速 AI 研究、計算機視覺、數據科學等 http://www.open-lab.net/zh-cn/blog/new-sdks-accelerating-ai-research-computer-vision-data-science-and-more/ Wed, 21 Sep 2022 09:09:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5207 Continued]]> NVIDIA 向開發者透露了 AI 軟件套件的主要更新,包括 JAX 、 NVIDIA CV-CUDA 和 NVIDIA RAPIDS 。 要了解 NVIDIA SDK 的最新進展,請觀看首席執行官黃延森(黃仁勛)發布的 主題演講 。 就在今天的 GTC 2022 年, NVIDIA 在 NVIDIA -AI 上引入了 JAX ,這是其 GPU 加速深度學習框架的最新補充。 JAX 是一個快速增長的高性能數值計算和機器學習研究庫。 JAX 可以自動區分本機 Python 函數并實現類似 NumPy 的 API 。 只需幾行代碼, JAX 就可以跨多節點和多 GPU 系統進行分布式訓練,并通過 NVIDIA GPU 上的 XLA 優化內核加速性能。 使用 JAX 實現的一些研究領域包括變壓器、強化學習、流體動力學、地球物理建模、藥物發現、計算機視覺等。

Source

]]>
5207
人人超碰97caoporen国产