• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    內容創建/渲染

    在 NVIDIA RTX 系統上使用 Llama.cpp 加速 LLM

    適用于 Windows PC 平臺的 NVIDIA RTX AI 提供了一個由數千個開源模型組成的蓬勃發展的生態系統,供應用程序開發者利用并集成到 Windows 應用程序中。值得注意的是,llama.cpp 是一款熱門工具,在撰寫本文時擁有超過 65K 顆 GitHub 星。此開源庫最初發布于 2023 年,是一個輕量級、高效的 大語言模型 (LLM) 推理框架,可在包括 RTX PC 在內的一系列硬件平臺上運行。

    本文介紹了 RTX PC 上的 Llama.cpp 如何為構建需要 LLM 功能的跨平臺或 Windows 原生應用提供出色的解決方案。

    Llama.cpp 概述?

    雖然 LLMs 在解鎖令人興奮的新用例方面大有可為,但其大容量內存和計算密集型特性通常使開發者難以將它們部署到生產應用中。為解決這一問題,Llama.cpp 提供了大量功能,以優化模型性能,并在各種硬件上高效部署。

    Llama.cpp 的核心是利用 ggml 張量庫進行機器學習。這一輕量級軟件堆棧支持跨平臺使用 llama.cpp,而無需依賴外部資源。它具有極高的內存效率,是本地設備推理的理想選擇。模型數據以名為 GGUF 的自定義文件格式打包和部署,由 llama.cpp 貢獻者專門設計和實施。

    在 llama.cpp 上構建項目的開發者可以從數千個預包裝模型中進行選擇,這些模型涵蓋各種高質量量化。一個不斷發展的開源社區正在積極開發 llama.cpp 和 ggml 項目。

    Llama.cpp 在 NVIDIA RTX 上的加速性能

    NVIDIA 將繼續合作,改進和優化在 RTX GPU 上運行時的 llama.cpp 性能,以及開發者體驗。一些關鍵貢獻包括:

    有關最近的貢獻,請參閱使用 CUDA 圖形優化 Llama.cpp AI 推理。

    圖 1 顯示了 NVIDIA 內部測量結果,其中展示了在 llama.cpp 上使用 Llama 3 8B 模型在 NVIDIA GeForce RTX GPU 上的吞吐量性能。在 NVIDIA RTX 4090 GPU 上,用戶預計每秒約 150 個令牌,輸入序列長度為 100 個令牌,輸出序列長度為 100 個令牌。

    要使用 NVIDIA GPU 優化和 CUDA 后端構建 llama.cpp 庫,請訪問 GitHub 上的 llama.cpp/docs

    Bar graph showing inference performance of Llama 3 8B int4 with llama.cpp on four different NVIDIA GeForce RTX GPUs.
    圖 1. NVIDIA GeForce RTX GPU 上的 NVIDIA 內部吞吐量性能測量結果,采用 Llama 3 8B 模型,輸入序列長度為 100 個令牌,生成 100 個令牌。

    使用 Llama.cpp 構建的開發者生態系統?

    基于 llama.cpp 構建了一個龐大的開發者框架和抽象生態系統,供開發者進一步加速其應用開發之旅。 Ollama Homebrew LMStudio 等熱門開發者工具均擴展并利用了 llama.cpp 的底層功能,以提供抽象的開發者體驗。其中一些工具的主要功能包括配置和依賴項管理、模型權重捆綁、抽象 UI 以及 LLM 的本地運行 API 端點。

    此外,還有一個廣泛的模型生態系統,這些模型已經預先優化,開發者可以使用 llama.cpp 在 RTX 系統上使用。著名的模型包括 Hugging Face 上提供的最新 GGUF 量化版本的 Llama 3.2

    此外,llama.cpp 作為 NVIDIA RTX AI 工具包 的一部分提供推理部署機制。

    在 RTX 平臺上使用 Llama.cpp 加速應用程序

    現已有 50 多種工具和應用通過 llama.cpp 進行加速,包括:

    • Backyard.ai: 借助 Backyard.ai,用戶可以在私人環境中與最喜歡的角色進行虛擬互動,并完全擁有所有權和控制權,從而利用 AI 發揮創造力。該平臺利用 llama.cpp 在 RTX 系統上加速 LLM 模型。
    • Brave :Brave 已將智能 AI 助手 Leo 直接集成到 Brave 瀏覽器中。借助保護隱私的 Leo,用戶現在可以提出問題、總結網頁和 PDF、編寫代碼以及創建新文本。借助 Leo,用戶可以利用 Ollama (利用 llama.cpp 在 RTX 系統上實現加速) 與設備上的本地 LLM 進行交互。
    • Opera?:作為 Opera One 開發版本的一部分,Opera 現在集成了本地 AI 模型來增強用戶的瀏覽需求。Opera 使用 Ollama 集成了這些功能,利用了完全在 NVIDIA RTX 系統上本地運行的 llama.cpp 后端。在 Opera 的瀏覽器 AI Aria 中,用戶還可以向引擎詢問網頁的摘要和翻譯,通過額外的搜索獲取更多信息,生成文本和圖像,并在支持 50 多種語言的情況下大聲閱讀回復。
    • Sourcegraph :Sourcegraph Cody 是一款 AI 編碼助手,支持最新的 LLM,并使用最佳的開發者上下文提供準確的代碼建議。Cody 還可以處理在本地機器和氣隙環境中運行的模型。它利用 Ollama,在 NVIDIA RTX GPU 上加速本地推理支持,使用 llama.cpp。

    開始使用?

    在 RTX AI PC 上使用 llama.cpp 可為開發者提供令人信服的解決方案,以加速 GPU 上的 AI 工作負載。借助 llama.cpp,開發者可以通過輕量級安裝包利用 C++ 實現進行 LLM 推理。了解詳情并開始使用 RTX AI 工具包上的 llama.cpp

    NVIDIA 致力于在 RTX AI 平臺 上貢獻和加速開源軟件。

    ?

    0

    標簽

    人人超碰97caoporen国产