Llama – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 26 Mar 2025 09:19:04 +0000 zh-CN hourly 1 196178272 借助 NVIDIA NIM 微服務,在 RTX AI PC 和工作站上開啟您的 AI 之旅 http://www.open-lab.net/zh-cn/blog/kickstart-your-ai-journey-on-rtx-ai-pcs-and-workstations-with-nvidia-nim-microservices/ Tue, 25 Mar 2025 09:11:53 +0000 http://www.open-lab.net/zh-cn/blog/?p=13372 Continued]]> 隨著數字人、智能體、播客、圖像和視頻生成等新興用例的出現, 生成式 AI 正在改變我們與 PC 的交互方式。這種范式轉變要求我們以新的方式與生成式 AI 模型進行交互和編程。然而,對于 PC 開發者和 AI 愛好者而言,入門可能會非常困難。 今天,NVIDIA 在 NVIDIA RTX AI PC 上發布了一套 NVIDIA NIM 微服務 ,以在 PC 上快速啟動 AI 開發和實驗。NIM 微服務目前處于 beta 階段,提供涵蓋語言、語音、動畫、內容生成和視覺功能的 AI 基礎模型。 這些易于使用的行業標準 API 可幫助您在 NVIDIA RTX AI PC 上使用 NVIDIA NIM,開啟從實驗到構建的 AI 之旅。它們易于下載和運行,涵蓋 PC 開發的主流模式,并與主流生態系統應用程序和工具兼容。 將 AI 引入 PC 會帶來獨特的挑戰。

Source

]]>
13372
2024 年熱門文章:NVIDIA NIM、語言模型突破和數據科學優化的精要 http://www.open-lab.net/zh-cn/blog/top-posts-of-2024-highlight-nvidia-nim-llm-breakthroughs-and-data-science-optimization/ Mon, 16 Dec 2024 05:14:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=12525 Continued]]> 對于使用 NVIDIA 技術的開發者、研究人員和創新者來說,2024 年又是具有里程碑意義的一年。從 AI 推理領域的突破性進展到助力開源貢獻,這些博客文章重點介紹了最受讀者反響的突破性成果。 NVIDIA NIM 提供經過優化的推理微服務,用于大規模部署 AI 模型 NVIDIA NIM 于 2024 年推出,是一套易于使用的推理微服務,用于加速基礎模型的部署。開發者可以在盡可能減少配置更改的情況下優化推理工作流,從而實現無縫、高效的擴展。 NVIDIA NIM 現為開發者計劃成員免費開放 為了普及 AI 部署,NVIDIA 為其開發者計劃成員提供 NIM 的免費訪問權限,使更多的開發者能夠試驗和實施 AI 解決方案。 NVIDIA GB200 NVL72 提供萬億參數 LLM 訓練和實時推理…

Source

]]>
12525
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能 http://www.open-lab.net/zh-cn/blog/llama-3-2-full-stack-optimizations-unlock-high-performance-on-nvidia-gpus/ Tue, 19 Nov 2024 09:20:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12199 Continued]]> Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,支持文本和圖像輸入。此外,Meta 還推出了 Llama 3.2 的純文本 小語言模型(SLM) 變體,具有 1B 和 3B 參數。NVIDIA 已對 Llama 3.2 模型集合進行優化,以便在全球數百萬個 GPU 上提供出色的性能和經濟高效的服務 – 從我們功能強大的數據中心和云 GPU 到本地 NVIDIA RTX 工作站 ,甚至是使用 NVIDIA Jetson 的低功耗邊緣設備。 Llama 3.2 VLM 支持長達 128K 的文本標記,以及分辨率為 1120 x 1120 像素的單張圖像輸入。為了實現低延遲響應,提供出色的用戶體驗,同時提供高吞吐量以經濟高效地提供這些模型,NVIDIA 平臺在技術堆棧的每一層都進行了優化。

Source

]]>
12199
NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-doubles-llm-training-performance-in-mlperf-training-v4-1/ Wed, 13 Nov 2024 07:46:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12054 Continued]]> 隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。 在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。

Source

]]>
12054
NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升 http://www.open-lab.net/zh-cn/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/ Fri, 08 Nov 2024 08:12:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12068 Continued]]> 在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA H100 Tensor Core GPU 上將首次生成令牌 (Time To First Token, TTFT) 的速度提升高達 14 倍,在 NVIDIA GH200 Superchip 上可將其提升高達 28 倍。在本文中,我們介紹了可以進一步推動 TTFT 加速的 KV 緩存重復使用技術和最佳實踐。 許多任務(包括問答和代碼生成)都迅速采用了 LLM 模型。為了生成響應,這些模型首先將用戶的提示符轉換為 tokens,然后將其轉換為 dense vectors。隨后會進行大量的 dot-product operations,以數學方式對 tokens 之間的關系建模,并構建對用戶輸入的上下文理解。

Source

]]>
12068
借助 Llama-3.1-Nemotron-51B 實現準確性和效率的突破性發展 http://www.open-lab.net/zh-cn/blog/advancing-the-accuracy-efficiency-frontier-with-llama-3-1-nemotron-51b/ Wed, 25 Sep 2024 07:33:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=11365 Continued]]> 今天,NVIDIA 發布了一個獨特的語言模型,可提供無與倫比的準確性和效率性能。Llama 3.1-Nemotron-51B 衍生自 Meta 的 Llama-3.1-70B,使用了一種新穎的神經架構搜索(Neural Architecture Search,NAS)方法,可生成高度準確和高效的模型。該模型適合高工作負載下的單個 NVIDIA H100 GPU,使其更易于訪問和經濟實惠。新模型展示的出色準確性和效率亮點源于模型架構的變化,這些變化導致顯存占用顯著減少,內存帶寬減少,浮點運算次數(FLOPs)降低,同時保持出色的準確性。我們證明,通過從參考模型創建另一個更小、更快速的變體,可以推廣這種方法。 2024 年 7 月,Meta 發布了 Llama-3.1-70B,這是一種領先的先進大語言模型 (LLM)。今天,我們宣布推出 Llama 3.1…

Source

]]>
11365
在 NVIDIA 平臺上為 Lama 3.1 提供強效助力 http://www.open-lab.net/zh-cn/blog/supercharging-llama-3-1-across-nvidia-platforms/ Tue, 23 Jul 2024 08:10:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=11038 Continued]]> Meta 的 Llama 大型語言模型集合是當今開源社區中最受歡迎的基礎模型,支持多種應用場景。全球數百萬開發者正在基于這些模型構建衍生模型,并將其集成到他們的應用程序中。 Meta 將在 Llama 3.1 中推出一套大型語言模型(LLMs)以及一套信任和安全模型,以確保 LLM 響應的安全。 Meta 工程師在 NVIDIA H100 Tensor Core GPU 上訓練了 Llama 3。他們顯著優化了完整的訓練堆棧,并將模型訓練推向超過 16K H100 GPU,使 405B 成為第一個在這種規模下訓練的 Llama 模型。 我們很高興地宣布,Llama 3.1 集合已針對全球超過 1 億個 GPU 進行優化,涵蓋 NVIDIA 所有平臺,從數據中心到邊緣和 PC。 最新的 NVIDIA H200 Tensor Core GPU 運行 TensorRT-LLM,

Source

]]>
11038
利用 Llama 3.1 405B 生成合成數據 http://www.open-lab.net/zh-cn/blog/creating-synthetic-data-using-llama-3-1-405b/ Tue, 23 Jul 2024 05:54:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=10755 Continued]]> 合成數據并不是創建新信息,而是將現有信息轉換為不同的變體。十多年來,合成數據一直用于全面提高模型準確性,無論是轉換圖像以改進對象檢測模型、加強欺詐性信用卡檢測,還是改進BERT模型以實現問答。 有什么新功能?隨著大型語言模型(LLMs)的出現,生成合成數據的動力和生成合成數據的技術都得到了大幅提升。 各行各業的企業都在生成合成數據,以針對各種用例微調基礎語言模型,例如改善金融領域的風險評估、優化零售業供應鏈、改善電信領域的客戶服務,以及推進醫療健康領域的患者護理。 今天,Meta 發布了 Llama 3.1 405B,這是一款功能強大的開放語言模型(LLM),可用于批量和在線推理。它還可以作為基礎,針對特定領域進行專門的預訓練或微調。鑒于模型的大小及其訓練的數據量,它非常適合生成合成數據。 在這篇博客文章中,我們將涵蓋幾個合成數據生成的應用案例,并深入探討其中的一個。

Source

]]>
10755
人人超碰97caoporen国产