Sharath Sreenivas – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 02 Jan 2025 09:41:10 +0000 zh-CN hourly 1 196178272 利用 NVIDIA NeMo-Aligner 進行監督式微調的數據高效知識蒸餾 http://www.open-lab.net/zh-cn/blog/data-efficient-knowledge-distillation-for-supervised-fine-tuning-with-nvidia-nemo-aligner/ Tue, 17 Dec 2024 09:36:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=12498 Continued]]> 知識蒸餾是一種將更大的教師模型的知識轉移到更小的學生模型的方法,理想情況下可生成緊湊、易于部署的學生,且準確度與教師相當。知識蒸餾在預訓練設置中越來越受歡迎,但用于在監督式微調(Supervised Fine-Tuning,SFT)期間執行知識蒸餾的資源越來越少。 NVIDIA NeMo-Aligner 開源了一個在 SFT 期間使用知識蒸餾的實現,相較于標準 SFT,該實現的數據效率更高,準確性也更高 (Table 1)。 在表 1 中,SFT 是使用數學/代碼數據集執行的。使用知識蒸餾微調的模型版本在所有數學和代碼相關基準測試中均優于基準,即使僅執行 70%的訓練步驟也是如此。 在 SFT 期間,有許多方法可以從大型模型傳輸知識。最常見的方法是使用教師模型生成合成數據,我們稱之為 KD-SDG。然后,使用合成生成的數據微調學生模型。 還有一種開創性的方法,

Source

]]>
12498
Mistral-NeMo-Minitron 8B 模型提供超高精度 http://www.open-lab.net/zh-cn/blog/mistral-nemo-minitron-8b-foundation-model-delivers-unparalleled-accuracy-2/ Tue, 08 Oct 2024 06:39:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=11441 Continued]]> 本文最初發布于 2024 年 8 月 21 日,但已根據當前數據進行了修訂。 最近,NVIDIA 和 Mistral AI 推出了 Mistral NeMo 12B ,這是一款先進的大語言模型 (LLM)。Mistral NeMo 12B 在 各種基準測試 中的表現始終優于類似大小的模型。 我們宣布推出 Mistral-NeMo-Minitron 8B,這是同類產品中最先進的開放訪問模型之一。該模型在九項熱門基準測試中始終提供領先的準確性。Mistral-NeMo-Minitron 8B 基礎模型是通過對 Mistral NeMo 12B 基礎模型 進行寬度剪枝獲得的,然后是使用知識蒸餾進行的輕量化重新訓練過程。這是 NVIDIA 最初在論文《 通過剪枝和知識蒸餾實現緊湊語言模型 》中提出的成功方法。NVIDIA Minitron 8B 和 4B 以及 Llama…

Source

]]>
11441
Mistral-NeMo-Minitron 8B 基礎模型實現準確性巔峰 http://www.open-lab.net/zh-cn/blog/mistral-nemo-minitron-8b-foundation-model-delivers-unparalleled-accuracy/ Wed, 21 Aug 2024 09:32:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=11021 Continued]]> 上個月,NVIDIA 和 Mistral AI 推出了 Mistral NeMo 12B,這是一款領先的先進的大型語言模型(LLM)。Mistral NeMo 12B 在各種基準測試中的表現始終優于類似大小的模型。 今天,我們宣布推出 Mistral-NeMo-Minitron 8B,這是該體量級別中最先進的開放訪問模型之一。該模型在9個熱門基準測試中始終提供領先的準確度。Mistral-NeMo-Minitron 8B基礎模型是通過對Mistral NeMo 12B基礎模型的寬度剪枝獲得的,然后使用知識提煉進行輕量再訓練。這是NVIDIA最初在論文’通過剪枝和知識提煉實現緊湊語言模型‘中提出的成功方法。NVIDIA Minitron 8B和4B以及Llama-3.1-Minitron 4B模型反復驗證了這一點。 模型剪枝是指通過減少圖層(深度剪枝)或減少神經元、

Source

]]>
11021
如何在 NVIDIA Llama-3.1-Minitron 4B 模型上修剪和提煉 Llama-3.1 8B http://www.open-lab.net/zh-cn/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/ Wed, 14 Aug 2024 06:42:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=10982 Continued]]> 由于大型語言模型(LLM)的有效性和通用性,它們現在已經成為自然語言處理和理解領域的主導力量。LLM(例如 Llama 3.1 405B 和 NVIDIA Nemotron-4 340B)在編碼、推理和數學等許多具有挑戰性的任務中表現出色。但是,它們的部署需要大量資源。因此,業內出現了另一種趨勢,即開發小型語言模型(SLM),這些模型在許多語言任務中足夠精通,但部署給大眾的成本要便宜得多。 最近,NVIDIA 研究人員表明,結構化權重剪枝與知識提煉相結合,形成了一種有效且高效的策略,可以從初始較大的同級產品中逐步獲得較小的語言模型。NVIDIA Minitron 8B 和 4B 是如此小的模型,通過在 NVIDIA Nemotron 系列中剪枝和提煉其較大的 15B 同級產品來獲得。 剪枝和提煉可帶來以下優勢:

Source

]]>
10982
人人超碰97caoporen国产