Bryan Catanzaro – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 10 Aug 2023 05:50:36 +0000
zh-CN
hourly
1
196178272 -
策展萬億代幣數據集: NVIDIA NeMo 數據策展人介紹
http://www.open-lab.net/zh-cn/blog/curating-trillion-token-datasets-introducing-nemo-data-curator/
Tue, 08 Aug 2023 04:53:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=7543
Continued]]>
這個大型語言模型 (LLM) 縮放規律的最新發展已經表明,當模型參數的數量進行縮放時,用于訓練的令牌的數量也應該以相同的速率進行縮放。這個Chinchilla和LLaMA模型已經驗證了這些經驗推導的定律,并表明先前最先進的模型在預訓練期間使用的令牌總數方面訓練不足。 考慮到最近的發展, LLM 顯然比以往任何時候都更需要更大的數據集。 然而,盡管有這種需求,大多數為創建用于訓練 LLM 的大規模數據集而開發的軟件和工具都沒有公開發布或可擴展。這需要 LLM 開發人員構建自己的工具來策劃大型語言數據集。 為了滿足對大型數據集日益增長的需求,我們開發并發布了 NeMo 數據策展器:一種可擴展的數據策展工具,使您能夠策展萬億個代幣多語言數據集,用于 LLM 的預訓練。 Data Curator 是一組 Python 模塊,它使用 Message-Passing Interface…
Source
]]>
7543
-
用 Megatron-CNTRL 為語言模型添加外部知識和可控性
http://www.open-lab.net/zh-cn/blog/adding-external-knowledge-and-controllability-to-language-models-with-megatron-cntrl/
Tue, 06 Oct 2020 08:38:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=135
Continued]]>
大型語言模型,如 Megatron 和 GPT-3 正在改變人工智能。我們對能夠利用這些模型來創建更好的對話式人工智能的應用程序感到興奮。生成語言模型在會話式人工智能應用中存在的一個主要問題是缺乏可控制性和與真實世界事實的一致性。在這項工作中,我們試圖通過使我們的大型語言模型既可控又與外部知識庫保持一致來解決這個問題。縮放語言模型提供了更高的流暢性、可控性和一致性。 為了緩解一致性和可控性問題,已經做了幾次嘗試。 Guan et al.( 2020 年) 通過微調引入常識知識來解決一致性問題。然而,這種天真的方法缺乏可解釋性和靈活性,無法決定何時以及從外部知識庫中合并什么。 控制文本生成 的許多功能都是可取的。最近,人們開發了不同的方法來控制生成,例如 使用預先添加到模型輸入的控制代碼 和 以目標演員之前的談話為條件 。然而,這些控制條件是預先定義好的,并且其能力有限。
Source
]]>
135
人人超碰97caoporen国产