策展萬億代幣數據集： NVIDIA NeMo 數據策展人介紹

Tue, 08 Aug 2023 04:53:20 +0000

這個大型語言模型 (LLM) 縮放規律的最新發展已經表明，當模型參數的數量進行縮放時，用于訓練的令牌的數量也應該以相同的速率進行縮放。這個Chinchilla和LLaMA模型已經驗證了這些經驗推導的定律，并表明先前最先進的模型在預訓練期間使用的令牌總數方面訓練不足。考慮到最近的發展， LLM 顯然比以往任何時候都更需要更大的數據集。然而，盡管有這種需求，大多數為創建用于訓練 LLM 的大規模數據集而開發的軟件和工具都沒有公開發布或可擴展。這需要 LLM 開發人員構建自己的工具來策劃大型語言數據集。為了滿足對大型數據集日益增長的需求，我們開發并發布了 NeMo 數據策展器：一種可擴展的數據策展工具，使您能夠策展萬億個代幣多語言數據集，用于 LLM 的預訓練。 Data Curator 是一組 Python 模塊，它使用 Message-Passing Interface…

Source

]]>

Joseph Jennings – NVIDIA 技術博客

策展萬億代幣數據集： NVIDIA NeMo 數據策展人介紹