Nicole Luo – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 22 Nov 2024 08:21:50 +0000 zh-CN hourly 1 196178272 掌握 LLM 技術:數據預處理 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-data-preprocessing/ Fri, 15 Nov 2024 07:34:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=12050 Continued]]> 大語言模型(LLMs) 的出現標志著各行業利用人工智能(AI)增強運營和服務的方式發生了重大轉變。通過自動化日常任務和簡化流程,LLMs 可以釋放人力資源,用于更具戰略性的工作,從而提高整體效率和生產力。 主要由于 LLM 對高質量數據的依賴性, 訓練和定制 LLM 以實現高準確度充滿挑戰。數據質量差和數據量不足會顯著降低模型準確性,因此數據集準備成為 AI 開發者的關鍵任務。 數據集通常包含重復文檔、個人身份信息(PII)和格式問題。一些數據集甚至包含對用戶構成風險的有毒或有害信息。在未進行適當處理的情況下基于這些數據集訓練模型會增加訓練時間并降低模型質量。另一個重大挑戰是數據稀缺。模型構建者公開可用的數據不足以用于訓練,這促使許多模型構建者轉而求助于第三方供應商,或使用高級語言模型生成合成數據。 在本文中,

Source

]]>
12050
利用 NVIDIA NeMo Curator 整理非英語數據集以訓練 LLM http://www.open-lab.net/zh-cn/blog/curating-non-english-datasets-for-llm-training-with-nvidia-nemo-curator/ Wed, 10 Jul 2024 06:36:23 +0000 http://www.open-lab.net/zh-cn/blog/?p=10588 Continued]]> 數據管護在開發有效且公平的大型語言模型(LLMs)方面發揮著至關重要的作用。高質量、多樣化的訓練數據直接影響 LLMs 的性能,從而解決偏差、不一致和冗余等問題。通過管護高質量的數據集,我們可以確保 LLMs 準確、可靠且可泛化。 在訓練本地化的多語種 LLM 時(尤其是針對低資源語言),像OSCAR這樣的網絡抓取數據至關重要。但是,網絡抓取數據通常包含噪聲、無關內容、重復數據和格式問題。有效的數據管護對于解決這些問題并確保高質量的 LLM 性能至關重要。 NVIDIA 最近發布了 NVIDIA NeMo Curator 的開源版本,這是一個數據 curation 庫,專為可擴展且高效的數據集準備而設計,通過使用 Dask 和 RAPIDS 的 GPU 加速數據 curation 來提高 LLM 訓練的準確性。NeMo Curator 提供可定制的模塊化界面,可簡化流程擴展,

Source

]]>
10588
使用 NVIDIA NIM 實現多語種大語言模型部署 http://www.open-lab.net/zh-cn/blog/deploy-multilingual-llms-with-nvidia-nim/ Mon, 08 Jul 2024 07:40:39 +0000 http://www.open-lab.net/zh-cn/blog/?p=10600 Continued]]> 對于在當今全球化商業環境中運營的企業而言,多語種大型語言模型(LLM)的重要性與日俱增。隨著企業跨越國界和文化擴展業務,使用多種語言進行有效溝通的能力對于取得成功至關重要。通過支持和投資多語種 LLM,企業可以打破語言障礙,培養包容性,并在全球市場中獲得競爭優勢。 基礎模型 在處理多語種語言時通常會面臨挑戰。大多數模型主要使用英語文本語料庫進行訓練,這導致了對西方語言模式和文化規范的內在偏見。 這導致 LLM 難以準確捕捉非西方語言和社會特有的細微差別、習語和文化語境。此外,許多低資源語言缺乏高質量數字化文本數據,這進一步加劇了資源緊缺問題,使 LLM 難以跨這些語言進行有效學習和泛化。因此,LLM 通常無法反映非西方語言固有的文化上適當的表達、情感含義和上下文微妙之處,從而導致潛在的錯誤解釋或有偏見的輸出。 根據Meta Llama 3最近的一篇博客文章:

Source

]]>
10600
使用 NVIDIA NeMo 訓練本地化多語種 LLM,第 1 部分 http://www.open-lab.net/zh-cn/blog/training-localized-multilingual-llms-with-nvidia-nemo-part-1/ Fri, 17 May 2024 05:22:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=10125 Continued]]> 在當今的全球化世界中,AI 系統理解和溝通不同語言的能力變得越來越重要。大型語言模型 (LLMs) 徹底改變了自然語言處理領域,使 AI 能夠生成類似人類的文本、回答問題和執行各種語言任務。然而,大多數主流 LLM 都在主要由英語組成的數據語料庫上進行訓練,從而限制了它們對其他語言和文化語境的適用性。 這就是 多語種 LLM 的價值所在:縮小語言差距,并釋放 AI 的潛力,使其惠及更廣泛的受眾。 特別是,由于訓練數據有限以及東南亞 (SEA) 語言的獨特語言特性,當前最先進的 LLM 經常難以與這些語言進行交流。這導致與英語等高資源語言相比,性能較低。雖然一些 LLM 在一定程度上可以處理某些 SEA 語言,但仍然存在不一致、幻覺和安全問題。 與此同時,人們對在東南亞開發本地化的多語種 LLM 有著濃厚的興趣和決心。一個值得注意的例子是,新加坡啟動了一項 7000 萬新元的計劃,

Source

]]>
10125
使用 NVIDIA NeMo 訓練本地化多語種 LLM,第 2 部分 http://www.open-lab.net/zh-cn/blog/training-localized-multilingual-llms-with-nvidia-nemo-part-2/ Fri, 17 May 2024 05:14:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=10119 Continued]]> 在 第一部分 中,我們討論了如何訓練單語分詞器,并將其與預訓練 LLM 的分詞器合并,以形成多語言分詞器。在本文中,我們將向您展示如何將自定義分詞器集成到預訓練 LLM,以及如何在 NVIDIA NeMo 中實現這一目標。 開始之前,請先導入以下庫: 合并后,組合分詞器的詞匯量大于 GPT-megatron-1.3 B 模型預訓練分詞器的詞匯量。這意味著您必須擴展 GPT – megatron – 1.3 B 模型的嵌入層,以適應組合分詞器 (圖 2)。 關鍵步驟包括以下內容: 然后,此擴展嵌入層會替換預訓練模型中的原始層,使其能夠以新語言處理其他標記,同時保留在初始預訓練過程中學習的知識。 運行以下代碼以加載 GPT-megatron-1.3 B.nemo 模型: 加載模型后,

Source

]]>
10119
人人超碰97caoporen国产