數據預處理 – NVIDIA 技術博客

掌握 LLM 技術：數據預處理

Fri, 15 Nov 2024 07:34:52 +0000

大語言模型（LLMs）的出現標志著各行業利用人工智能（AI）增強運營和服務的方式發生了重大轉變。通過自動化日常任務和簡化流程，LLMs 可以釋放人力資源，用于更具戰略性的工作，從而提高整體效率和生產力。主要由于 LLM 對高質量數據的依賴性，訓練和定制 LLM 以實現高準確度充滿挑戰。數據質量差和數據量不足會顯著降低模型準確性，因此數據集準備成為 AI 開發者的關鍵任務。數據集通常包含重復文檔、個人身份信息（PII）和格式問題。一些數據集甚至包含對用戶構成風險的有毒或有害信息。在未進行適當處理的情況下基于這些數據集訓練模型會增加訓練時間并降低模型質量。另一個重大挑戰是數據稀缺。模型構建者公開可用的數據不足以用于訓練，這促使許多模型構建者轉而求助于第三方供應商，或使用高級語言模型生成合成數據。在本文中，

Source

]]>

為什么自動增強很重要

Fri, 05 May 2023 03:17:54 +0000

深度學習模型需要數百 GB 的數據才能在看不見的樣本上很好地泛化。數據擴充有助于增加數據集中示例的可變性。傳統的數據擴充方法可以追溯到統計學習，當時擴充的選擇依賴于建立模型訓練的工程師的領域知識、技能和直覺。自動增強出現了減少對手動數據預處理的依賴。它結合了應用自動調整和根據概率分布隨機選擇增強的思想。事實證明，使用 AutoAugment 和 RandAugment 等自動數據增強方法可以通過使模型在訓練中看到的樣本多樣化來提高模型的準確性。自動擴充使數據預處理更加復雜，因為一批中的每個樣本都可以用不同的隨機擴充進行處理。在這篇文章中，我們介紹了如何使用 NVIDIA DALI 實現和使用 GPU 加速自動增強來訓練，然后使用條件執行。自動增強是基于標準的圖像變換，如旋轉、剪切、模糊或亮度調整。大多數操作都接受一個稱為幅值的控制參數。幅度越大，

Source

]]>