data preprocessing – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 20 Oct 2022 02:25:49 +0000
zh-CN
hourly
1
196178272 -
在 RAPIDS libcudf 中掌握字符串轉換
http://www.open-lab.net/zh-cn/blog/mastering-string-transformations-in-rapids-libcudf/
Mon, 17 Oct 2022 02:22:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5468
Continued]]>
字符串數據的高效處理對于許多數據科學應用至關重要。為了從字符串數據中提取有價值的信息, RAPIDS libcudf 提供了加速字符串數據轉換的強大工具。 lib cuDF 是一個 C ++ GPU DataFrame 庫,用于加載、連接、聚合和過濾數據。 在數據科學中,字符串數據表示語音、文本、遺傳序列、日志記錄和許多其他類型的信息。在為機器學習和特征工程處理字符串數據時,必須經常對數據進行規范化和轉換,然后才能將其應用于特定用例。 lib cuDF 提供了通用 API 和設備端實用程序,以支持廣泛的自定義字符串操作。 本文演示了如何使用 lib cuDF 通用 API 巧妙地轉換字符串列。您將獲得關于如何使用自定義內核和 lib cuDF 設備端實用程序解鎖峰值性能的新知識。本文還向您介紹了如何最好地管理 GPU 內存和有效地構造 lib cuDF 列以加快字符串轉換的示例。
Source
]]>
5468
-
使用 NVIDIA DALI 加速醫學圖像處理
http://www.open-lab.net/zh-cn/blog/accelerating-medical-image-processing-with-dali/
Tue, 18 Jan 2022 04:23:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2819
Continued]]>
深度學習模型需要大量數據才能產生準確的預測,隨著模型規模和復雜性的增加,這種需求日益迫切。即使是大型數據集,例如擁有 100 多萬張圖像的著名 ImageNet ,也不足以在現代計算機視覺任務中實現最先進的結果。 為此,需要使用數據增強技術,通過對數據引入隨機干擾(如幾何變形、顏色變換、噪聲添加等),人為地增加數據集的大小。這些干擾有助于生成預測更穩健的模型,避免過度擬合,并提供更好的精度。 在醫學成像任務中,數據擴充至關重要,因為數據集最多只包含數百或數千個樣本。另一方面,模型往往會產生需要大量 GPU 內存的大激活,特別是在處理 CT 和 MRI 掃描等體積數據時。這通常會導致在小數據集上進行小批量的培訓。為了避免過度擬合,需要更精細的數據預處理和擴充技術。 然而,預處理通常對系統的整體性能有重大影響。這在處理大輸入的應用程序中尤其如此,例如體積圖像。
Source
]]>
2819
-
利用 NVIDIA DALI 實現快速數據預處理
http://www.open-lab.net/zh-cn/blog/rapid-data-pre-processing-with-nvidia-dali/
Thu, 07 Oct 2021 06:36:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=1906
Continued]]>
這篇文章是對之前文章的更新. 深度學習模型需要使用大量數據進行培訓,以獲得準確的結果。由于各種原因,例如不同的存儲格式、壓縮、數據格式和大小,以及高質量數據的數量有限,原始數據通常無法直接輸入神經網絡。 解決這些問題需要大量的數據準備和預處理步驟,從加載、解碼、解壓縮到調整大小、格式轉換和各種數據擴充。 深度學習框架,如 TensorFlow 、 PyTorch 、 MXNet 等,為一些預處理步驟提供了本地實現。由于使用特定于框架的數據格式、轉換的可用性以及不同框架之間的實現差異,這通常會帶來可移植性問題。 直到最近,深度學習工作負載的數據預處理才引起人們的關注,因為訓練復雜模型所需的巨大計算資源使其黯然失色。因此,由于 OpenCV 、 Pillow 或 Librosa 等庫的簡單性、靈活性和可用性,預處理任務通常用于在 CPU 上運行。
Source
]]>
1906
人人超碰97caoporen国产