DataFrame – NVIDIA 技術博客

加速數據分析：使用 RAPID cuDF 進行更快的時間序列分析

Tue, 14 Mar 2023 04:23:46 +0000

這篇文章是加速數據分析系列文章的一部分: 由于標準探索性數據分析（ EDA ）工作流程通常局限于單個核心，因此它得益于 RAPIDS cuDF 的加速計算，這是一個具有 pandas 類接口的加速數據分析庫。眾所周知，時間序列數據需要額外的數據處理，這會增加工作流程的時間和復雜性，使其成為利用 RAPIDS 的另一個很好的用例。使用 RAPIDS cuDF ，您可以加快對不太大也不太小的“金發姑娘”數據集的時間序列處理。這些數據集在 pandas 上很繁重，但不需要像 Apache Spark 或 Dask 這樣的完全分布式計算工具。本節介紹了依賴時間序列數據的機器學習（ ML ）用例，以及何時考慮加速數據處理。時間序列數據無處不在。時間戳在許多類型的數據源中都是一個變量，從天氣測量和資產定價到產品購買信息等等。時間戳具有所有級別的粒度，

Source

]]>

加速數據分析：使用 RAPID cuDF 加速數據探索

Tue, 14 Mar 2023 03:57:01 +0000

這篇文章是加速數據分析系列文章的一部分: 氣候建模、醫療保健、金融和零售業的數字進步正在產生前所未有的數據量和類型。 IDC 表示，到 2025 年，將有 180 ZB 的數據，而 2020 年為 64 ZB ，這將擴大對數據分析的需求，將所有數據轉化為見解。 NVIDIA 提供 RAPIDS 開源軟件庫和 API 套件，使數據科學家能夠完全在 GPU 上執行端到端的數據科學和分析管道。這包括使用我們的 DataFrame API : RAPIDS cuDF 進行分析和數據科學的常見數據準備任務。在典型的數據分析工作流程中，速度高達 40 倍，加速的數據分析為您節省了時間，并增加了可能受到當前分析工具限制的迭代機會。為了解釋加速數據分析的價值，我們在本文中使用 RAPIDS cuDF 進行了一個簡單的探索性數據分析（ EDA ）教程。

Source

]]>

使用 GPUDirect 存儲和 RAPIDS cuDF 提高數據攝取吞吐量

Fri, 27 May 2022 07:26:00 +0000

如果您從事數據分析工作，您就會知道數據攝取通常是數據預處理工作流的瓶頸。由于數據量大且常用格式復雜，從存儲中獲取數據并對其進行解碼通常是工作流中最耗時的步驟之一。對從事大型數據集研究的數據科學家來說，優化數據攝取可以大大減少這一瓶頸。 RAPIDS cuDF 通過為數據科學中流行的格式實現 CUDA 加速讀取器，大大加快了數據解碼速度。此外， Magnum IO GPUDirect Storage （ GDS ）使 cuDF 能夠通過將數據直接從存儲器加載到設備（ GPU ）內存來加速輸入/輸出。通過在 GPU 和兼容存儲設備（例如，非易失性存儲器 Express （ NVMe ）驅動器）之間通過 PCIe 總線提供直接數據路徑， GDS 可以實現高達 3 – 4 倍的 cuDF 讀取吞吐量，在各種數據配置文件中的平均吞吐量提高 30 – 50% 。在本文中，

Source

]]>

使用 NVIDIA cuDF API 中最新的 UDF 增強功能更快地原型制作

Fri, 27 May 2022 07:07:00 +0000

在過去的幾個版本中， NVIDIA cuDF 團隊為用戶定義函數（ UDF ）添加了幾個新特性，這些特性可以簡化開發過程，同時提高總體性能。在本文中，我將介紹新的 UDF 增強功能，并展示如何在自己的應用程序中利用它們：如果您不熟悉 pandas ， series apply 是用于將任意 Python 函數映射到單個數據系列的主要入口點。例如，您可能希望使用已編寫為 Python 函數的公式將攝氏溫度轉換為華氏溫度。下面是運行此代碼的輸出后的快速刷新：從技術上講，您可以在函數中編寫任何有效的 Python 代碼， pandas 在序列上循環運行函數。這使得在 pandas 環境中非常靈活，因為任何 UDF 都可以成功應用，只要它能夠成功處理所有輸入數據，

Source

]]>

將時間信息編碼為 ML 模型特征的三種方法

Thu, 17 Feb 2022 04:07:00 +0000

假設你剛剛開始一個新的數據科學項目。目標是建立一個預測目標變量 Y 的模型。您已經從利益相關者/數據工程師那里收到了一些數據，進行了徹底的 EDA ，并選擇了一些您認為與當前問題相關的變量。然后你終于建立了你的第一個模型。分數可以接受，但你相信你可以做得更好。你是做什么的？有很多方法可以讓你跟進。一種可能是增加所用 machine-learning 模型的復雜性。或者，您可以嘗試提出一些更有意義的功能，并繼續使用當前的模型（至少目前是這樣）。對于許多項目，企業數據科學家和 Kaggle 等數據科學競賽的參與者都同意，后者——從數據中識別出更有意義的特征——往往能夠以最少的努力最大程度地提高模型的準確性。你有效地將復雜性從模型轉移到了功能上。這些功能不一定非常復雜。但是，理想情況下，我們會發現與目標變量有著強烈而簡單的關系的特征。

Source

]]>