Karthikeyan Natarajan – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 21 Feb 2025 04:26:25 +0000
zh-CN
hourly
1
196178272 -
使用 NVIDIA cuDF,pandas 讀取 JSON 行文件速度提升100倍
http://www.open-lab.net/zh-cn/blog/json-lines-reading-with-pandas-100x-faster-using-nvidia-cudf/
Thu, 20 Feb 2025 04:21:11 +0000
http://www.open-lab.net/zh-cn/blog/?p=12962
Continued]]>
JSON 是一種廣泛采用的格式,用于在系統之間 (通常用于 Web 應用和大語言模型 (LLMs)) 以互操作方式運行的基于文本的信息。雖然 JSON 格式是人類可讀的,但使用數據科學和數據工程工具進行處理十分復雜。 JSON 數據通常采用換行分隔的 JSON 行 (也稱為 NDJSON) 的形式來表示數據集中的多個記錄。將 JSON 行數據讀入數據幀是數據處理中常見的第一步。 在本文中,我們比較了使用以下庫將 JSON 行數據轉換為數據幀的 Python API 的性能和功能: 我們使用 cudf.pandas 中的 JSON 讀取器展示了良好的擴展性能和高數據處理吞吐量,特別是對于具有復雜模式的數據。我們還審查了 cuDF 中的一組通用 JSON 讀取器選項,這些選項可提高與 Apache Spark 的兼容性,并使 Python 用戶能夠處理引文歸一化、無效記錄、
Source
]]>
12962
-
在 RAPIDS libcudf 中使用嵌入式數據類型簡化 ETL 工作流程
http://www.open-lab.net/zh-cn/blog/streamline-etl-workflows-with-nested-data-types-in-rapids-libcudf/
Fri, 15 Dec 2023 05:29:43 +0000
http://www.open-lab.net/zh-cn/blog/?p=8581
Continued]]>
嵌入式數據類型是一種表示列式數據中分層關系的便捷方式。它們經常用于 提取、轉換、加載(ETL)在商業智能領域的工作負載、推薦系統、網絡安全、地理空間和其他應用中。 例如,列表類型可用于輕松地將多個事務附加到用戶,而無需創建新的查找表。結構類型可用于在同一列中附加靈活的元數據和許多鍵值對。在 Web 和移動應用程序中,嵌套類型將原始 JSON 對象表示為數據列中的元素,從而使這些數據能頭輸入到 機器學習(ML)訓練管線。許多數據科學應用都依賴于嵌套類型來對復雜的數據輸入進行建模、管理和處理。 在 RAPIDS 中,libcudf 是一套用于列式數據處理的 CUDA C++ 庫,旨在加速數據科學庫的性能。RAPIDS libcudf 基于 Apache Arrow 內存格式,支持 GPU 加速的數據讀取器、寫入器、關系代數函數和列轉換操作。 除了數字和字符串等基本數據類型外,
Source
]]>
8581
-
GPU 加速的 RAPID JSON 數據處理
http://www.open-lab.net/zh-cn/blog/gpu-accelerated-json-data-processing-with-rapids/
Thu, 09 Feb 2023 03:03:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=6278
Continued]]>
JSON 是一種廣泛采用的基于文本的信息格式,可在系統之間互操作,最常見于 web 應用程序。雖然 JSON 格式是人類可讀的,但使用數據科學和數據工程工具處理它很復雜。 為了彌補這一差距, RAPIDS cuDF 提供了一個 GPU 加速的 JSON 讀取器( cudf.read_json ),該讀取器對于許多 JSON 數據結構都是高效和健壯的。 JSON format 指定了一種通用的樹狀數據結構, cuDF 實現了算法,可以輕松地將 JSON 樹轉換為柱狀數據。 cuDF 是一個 GPU DataFrame 庫,用于在 Python 中加載、連接、聚合、過濾和以其他方式操作數據。當 JSON 數據被構造為柱狀數據時,它可以訪問強大的 cuDF DataFrame API 。我們很高興能夠通過本讀者打開 GPU 加速到更多數據格式、項目和建模工作流的可能性。
Source
]]>
6278
人人超碰97caoporen国产