Posts by Gregory Kimball
數據科學
2025年 2月 20日
使用 NVIDIA cuDF,pandas 讀取 JSON 行文件速度提升100倍
JSON 是一種廣泛采用的格式,用于在系統之間 (通常用于 Web 應用和大語言模型 (LLMs)) 以互操作方式運行的基于文本的信息。
3 MIN READ
數據科學
2024年 9月 11日
使用 RAPIDS cuDF pandas 加速器模式處理 10 億行數據
十億行挑戰賽 (One Billion Row Challenge) 是一個有趣的基準測試,旨在展示基本的數據處理操作。
3 MIN READ
數據科學
2024年 7月 17日
使用 RAPIDS 的 Parquet 字符串數據的編碼和壓縮指南
Parquet Writer 提供了默認關閉的編碼和壓縮選項。啟用這些選項可以為數據提供更好的無損壓縮,
3 MIN READ
數據科學
2023年 12月 15日
在 RAPIDS libcudf 中使用嵌入式數據類型簡化 ETL 工作流程
嵌入式數據類型是一種表示列式數據中分層關系的便捷方式。它們經常用于 提取、轉換、加載(ETL)在商業智能領域的工作負載、推薦系統、網絡安全、
2 MIN READ
數據科學
2023年 2月 9日
GPU 加速的 RAPID JSON 數據處理
JSON 是一種廣泛采用的基于文本的信息格式,可在系統之間互操作,最常見于 web 應用程序。雖然 JSON 格式是人類可讀的,
3 MIN READ