Joel Lashmore – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 07 Sep 2023 07:54:43 +0000 zh-CN hourly 1 196178272 GPU 用于 ETL?為 Apache Spark SQL 操作進行 ETL 體系結構優化 http://www.open-lab.net/zh-cn/blog/gpus-for-etl-optimizing-etl-architecture-for-apache-spark-sql-operations/ Wed, 06 Sep 2023 05:16:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=7766 Continued]]> 使用 GPU 進行提取、轉換和加載(ETL)操作的 NVIDIA RAPIDS Accelerator for Apache Spark 可以在大規模數據上運行,從而節省成本并提高性能。我們在上一篇文章 “GPUs for ETL? Run Faster, Less Costly Workloads with NVIDIA RAPIDS Accelerator for Apache Spark and Databricks” 中展示了這一點。在這篇文章中,我們深入了解了哪一個 Apache Spark SQL 操作對于給定的處理體系結構是加速的。 這篇文章是關于 GPU 和提取轉換加載(ETL)操作的系列文章的一部分. 是否應將所有 ETL 遷移到 GPU ?或者,評估哪種處理體系結構最適合特定的 Spark SQL 操作有好處嗎? CPU 針對順序處理進行了優化,

Source

]]>
7766
GPU 用于 ETL ?使用 NVIDIA RAPIDS 加速器為 Apache Spark 和 Databricks 運行更快、成本更低的工作負載 http://www.open-lab.net/zh-cn/blog/gpus-for-etl-run-faster-less-costly-workloads-with-nvidia-rapids-accelerator-for-apache-spark-and-databricks/ Mon, 17 Jul 2023 06:02:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=7447 Continued]]> 我們被卡住了。真的卡住了。隨著艱難的交付截止日期的臨近,我們的團隊需要弄清楚如何在幾個小時內處理數萬億銷售點交易記錄的復雜提取轉換負載( ETL )工作。這項工作的結果將為一系列下游機器學習( ML )模型提供信息,這些模型將為全球零售商做出關鍵的零售分類分配決策。這些模型需要在真實的事務數據上進行測試和驗證。 然而,到目前為止,還沒有一個 ETL 作業完成。每次測試運行都需要幾天的處理時間,所有測試都必須在完成前終止。 使用 NVIDIA RAPIDS Accelerator for Apache CPU ,與在 Spark 上使用 Spark 的傳統方法相比,我們觀察到運行時間顯著加快,并節省了額外的成本。讓我們后退一點。 凱捷的人工智能與分析實踐是一個數據科學團隊,提供定制的、平臺無關的和語言無關的解決方案,這些解決方案涵蓋了數據科學的全部范疇,

Source

]]>
7447
人人超碰97caoporen国产