ETL Processing – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 07 Sep 2023 07:54:43 +0000
zh-CN
hourly
1
196178272 -
GPU 用于 ETL?為 Apache Spark SQL 操作進行 ETL 體系結構優化
http://www.open-lab.net/zh-cn/blog/gpus-for-etl-optimizing-etl-architecture-for-apache-spark-sql-operations/
Wed, 06 Sep 2023 05:16:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=7766
Continued]]>
使用 GPU 進行提取、轉換和加載(ETL)操作的 NVIDIA RAPIDS Accelerator for Apache Spark 可以在大規模數據上運行,從而節省成本并提高性能。我們在上一篇文章 “GPUs for ETL? Run Faster, Less Costly Workloads with NVIDIA RAPIDS Accelerator for Apache Spark and Databricks” 中展示了這一點。在這篇文章中,我們深入了解了哪一個 Apache Spark SQL 操作對于給定的處理體系結構是加速的。 這篇文章是關于 GPU 和提取轉換加載(ETL)操作的系列文章的一部分. 是否應將所有 ETL 遷移到 GPU ?或者,評估哪種處理體系結構最適合特定的 Spark SQL 操作有好處嗎? CPU 針對順序處理進行了優化,
Source
]]>
7766
-
GPU 用于 ETL ?使用 NVIDIA RAPIDS 加速器為 Apache Spark 和 Databricks 運行更快、成本更低的工作負載
http://www.open-lab.net/zh-cn/blog/gpus-for-etl-run-faster-less-costly-workloads-with-nvidia-rapids-accelerator-for-apache-spark-and-databricks/
Mon, 17 Jul 2023 06:02:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=7447
Continued]]>
我們被卡住了。真的卡住了。隨著艱難的交付截止日期的臨近,我們的團隊需要弄清楚如何在幾個小時內處理數萬億銷售點交易記錄的復雜提取轉換負載( ETL )工作。這項工作的結果將為一系列下游機器學習( ML )模型提供信息,這些模型將為全球零售商做出關鍵的零售分類分配決策。這些模型需要在真實的事務數據上進行測試和驗證。 然而,到目前為止,還沒有一個 ETL 作業完成。每次測試運行都需要幾天的處理時間,所有測試都必須在完成前終止。 使用 NVIDIA RAPIDS Accelerator for Apache CPU ,與在 Spark 上使用 Spark 的傳統方法相比,我們觀察到運行時間顯著加快,并節省了額外的成本。讓我們后退一點。 凱捷的人工智能與分析實踐是一個數據科學團隊,提供定制的、平臺無關的和語言無關的解決方案,這些解決方案涵蓋了數據科學的全部范疇,
Source
]]>
7447
-
用 MONAI 和 RAPIDS 實時進行全幻燈片圖像分析
http://www.open-lab.net/zh-cn/blog/whole-slide-image-analysis-in-real-time-with-monai-and-rapids/
Thu, 13 Jul 2023 06:10:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=7453
Continued]]>
數字病理切片掃描儀生成大量圖像。載玻片通常以 40 倍的放大率進行掃描,得到千兆像素的圖像。壓縮可以將每個幻燈片的文件大小減少到 1 或 2 GB ,但這種數據量在移動、保存、加載和查看方面仍然具有挑戰性。要以全分辨率查看典型的完整幻燈片圖像,需要一個網球場大小的監視器。 與組織病理學一樣,基因組學和顯微鏡可以產生數兆字節的數據。有些用例涉及多種模式,將這些數據轉換為更易于管理的大小通常需要進行漸進式轉換,直到只保留最顯著的特征。本文探討了實現這種數據細化的一些方法,使用的分析類型,以及諸如MONAI和RAPIDS可以釋放有意義的見解。以一個典型的數字組織病理學圖像為例,因為這些圖像現在在全球的常規臨床環境中使用。 MONAI 是一套開源、免費的協作框架,旨在加速醫學成像領域的研究和臨床協作。 RAPIDS 是一套開源軟件庫,用于在 GPU 上構建端到端的數據科學和分析管道。
Source
]]>
7453
-
用于 NVIDIA 基本命令平臺中創作工作流的 Apache Airflow
http://www.open-lab.net/zh-cn/blog/apache-airflow-for-authoring-workflows-in-nvidia-base-command-platform/
Wed, 12 Jul 2023 03:12:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=7354
Continued]]>
所以,您現在有大量的數據管道,并且正在考慮使用NVIDIA Base Command Platform進行集成。那么,您應該采取哪些步驟?使用工作流管理將NVIDIA Base Command進入您現有的管道。 工作流管理器使您能夠輕松管理管道,并連接到 Base Command 以利用 NVIDIA 計算能力。此示例使用 Apache Airflow,擁有豐富的開源社區,構建良好,并被廣泛采用。 工作流管理使您能夠連接和管理管道中的所有任務。它通過創建、記錄和監控完成必要任務所需的所有步驟來實現這一點。它通過確保正確高效地完成所有工作來簡化您的工作流程。 一個企業通常有一個 BizOps 團隊、 MLOps 團隊和 DevOps 團隊,負責完成各種任務以達到給定的目標。對于一個簡單的工作流程,許多人完成各種任務,有些人相互關聯或依賴,而另一些人則完全獨立。
Source
]]>
7354
人人超碰97caoporen国产