Karthikeya Rajendran – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 20 Apr 2023 03:52:48 +0000 zh-CN hourly 1 196178272 新的 GPU 庫降低了 Apache Spark ML 的計算成本 http://www.open-lab.net/zh-cn/blog/new-gpu-library-lowers-compute-costs-for-apache-spark-ml/ Tue, 18 Apr 2023 03:24:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=6726 Continued]]> Spark MLlib是Apache Spark用于大規模machine learning并且提供了許多流行的機器學習算法的內置實現。這些實現創建于十年前,但沒有利用現代計算加速器,如 NVIDIA GPU 。 為了解決這一差距,我們最近開源了 Spark RAPIDS ML(NVIDIA/spark-rapids-ml) ,一個 Python 包,為 Py Spark ML 應用程序提供 GPU 加速。通過這樣做,我們實現了以下關鍵目標: 您可以從NVIDIA/spark-rapids-mlApache v2 許可證下的 GitHub 存儲庫。初始版本為以下 Spark ML 算法提供了 GPU 加速度: 該版本還包括以下內容的 Spark ML API 兼容版本: 我們之所以最初選擇算法,是因為我們的第三個目標:盡可能使用現有的 NVIDIA 加速 ML 庫。

Source

]]>
6726
在 Google Cloud Dataproc 上節省 Apache Spark 大數據處理成本 http://www.open-lab.net/zh-cn/blog/saving-apache-spark-big-data-processing-costs-on-google-cloud-dataproc/ Wed, 14 Dec 2022 06:18:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5933 Continued]]> 根據 IDC 的數據,每年生成的數據量呈指數級增長。 IDC 的全球 DataSphere 預測 到 2026 年,世界將產生 221 ZB 的數據 。這些數據包含了驚人的信息。但隨著數據量的增長,處理成本也會隨之增加。作為一名數據科學家或工程師,你肯定會感受到數據處理工作運行緩慢的痛苦。 Apache Spark 在 2010 年代以數千 TB 的規模解決了這個數據處理問題。然而,在 20 世紀 20 年代,需要處理的數據量已經超過了當前基于 CPU 的基礎設施計算能力。 對于擁有數十萬 TB 的組織來說,這種基于 CPU 的基礎架構限制了它們,并增加了巨大的擴展成本。計算限制限制了他們利用數據擴展見解、獲取可用于訓練 AI / ML 管道的數據以及實驗新模型類型的能力。 舊規則成立: 80% 的時間用于數據準備,而不是模型開發,這阻礙了數據科學的發展。 為了解決這些挑戰,

Source

]]>
5933
RAPIDS Apache 加速器 Spark 版本 v21.10 http://www.open-lab.net/zh-cn/blog/rapids-accelerator-for-apache-spark-release-v21-10/ Thu, 06 Jan 2022 04:11:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2742 Continued]]> RAPIDS Apache 的加速器 Spark v21 。現在有 10 個!作為一個開源項目,我們重視我們的社區、他們的聲音和請求。此版本構成了社區對最適合 GPU 加速的操作的請求。 此版本的重要標注: 用于 Apache 的 RAPIDS 加速器 Spark 在功能和性能方面都以驚人的速度增長。標準行業基準是衡量一段時間內績效的好方法,但衡量績效的另一個晴雨表是衡量數據預處理階段或數據分析中使用的普通操作員的績效。 我們使用了如下表所示的四個此類查詢: 這些查詢在谷歌云平臺( GCP )機器上運行,每臺機器有 2xT4 GPU 和 104GB 內存。使用的數據集大小為 3TB ,具有多種不同的數據類型。有關設置和查詢的更多信息可以在 GitHub 上的 spark-rapids-examples 存儲庫中找到。這四個查詢不僅顯示了性能和成本優勢,

Source

]]>
2742
人人超碰97caoporen国产