• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    數據科學

    使用 RAPIDS 在 Azure Synapse Analytics 上構建 NVIDIA GPU – 加速管道

    Azure 最近宣布支持 NVIDIA 的 T4 張量核心圖形處理單元( GPUs ) ,這是為以經濟高效的方式部署機器學習推斷或分析工作負載而優化的。使用 Apache Spark ? Azure Synapse Analytics 針對 NVIDIA GPU 的部署進行了優化,加上預安裝的庫,提供了一種利用 GPU 為各種數據處理和機器學習任務提供動力的簡單方法。 GPU-accelerated Spark 的 Azure Synapse 版本內置了對 RAPIDS 加速的支持,與在 CPU 上運行相比,它在標準分析基準上的性能提升至少是在 CPU 上運行的 2 倍,所有這些都沒有任何代碼更改。

    目前, Azure Synapse 中的 GPU 加速功能可用于 按請求進行私人預覽

    NVIDIA GPU 加速的好處

    NVIDIA GPU 提供了極高的計算性能,將并行處理引入多核服務器,以加速苛刻的工作負載。 CPU 由幾個為順序串行處理而優化的內核組成,而。另一方面, GPU 具有大規模并行體系結構,由數千個更小、更高效的內核組成,設計用于同時處理多個任務。考慮到 數據科學家將 80% 的時間花在數據預處理上 , GPU s 是加速數據處理管道的關鍵工具,而不僅僅依賴于包含 CPU 的管道。

    構建這些管道的最有效和最熟悉的方法之一是使用 Apache Spark ?. Apache Spark 中 NVIDIA GPU 加速的好處? 包括:

    • 更快地完成數據處理、查詢和模型訓練,從而加快迭代速度,縮短洞察時間。
    • 相同的 GPU 加速基礎架構有助于消除 Spark 和 ML / DL 框架對復雜決策和調優的需求。
    • 需要更少的計算節點;降低基礎架構成本,并有助于避免與規模相關的問題。

    NVIDIA 和 Azure Synapse 協作

    NVIDIA 和 Azure Synapse 合作為數據科學家和數據工程師帶來 GPU 加速。這種集成將使客戶能夠自由地使用 NVIDIA GPU for Apache Spark ? 無代碼更改且體驗與 CPU 群集相同的應用程序。此外,這一合作將繼續增加對最新 NVIDIA GPU 和網絡產品的支持,并為希望通過數據工程、數據準備和機器學習的單一管道提高生產率和節約成本的大數據客戶提供持續增強。

    要了解有關此項目的更多信息,請訪問 NVIDIA GTC 2021 年會議 查看我們的演示文稿。

    Apache Spark ? Azure Synapse 中的 3 . 0 GPU 加速

    而 Apache Spark ? 提供開箱即用的 GPU 支持,配置和管理所有必需的硬件以及安裝所有低級庫需要付出大量的努力。當您嘗試啟用 GPU 的 Apache Spark? 時 在 Azure Synapse 中,您會立即注意到一個非常簡單的用戶體驗:

    幕后繁重的工作 :為了有效使用 GPU ,庫用于與主機上的圖形卡進行通信。安裝和配置這些庫需要時間和精力。 Azure Synapse 負責預安裝這些庫,并通過與 GPU Apache Spark? 集成,在計算節點之間建立所有復雜的網絡池。在短短幾分鐘內,您就可以不再擔心設置問題,而是專注于解決業務問題。

    優化的 Spark 配置 :通過 NVIDIA 和 Azure Synapse 之間的合作,我們為支持 GPU 的 Apache Spark 提供了最佳配置? 游泳池。因此,您的工作負載以最佳方式運行,為您節省了時間和運營成本。

    包含數據準備和 ML 庫 :啟用 GPU 的 Apache Spark ? Azure Synapse 中的池內置了兩個流行的庫,支持更多功能:

    • RAPIDS 用于數據準備 : RAPIDS 是一套開源軟件庫和 API ,用于完全在 GPU 上執行端到端的數據科學和分析管道,以大幅提高速度,尤其是在大型數據集上。 RAPIDS Apache 加速器 Spark ? 構建在 NVIDIA CUDA 和 UCX 之上,支持 GPU 加速 SQL 、數據幀操作和 Spark 洗牌。由于沒有利用這些加速的代碼更改,您還可以加速依賴 Linux 基金會 三角洲湖 或微軟 Hyperspace 索引的數據管道(這兩種索引都是在 BACK 中可用的)。
    • Hummingbird 用于加速對傳統 ML 模型的評分和推理。 Hummingbird 是一個用于將傳統 ML 運算符轉換為張量的庫,其目標是加速傳統機器學習模型的推理(評分/預測)。
    圖 1 : Spark Azure Synapse 中的數據準備和 ML 。

    當運行 NVIDIA 決策支持( NDS )測試查詢時(源自行業已知基準測試),超過 1 TB 的拼花地板數據,我們的早期結果表明 GPUs 可以在不改變任何代碼的情況下,將總體查詢性能提高近 2 倍。

    圖 2 :總體性能結果。
    圖 3 :當前 Azure Synapse 產品。

    ?

    0

    標簽

    人人超碰97caoporen国产