• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    數據科學

    NVIDIA CUDA-X 現可加速 Polars 數據處理庫

    Polar 是發展最快的數據分析工具之一,每月的下載量剛剛突破 900 萬次。作為現代 DataFrame 庫,它旨在高效處理適合在單臺機器上運行的數據集,而不會產生大規模工作負載所需的分布式計算系統的開銷和復雜性。

    隨著企業不斷處理復雜的數據問題——從檢測信用卡交易中的時間限制模式到管理全球客戶群快速變化的庫存需求——更高的性能至關重要。

    Polars 和 NVIDIA 工程師剛剛發布了由 RAPIDS cuDF 提供支持的 Polars GPU 引擎 的公開測試版,將加速計算引入到不斷發展的 Polars 社區,無需更改代碼。這進一步加速了 Polars 的查詢執行,與在 CPU 上運行相比,這款快速數據處理軟件的速度提高了 13 倍。這就像為獵豹提供火箭燃料,幫助它更快地沖刺。

    Polars 的作者兼首席執行官 Ritchie Vink 表示:“與 NVIDIA 的合作為每個人提供了一個獨特的機會,使他們能夠利用 NVIDIA RAPIDS 和 GPU 的強大功能,從而進一步提高 Polars 的性能。”

    RAPIDS 是 NVIDIA CUDA-X 的一部分,是一個開源的 GPU 加速庫套件,旨在改進數據科學和分析流程。RAPIDS cuDF 是一個 GPU DataFrame 庫,用于加載、連接、聚合、過濾和操作數據。

    NVIDIA 軟件可加速各個規模的數據處理

    隨著數據科學和工程團隊構建越來越多的數據處理管道來推動 AI 應用的發展,選擇合適的軟件和基礎設施以保持工作平穩運行至關重要。

    對于非常適合單個服務器、工作站和筆記本電腦的工作負載,開發者經常使用 Polars 等庫來加速迭代、降低開發環境的復雜性并降低基礎設施成本。

    在這些單機大小的工作負載上,快速迭代時間往往是首要考慮的問題,因為數據科學家通常必須進行探索性分析,以指導下游模型訓練或決策。僅 CPU 計算的性能瓶頸會降低生產力,并可能限制可以完成的測試/訓練周期的數量。

    對于單臺機器來說規模過大的大規模數據處理工作負載,組織轉而采用 Apache Spark 等框架來幫助他們在數據中心的節點之間分配工作。在這種規模下,成本和能效通常是首要優先事項,但是由于使用基于 CPU 的傳統計算基礎設施的效率低下,成本可能會迅速激增。

    NVIDIA CUDA-X 數據處理平臺 專為滿足這些需求而設計,并針對大規模工作負載的 成本和能效 以及 單機工作負載的性能 進行了優化。

    對于生產力和性能至關重要的中型工作負載,可以在 Polar 上同時實現性能提升,并且根據行業標準基準,使用 NVIDIA GPU 啟用的系統(而非 CPU)將 pandas 庫的性能提升 50 倍。

    借助 RAPIDS Accelerator for Apache Spark,成本和能效至關重要的工作流程可以節省高達 80% 的成本,并 節省高達 12 倍的能源

    立即開始使用?

    當今世界創造的數據比以往更多,加速計算使其能夠高效地被利用。無論您是在工作站上運行,還是在數據中心進行橫向擴展,NVIDIA 加速數據處理軟件都可以提高生產力并降低成本。

    如需詳細了解如何在不更改代碼的情況下加速數據分析工作流程,請參閱 NVIDIA RAPIDS 頁面

    ?

    0

    標簽

    人人超碰97caoporen国产