ETL – NVIDIA 技術博客

使用 Scrapy 抓取房地產站點數據采集

Mon, 05 Dec 2022 06:12:00 +0000

數據是企業能夠擁有的最有價值的資產之一。它是數據科學和數據分析的核心：沒有數據，它們都是過時的。積極收集數據的企業可能比不收集數據的公司具有競爭優勢。有了足夠的數據，組織可以更好地確定問題的原因并做出明智的決定。在某些情況下，組織可能缺乏足夠的數據來得出必要的見解。例如，初創企業幾乎總是在沒有數據的情況下開始。與其抱怨他們的不足，更好的解決方案是使用數據采集技術來幫助構建定制數據庫。這篇文章介紹了一種流行的數據采集技術，稱為網絡抓取。您可以使用 kurtispykes/web-scraping-real-estate-data GitHub 存儲庫中的代碼進行后續操作。 Data acquisition （也稱為 DAQ ）可能與技術人員記錄烤箱溫度一樣簡單。您可以將 DAQ 定義為對測量真實世界物理現象的信號進行采樣，并將生成的樣本轉換為計算機可以解釋的數字數值的過程。

Source

]]>

使用 RAPIDS 加速 KubeFlow 上的 ETL

Tue, 30 Aug 2022 05:45:00 +0000

在機器學習和 MLOps world ， GPU 被廣泛用于加速模型訓練和推理，但工作流的其他階段（如 ETL 管道或超參數優化）如何？在 RAPIDS 數據科學框架， ETL 工具的設計使使用 Python 的數據科學家具有熟悉的外觀。您當前使用的是 Pandas , NumPy , Scikit Learn ，或 PyData Stack 在您的 KubeFlow 工作流中？如果是這樣，您可以使用 RAPIDS 通過利用集群中可能已經存在的 GPU 來加速工作流的這些部分。在本文中，我將演示如何將 RAPIDS 放入 KubeFlow 環境。首先在交互式筆記本環境中使用 RAPIDS ，然后擴展到單個容器之外，使用 Dask 跨多個節點使用多個 GPU 。本文假設您已經對 Kubernetes 和 KubeFlow 有所了解。

Source

]]>

將數據湖和數據倉庫評估為機器學習數據倉庫

Fri, 29 Jul 2022 06:40:00 +0000

無論你是零售商、金融服務公司還是數字廣告商，數據都是現代企業的生命線。跨行業，組織正在認識到其數據對于業務分析、機器學習和人工智能的重要性。智能企業正在投資于從數據中提取價值的新方法：更好地了解客戶需求和行為，定制新產品和服務，并做出在未來幾年將帶來競爭優勢的戰略決策。幾十年來，企業數據倉庫已用于所有類型的業務分析，圍繞 SQL 和關系數據庫的強大生態系統。現在，一個挑戰者出現了。創建數據湖是為了存儲用于訓練人工智能模型和預測分析的大數據。這篇文章涵蓋了每個存儲庫的優缺點：如何使用它們，以及最終為 ML 項目提供最佳結果的方法。這個難題的關鍵是處理 AI 和 ML 工作流的數據。人工智能項目需要大量數據來訓練模型和運行預測分析。技術團隊必須評估如何捕獲、處理和存儲數據，以使其具有可擴展性、經濟性和易用性。數據倉庫創建于 20 世紀 80 年代，

Source

]]>