ETL – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 05 Jan 2023 06:28:26 +0000 zh-CN hourly 1 196178272 使用 Scrapy 抓取房地產站點數據采集 http://www.open-lab.net/zh-cn/blog/scraping-real-estate-sites-for-data-acquisition-with-scrapy/ Mon, 05 Dec 2022 06:12:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=6003 Continued]]> 數據是企業能夠擁有的最有價值的資產之一。它是數據科學和數據分析的核心:沒有數據,它們都是過時的。積極收集數據的企業可能比不收集數據的公司具有競爭優勢。有了足夠的數據,組織可以更好地確定問題的原因并做出明智的決定。 在某些情況下,組織可能缺乏足夠的數據來得出必要的見解。例如,初創企業幾乎總是在沒有數據的情況下開始。與其抱怨他們的不足,更好的解決方案是使用數據采集技術來幫助構建定制數據庫。 這篇文章介紹了一種流行的數據采集技術,稱為網絡抓取。您可以使用 kurtispykes/web-scraping-real-estate-data GitHub 存儲庫中的代碼進行后續操作。 Data acquisition (也稱為 DAQ )可能與技術人員記錄烤箱溫度一樣簡單。您可以將 DAQ 定義為對測量真實世界物理現象的信號進行采樣,并將生成的樣本轉換為計算機可以解釋的數字數值的過程。

Source

]]>
6003
使用 RAPIDS 加速 KubeFlow 上的 ETL http://www.open-lab.net/zh-cn/blog/accelerating-etl-on-kubeflow-with-rapids/ Tue, 30 Aug 2022 05:45:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5021 Continued]]> 在 機器學習 和 MLOps world , GPU 被廣泛用于加速模型訓練和推理,但工作流的其他階段(如 ETL 管道或超參數優化)如何? 在 RAPIDS 數據科學框架, ETL 工具的設計使使用 Python 的數據科學家具有熟悉的外觀。您當前使用的是 Pandas , NumPy , Scikit Learn ,或 PyData Stack 在您的 KubeFlow 工作流中?如果是這樣,您可以使用 RAPIDS 通過利用集群中可能已經存在的 GPU 來加速工作流的這些部分。 在本文中,我將演示如何將 RAPIDS 放入 KubeFlow 環境。首先在交互式筆記本環境中使用 RAPIDS ,然后擴展到單個容器之外,使用 Dask 跨多個節點使用多個 GPU 。 本文假設您已經對 Kubernetes 和 KubeFlow 有所了解。

Source

]]>
5021
將數據湖和數據倉庫評估為機器學習數據倉庫 http://www.open-lab.net/zh-cn/blog/evaluating-data-lakes-and-data-warehouses-as-machine-learning-data-repositories/ Fri, 29 Jul 2022 06:40:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4742 Continued]]> 無論你是零售商、金融服務公司還是數字廣告商,數據都是現代企業的生命線。跨行業,組織正在認識到其數據對于業務分析、機器學習和人工智能的重要性。 智能企業正在投資于從數據中提取價值的新方法:更好地了解客戶需求和行為,定制新產品和服務,并做出在未來幾年將帶來競爭優勢的戰略決策。 幾十年來,企業數據倉庫已用于所有類型的業務分析,圍繞 SQL 和關系數據庫的強大生態系統。現在,一個挑戰者出現了。 創建數據湖是為了存儲用于訓練人工智能模型和預測分析的大數據。這篇文章涵蓋了每個存儲庫的優缺點:如何使用它們,以及最終為 ML 項目提供最佳結果的方法。 這個難題的關鍵是處理 AI 和 ML 工作流的數據。人工智能項目需要大量數據來訓練模型和運行預測分析。技術團隊必須評估如何捕獲、處理和存儲數據,以使其具有可擴展性、經濟性和易用性。 數據倉庫創建于 20 世紀 80 年代,

Source

]]>
4742
人人超碰97caoporen国产