ETL – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 05 Jan 2023 06:28:26 +0000
zh-CN
hourly
1
196178272 -
使用 Scrapy 抓取房地產站點數據采集
http://www.open-lab.net/zh-cn/blog/scraping-real-estate-sites-for-data-acquisition-with-scrapy/
Mon, 05 Dec 2022 06:12:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=6003
Continued]]>
數據是企業能夠擁有的最有價值的資產之一。它是數據科學和數據分析的核心:沒有數據,它們都是過時的。積極收集數據的企業可能比不收集數據的公司具有競爭優勢。有了足夠的數據,組織可以更好地確定問題的原因并做出明智的決定。 在某些情況下,組織可能缺乏足夠的數據來得出必要的見解。例如,初創企業幾乎總是在沒有數據的情況下開始。與其抱怨他們的不足,更好的解決方案是使用數據采集技術來幫助構建定制數據庫。 這篇文章介紹了一種流行的數據采集技術,稱為網絡抓取。您可以使用 kurtispykes/web-scraping-real-estate-data GitHub 存儲庫中的代碼進行后續操作。 Data acquisition (也稱為 DAQ )可能與技術人員記錄烤箱溫度一樣簡單。您可以將 DAQ 定義為對測量真實世界物理現象的信號進行采樣,并將生成的樣本轉換為計算機可以解釋的數字數值的過程。
Source
]]>
6003
-
使用 RAPIDS 加速 KubeFlow 上的 ETL
http://www.open-lab.net/zh-cn/blog/accelerating-etl-on-kubeflow-with-rapids/
Tue, 30 Aug 2022 05:45:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5021
Continued]]>
在 機器學習 和 MLOps world , GPU 被廣泛用于加速模型訓練和推理,但工作流的其他階段(如 ETL 管道或超參數優化)如何? 在 RAPIDS 數據科學框架, ETL 工具的設計使使用 Python 的數據科學家具有熟悉的外觀。您當前使用的是 Pandas , NumPy , Scikit Learn ,或 PyData Stack 在您的 KubeFlow 工作流中?如果是這樣,您可以使用 RAPIDS 通過利用集群中可能已經存在的 GPU 來加速工作流的這些部分。 在本文中,我將演示如何將 RAPIDS 放入 KubeFlow 環境。首先在交互式筆記本環境中使用 RAPIDS ,然后擴展到單個容器之外,使用 Dask 跨多個節點使用多個 GPU 。 本文假設您已經對 Kubernetes 和 KubeFlow 有所了解。
Source
]]>
5021
-
將數據湖和數據倉庫評估為機器學習數據倉庫
http://www.open-lab.net/zh-cn/blog/evaluating-data-lakes-and-data-warehouses-as-machine-learning-data-repositories/
Fri, 29 Jul 2022 06:40:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4742
Continued]]>
無論你是零售商、金融服務公司還是數字廣告商,數據都是現代企業的生命線。跨行業,組織正在認識到其數據對于業務分析、機器學習和人工智能的重要性。 智能企業正在投資于從數據中提取價值的新方法:更好地了解客戶需求和行為,定制新產品和服務,并做出在未來幾年將帶來競爭優勢的戰略決策。 幾十年來,企業數據倉庫已用于所有類型的業務分析,圍繞 SQL 和關系數據庫的強大生態系統。現在,一個挑戰者出現了。 創建數據湖是為了存儲用于訓練人工智能模型和預測分析的大數據。這篇文章涵蓋了每個存儲庫的優缺點:如何使用它們,以及最終為 ML 項目提供最佳結果的方法。 這個難題的關鍵是處理 AI 和 ML 工作流的數據。人工智能項目需要大量數據來訓練模型和運行預測分析。技術團隊必須評估如何捕獲、處理和存儲數據,以使其具有可擴展性、經濟性和易用性。 數據倉庫創建于 20 世紀 80 年代,
Source
]]>
4742
人人超碰97caoporen国产