Big Data & Data Mining – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 09 Feb 2023 05:36:32 +0000
zh-CN
hourly
1
196178272 -
XGBoost 中無需手動編碼的分類特征
http://www.open-lab.net/zh-cn/blog/categorical-features-in-xgboost-without-manual-encoding/
Wed, 08 Feb 2023 05:33:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=6238
Continued]]>
XGBoost 是一種基于決策樹的集成 機器學習 算法,基于梯度增強。然而,直到最近,它還不支持分類數據。分類特征在用于訓練或推理之前必須手動編碼。 在序數類別的情況下,例如學校成績,這通常使用標簽編碼來完成,其中每個類別都分配一個與該類別的位置相對應的整數。等級 A 、 B 和 C 可分別分配整數 1 、 2 和 3 。 對于基數類別,類別之間沒有序數關系,例如顏色,這通常使用一個熱編碼來完成。這是為類別特征包含的每個類別創建新的二進制特征的地方。具有紅色、綠色和藍色類別的單個分類特征將是一個熱編碼為三個二進制特征,一個代表每種顏色。 這意味著具有大量類別的分類特征可能會導致數十甚至數百個額外的特征。因此,經常會遇到內存池和最大 DataFrame 大小限制。 對于 XGBoost 這樣的樹學習者來說,這也是一種特別糟糕的方法。
Source
]]>
6238
-
使用 Scrapy 抓取房地產站點數據采集
http://www.open-lab.net/zh-cn/blog/scraping-real-estate-sites-for-data-acquisition-with-scrapy/
Mon, 05 Dec 2022 06:12:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=6003
Continued]]>
數據是企業能夠擁有的最有價值的資產之一。它是數據科學和數據分析的核心:沒有數據,它們都是過時的。積極收集數據的企業可能比不收集數據的公司具有競爭優勢。有了足夠的數據,組織可以更好地確定問題的原因并做出明智的決定。 在某些情況下,組織可能缺乏足夠的數據來得出必要的見解。例如,初創企業幾乎總是在沒有數據的情況下開始。與其抱怨他們的不足,更好的解決方案是使用數據采集技術來幫助構建定制數據庫。 這篇文章介紹了一種流行的數據采集技術,稱為網絡抓取。您可以使用 kurtispykes/web-scraping-real-estate-data GitHub 存儲庫中的代碼進行后續操作。 Data acquisition (也稱為 DAQ )可能與技術人員記錄烤箱溫度一樣簡單。您可以將 DAQ 定義為對測量真實世界物理現象的信號進行采樣,并將生成的樣本轉換為計算機可以解釋的數字數值的過程。
Source
]]>
6003
-
將數據湖和數據倉庫評估為機器學習數據倉庫
http://www.open-lab.net/zh-cn/blog/evaluating-data-lakes-and-data-warehouses-as-machine-learning-data-repositories/
Fri, 29 Jul 2022 06:40:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4742
Continued]]>
無論你是零售商、金融服務公司還是數字廣告商,數據都是現代企業的生命線。跨行業,組織正在認識到其數據對于業務分析、機器學習和人工智能的重要性。 智能企業正在投資于從數據中提取價值的新方法:更好地了解客戶需求和行為,定制新產品和服務,并做出在未來幾年將帶來競爭優勢的戰略決策。 幾十年來,企業數據倉庫已用于所有類型的業務分析,圍繞 SQL 和關系數據庫的強大生態系統。現在,一個挑戰者出現了。 創建數據湖是為了存儲用于訓練人工智能模型和預測分析的大數據。這篇文章涵蓋了每個存儲庫的優缺點:如何使用它們,以及最終為 ML 項目提供最佳結果的方法。 這個難題的關鍵是處理 AI 和 ML 工作流的數據。人工智能項目需要大量數據來訓練模型和運行預測分析。技術團隊必須評估如何捕獲、處理和存儲數據,以使其具有可擴展性、經濟性和易用性。 數據倉庫創建于 20 世紀 80 年代,
Source
]]>
4742
-
改進企業 IT 欺詐預防
http://www.open-lab.net/zh-cn/blog/improving-enterprise-it-fraud-prevention/
Wed, 29 Jun 2022 01:54:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4495
Continued]]>
任何商業或行業,從零售、醫療保健到金融服務,都會受到欺詐的影響。欺詐的成本可能是驚人的。欺詐損失每 1 美元 減輕金融公司約 4 美元的成本 。 2018 年至 2023 年間,在線賣家將 網上支付欺詐損失 1300 億美元 。 通過使用 AI 和大數據分析,企業可以實時有效地防止欺詐企圖。 這篇文章討論了需要考慮的基礎設施因素,例如性能、硬件和用于實施欺詐預防策略的人工智能軟件的類型。 在討論欺詐檢測之前,讓我們先明確預防和檢測之間的區別。欺詐預防描述了管理和消除欺詐的總體努力。欺詐檢測只是識別欺詐活動的能力。 欺詐檢測有兩種方法,這兩種方法都是綜合欺詐預防戰略所必需的。 理想的方法是在未遂欺詐發生之前檢測并阻止其發生。當交易后發現欺詐時,唯一的辦法是評估損害,通知相關方,并努力從欺詐損害中恢復。 盡管欺詐永遠無法完全消除,
Source
]]>
4495
人人超碰97caoporen国产