XGBoost – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 04 Jul 2024 05:29:50 +0000
zh-CN
hourly
1
196178272 -
NVIDIA FLARE 助力聯邦 XGBoost 實現實用高效
http://www.open-lab.net/zh-cn/blog/federated-xgboost-made-practical-and-productive-with-nvidia-flare/
Fri, 28 Jun 2024 05:21:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=10546
Continued]]>
XGBoost 是一種高效且可擴展的機器學習算法,廣泛應用于回歸、分類和排名任務。它基于梯度提升原則,將多個弱學習者(通常是決策樹)的預測結合起來,以生成穩健的整體模型。 XGBoost 在處理大型數據集和復雜數據結構方面表現優異,這要歸功于其高效的實施和高級功能,如正則化、并行處理和處理缺失值。其通用性和高性能使其成為各行各業數據科學競賽和實際應用的熱門選擇。 XGBoost 1.7.0 版本引入了 Federated XGBoost,使多個機構能夠無需移動數據即可聯合訓練 XGBoost 模型。在 XGBoost 2.0.0 版本中,此功能得到進一步增強,以支持垂直聯合學習。OSS Federated XGBoost 提供 Python APIs 用于模擬基于 XGBoost 的聯合訓練。 自 2023 年以來,NVIDIA 聯邦學習應用程序運行時環境 (FLARE)…
Source
]]>
10546
-
用 Dask XGBoost 解鎖多 GPU 模型訓練
http://www.open-lab.net/zh-cn/blog/unlocking-multi-gpu-model-training-with-dask-xgboost/
Thu, 07 Sep 2023 06:14:23 +0000
http://www.open-lab.net/zh-cn/blog/?p=7849
Continued]]>
作為數據科學家,我們經常面臨在大型數據集上訓練模型的挑戰。一種常用的工具是XGBoost,這是一種穩健且高效的梯度提升框架,因其在處理大型表格數據時的速度和性能而被廣泛采用。 理論上,使用多個 GPU 可以顯著提高計算能力,從而加快模型訓練。然而,許多用戶發現,當試圖通過 Dask 和 XGBoost 進行訓練時,Dask 是一個用于并行計算的靈活的開源 Python 庫,而 XGBoost 則提供 Dask API 來訓練 CPU 或 GPU 的 Dask DataFrames。 訓練 Dask XGBoost 的一個常見障礙是處理不同階段的內存不足(OOM)錯誤,包括 解決這些記憶問題可能很有挑戰性,但非常有益,因為多 GPU 訓練的潛在好處很誘人。 這篇文章探討了如何在多個 GPU 上優化 Dask XGBoost 并管理內存錯誤。
Source
]]>
7849
-
XGBoost 中無需手動編碼的分類特征
http://www.open-lab.net/zh-cn/blog/categorical-features-in-xgboost-without-manual-encoding/
Wed, 08 Feb 2023 05:33:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=6238
Continued]]>
XGBoost 是一種基于決策樹的集成 機器學習 算法,基于梯度增強。然而,直到最近,它還不支持分類數據。分類特征在用于訓練或推理之前必須手動編碼。 在序數類別的情況下,例如學校成績,這通常使用標簽編碼來完成,其中每個類別都分配一個與該類別的位置相對應的整數。等級 A 、 B 和 C 可分別分配整數 1 、 2 和 3 。 對于基數類別,類別之間沒有序數關系,例如顏色,這通常使用一個熱編碼來完成。這是為類別特征包含的每個類別創建新的二進制特征的地方。具有紅色、綠色和藍色類別的單個分類特征將是一個熱編碼為三個二進制特征,一個代表每種顏色。 這意味著具有大量類別的分類特征可能會導致數十甚至數百個額外的特征。因此,經常會遇到內存池和最大 DataFrame 大小限制。 對于 XGBoost 這樣的樹學習者來說,這也是一種特別糟糕的方法。
Source
]]>
6238
-
使用 GPU 加速 SHAP 解釋機器學習模型預測
http://www.open-lab.net/zh-cn/blog/explain-your-machine-learning-model-predictions-with-gpu-accelerated-shap/
Wed, 05 Oct 2022 07:11:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5343
Continued]]>
Machine learning ( ML )越來越多地用于各個行業。欺詐檢測、需求感知和信貸承銷是特定用例的幾個示例。 這些機器學習模型做出影響日常生活的決策。因此,模型預測必須公平、無偏見、無歧視。在透明度和信任至關重要的高風險應用程序中,準確的預測至關重要。 確保 AI 公平性的一種方法是分析從機器學習模型獲得的預測。這暴露了差異,并提供了采取糾正措施診斷和糾正根本原因的機會。 Explainable AI (XAI) 是一個負責任的人工智能領域,致力于研究解釋機器學習模型如何進行預測的技術。這些解釋是人類可以理解的,使所有利益相關者能夠理解模型的輸出并做出必要的決策。 SHAP 是一種在工業中廣泛使用的評估和解釋模型預測的技術。 這篇文章解釋了如何訓練 XGBoost 模型,如何使用 CPU 和 GPU 在 Python 中實現 SHAP 技術,最后比較兩者的結果。
Source
]]>
5343
-
實時為 XGBoost 、 Scikit 、 LightGBM 等提供服務
http://www.open-lab.net/zh-cn/blog/real-time-serving-for-xgboost-scikit-learn-randomforest-lightgbm-and-more/
Wed, 02 Feb 2022 06:36:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2989
Continued]]>
深度神經網絡在多個領域的成功促使人們對如何有效地部署這些模型以用于實際應用進行了大量思考和努力。然而,盡管基于樹的模型(包括隨機森林和梯度增強模型)在表格數據分析中 continued dominance 非常重要,而且對于解釋性非常重要的用例非常重要,但加速部署基于樹的模型(包括隨機森林和梯度增強模型)的努力卻沒有受到太多關注。 隨著 DoorDash 和 CapitalOne 等組織轉向基于樹的模型來分析大量關鍵任務數據,提供工具以幫助部署此類模型變得簡單、高效和高效變得越來越重要。 NVIDIA Triton 推理服務器 提供在 CPU 和 GPU 上部署深度學習模型的完整解決方案,支持多種框架和模型執行后端,包括 PyTorch 、 TensorFlow 、 ONNX 、 TensorRT 等。從 21.06.1 版開始,
Source
]]>
2989
-
NVIDIA DLI 教授有監督和無監督異常檢測
http://www.open-lab.net/zh-cn/blog/nvidia-dli-teaches-supervised-and-unsupervised-anomaly-detection/
Wed, 15 Dec 2021 06:26:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2640
Continued]]>
NVIDIA 深度學習學院( DLI )正在為如何構建異常檢測的人工智能應用提供指導者、動手訓練。 異常檢測是識別數據集中異常偏離的數據的過程。與識別統計異常值的簡單過程不同,異常檢測旨在發現在其上下文中不應被視為正常的數據。 異常可以包括與捕獲和標記的異常相似的數據、在不同上下文中可能正常但不在其出現的上下文中的數據,以及只能通過訓練神經網絡的洞察理解為異常的數據。 在許多商業和研究環境中,異常檢測是一種強大而重要的工具。醫療保健專業人員使用異常檢測更早更有效地識別人類疾病的跡象。 IT 和 DevOps 團隊針對任何數量的業務應用異常檢測來識別可能導致性能下降或服務丟失的事件。營銷和財務團隊利用異常檢測來識別對其 KPI 有重大影響的特定事件。 簡言之,任何團隊都可以從與他們的目標相關的數據中識別特殊情況中獲益,這可能會從異常檢測的有效使用中獲益。
Source
]]>
2640
-
加速信用風險管理的可信人工智能
http://www.open-lab.net/zh-cn/blog/accelerating-trustworthy-ai-for-credit-risk-management/
Thu, 30 Sep 2021 09:42:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=1843
Continued]]>
2021 年 4 月 21 日,歐盟委員會向 h ARM 發布了一項法規提案,將 AI 系統的設計和營銷規則稱為人工智能法( AIA )。 監管機構認為人工智能系統存在風險。高風險人工智能系統將受到具體設計和實施義務的約束,以提高透明度。信用評分模型是高風險用例的一個例子。 在《人工智能法》出臺之前,關于透明度的原則已經出現在一些歐洲人工智能準則中。例如,在可信人工智能的道德準則中,數據、系統設計和業務模型應該是透明的。與透明度相關的是,人工智能系統的技術過程和相關的人類決策都必須是可解釋的。 歐盟 Horizon2020 研究與創新項目FIN-TECH中也討論了人工智能的透明度和可解釋性義務。 該項目開發了新的方法和用例,以管理風險,并在歐洲金融服務領域擴展數字金融和人工智能。 20 多所大學以及歐洲監管和金融服務界參與了研討會、培訓和用例演示,并對用例進行了反饋和評估。
Source
]]>
1843
人人超碰97caoporen国产