Chris Jarrett – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 09 Feb 2023 05:36:32 +0000 zh-CN hourly 1 196178272 XGBoost 中無需手動編碼的分類特征 http://www.open-lab.net/zh-cn/blog/categorical-features-in-xgboost-without-manual-encoding/ Wed, 08 Feb 2023 05:33:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=6238 Continued]]> XGBoost 是一種基于決策樹的集成 機器學習 算法,基于梯度增強。然而,直到最近,它還不支持分類數據。分類特征在用于訓練或推理之前必須手動編碼。 在序數類別的情況下,例如學校成績,這通常使用標簽編碼來完成,其中每個類別都分配一個與該類別的位置相對應的整數。等級 A 、 B 和 C 可分別分配整數 1 、 2 和 3 。 對于基數類別,類別之間沒有序數關系,例如顏色,這通常使用一個熱編碼來完成。這是為類別特征包含的每個類別創建新的二進制特征的地方。具有紅色、綠色和藍色類別的單個分類特征將是一個熱編碼為三個二進制特征,一個代表每種顏色。 這意味著具有大量類別的分類特征可能會導致數十甚至數百個額外的特征。因此,經常會遇到內存池和最大 DataFrame 大小限制。 對于 XGBoost 這樣的樹學習者來說,這也是一種特別糟糕的方法。

Source

]]>
6238
人人超碰97caoporen国产