決策樹中的類別特徵問題(關於label encode還是one-hot的討論)

就決策樹來說,算法本身是(爲數不多的)天然支持categorical feature的機器學習算法,但是如果是high cardinality,那麼理論上最優的split要遍歷所有二分組合,是指數級的複雜度,Python的implementation只解決數值型feature,把這個難題丟給用戶了,xgboost也是一樣,作者的解釋是爲了給用戶更多自主權決定如何處理categorical feat
相關文章
相關標籤/搜索