特徵工程之分箱

一般在建立分類模型時,需要對連續變量離散化,特徵離散化後,模型會更穩定,降低了模型過擬合的風險。比如在建立申請評分卡模型時用logsitic作爲基模型就需要對連續變量進行離散化,離散化通常採用分箱法。 分箱的重要性及其優勢 離散特徵的增加和減少都很容易,易於模型的快速迭代; 稀疏向量內積乘法運算速度快,計算結果方便存儲,容易擴展; 離散化後的特徵對異常數據有很強的魯棒性:比如一個特徵是年齡>30是
相關文章
相關標籤/搜索