機器學習(十六)特徵工程之數據分箱

1 分箱簡介 數據分箱(也稱爲離散分箱或分段)是一種數據預處理技術,用於減少次要觀察誤差的影響,是一種將多個連續值分組爲較少數量的「分箱」的方法。 例如,例如我們有一組關於人年齡的數據,如下圖所示: 初始數據 現在我們希望將他們的年齡分組到更少的間隔中,可以通過設置一些條件來實現: 分箱後的數據 分箱的數據不一定必須是數字,它們可以是任何類型的值,如「狗」,「貓」,「倉鼠」等。 分箱也用於圖像處理
相關文章
相關標籤/搜索