box-cox變換

參加kaggle比賽過程中,看到很多人在預處理階段會對某些特徵X做如下操作 Y = log(1+X), 說是可以把這個特徵的分佈正態化, 使其更加符合後面數據挖掘方法對數據分佈的假設. 自己試了一下,有時的確可以提高準確度,有時卻降低了準確度,很好奇其中的原理,遂在網上搜索了一番,整理如下. Y = log(1+X)這個操作的真名應該時boxcox變換,用來降低X的skewness值,達到接近正態
相關文章
相關標籤/搜索