特徵工程之特徵選擇

在前一篇文章中我介紹了一些數據預處理的方法,原始數據在通過預處理以後能夠被算法處理了,可是實際中可能有一些特徵是沒有必要的,好比在中國採集的一些數據,那麼國籍就都是中國,其實也就沒有意義了,反映在統計量上就是方差太小,也就是樣本在這個特徵上變化很小。還有一種狀況是特徵和最後的結果相關性很小,也就是這個特徵不起做用,衡量這種相關性咱們能夠用卡方檢驗,F-檢驗以及互信息等。其實不少sklearn的算法
相關文章
相關標籤/搜索