數據挖掘中的特徵選擇問題

       特徵工程包括特徵選擇和特徵提取。數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已。一般而言,特徵選擇是指選擇得到相應模型和算法最好性能的特徵集,工程上經常使用的方法:算法 ①計算每個特徵與響應變量的相關性:計算皮爾遜係數和互信息係數,皮爾遜係數只能衡量線性相關性而互信息係數可以很好地度量各類相關性,可是計算相對複雜一些,好在不少toolkit裏邊都包含了這個工具(如s
相關文章
相關標籤/搜索