互信息(Mutual Information)和χ 2特徵選擇方法去噪處理

特徵選擇(feature selection)是從訓練集合出現的詞項中選出一部分子集的過程。 在文本分類過程也僅僅使用這個子集做爲特徵。 特徵選擇有兩個主要目的: 第一,經過減小有效的詞彙空間來提升分類器訓練和應用的效率。這對於除NB 以外其餘的訓練開銷較大的分類器來講尤其重要。 第二,特徵選擇可以去除噪音特徵,從而提升分類的精度。 噪音特徵(noise feature)指的是那些加入文本表示以後
相關文章
相關標籤/搜索