特徵選擇 ( Feature Selection )也稱特徵子集選擇( Feature Subset Selection , FSS ) ,或屬性選擇( Attribute Selection ) ,是指從所有特徵中選取一個特徵子集,使構造出來的模型更好。機器學習
在機器學習的實際應用中,特徵數量每每較多,其中可能存在不相關的特徵,特徵之間也可能存在相互依賴,容易致使以下的後果:學習
特徵個數越多,分析特徵、訓練模型所需的時間就越長。spa
特徵個數越多,容易引發「維度災難」,模型也會越複雜,其推廣(泛化)能力會降低。orm
特徵選擇能剔除不相關(irrelevant)或亢餘(redundant )的特徵,從而達到減小特徵個數,提升模型精確度,減小運行時間的目的。另外一方面,選取出真正相關的特徵簡化了模型,使研究人員易於理解數據產生的過程。
事件
MI度量的是詞項的存在與否給類別c的正確判斷所帶來的信息量。若是信息量越大,那麼特徵和這個類別的相關性越大。文檔
用於檢驗兩個事件的獨立性,分別指詞項的出現和類別的出現。
io
先假設兩個事件是獨立的,若卡方值越大,顯著性越大,說明二者差異越明顯,更可能相互獨立。卡方值越小,說明二者相互依賴,詞項的出現也會使某個類別的出現更有可能。form
選擇那些在類別中頻率較高的詞項做爲特徵。
方法
這裏的頻率能夠定義爲文檔頻率(類別中包含某個詞項c的文檔數目),或文檔集頻率(c類別中全部文檔中t出現的總次數)。
統計
文檔頻率更適合貝努利模型,而文檔集頻率更適合多項式模型。
因爲X2基於顯著統計性來選擇特徵,所以它會比MI選出更多的罕見詞項,而這些詞項出現次數太少所提供的信息量是不夠的,由於對分類來講是不太可靠的。