機器學習-特徵選擇

在此前做過文本分類的算法,其中特徵長度是1萬7多個,樣本是1000個,但是做過文本分類的童鞋都知道,如此長的特徵使得文本分類非常慢,一般都是去進行特徵選擇,而我因爲當時不懂,所以也就沒有做優化。 接下來,正式介紹一下特徵選擇。 首先,我們先來談談理論基礎。從上一篇關於VC維的介紹中,我們知道,VC維他是和樣本數量m是成正比的,而我們特徵個數如果非常大,那我們的VC維就很可能很大,我們有理由相信,真
相關文章
相關標籤/搜索