文本特徵提取算法實現

最近因項目須要,對文本作情感分析,因爲文本分詞後詞向量比較大,不自覺地研究了一下文本特徵提取的方法,一不當心實現了兩種方法:卡方檢驗和信息增益提取文本特徵。源碼已經上傳到Git,歡迎你們移步Git,給提點意見。html

Git:https://github.com/JFanZhao/feature_extractionjava

基使用方法:git

//建立特徵提取對象,能夠使用卡方校驗或者信息增益兩種方法
IFeatureExtraction featureExtraction = new CHIFeatureExtractionImpl();
//IFeatureExtraction featureExtraction = new IGFeatureExtractionImpl();
//構造樣本集 map的key是樣本的標籤,value 是對應的每一個類別下的樣本分詞結果
Map<String,List<List<String>>> datas = new HashMap<String, List<List<String>>>();
//調用特徵提取方法  第二個參數特徵的個數,也能夠不寫,默認是300
List<String> features = featureExtraction.featureExtraction(datas, 500);

另外,算法的原理主要參考一下兩個博文,特別感謝兩位博主的無私奉獻。github

文本分類入門(十一)特徵選擇方法之信息增益

文本特徵詞提取算法算法

相關文章
相關標籤/搜索