給text grocery 作個廣告。排序
短文本分類由於特徵少,沒法獲得好的效果。另外,文本短提供的信息有限,須要的樣本大,沒法經過人工標註來作(減小人工)。微博
長文本分類方法。84%
嘗試用Word2vec對tfidf大的詞彙進行擴展。 不可用。
嘗試用lda來擴展特徵。 86%. ------ 由於lda擴展的特徵有限。通常一條微博只能擴到1到2個特徵。
嘗試使用bigram來作特徵擴展,效果最好。基於libshorttext。 95% 以上。 ------ 就是textgrocery。擴展
1.經過純度較高的微博分類帳戶做爲初始訓練數據。
2.根據已有數據創建高招回分類器來擴展正例。
3.對已有正例的特徵作皮爾遜相關係數排序。用排名較高的詞彙進行solr搜索來獲取正例。搜索
對badcase中svm排序最高來擴展正例。
計算badcase的相關係數,特徵使用詞+bigram。 選取正例加入到訓練集。方法