文本分類 -- 追根究底

特徵提取 樣本如何量化     在對文本進行分類之前,首先要在文本里面找到特徵,特徵是什麼呢,通常會憑着業務直覺加以選擇,比如說要找垃圾郵件,根據我對垃圾郵件的認識,可能出現了一些特別的詞就是垃圾郵件,比如「代考」、「淘寶」這些很可能是垃圾郵件,正常的郵件很少出現這些詞,當然這些特徵合不合理,需要通過數據的粗分析才能決定,選擇好特徵之後可以加上權重,就是說使用一個數值來描述特徵強烈的程度,以及跟其
相關文章
相關標籤/搜索