文本分類的基本步驟是什麼,主要劃分爲幾步?

1、獲取訓練文檔集合。訓練文檔的好壞對分了結果至關重要。一般是公認的,經過人工分類的庫。 2、建立文檔表示模型。目前分類方法主要用詞語(相對於字、短語)來表徵文檔。具體可能是關鍵詞、主題詞。 3、文檔特徵選擇。在所有文檔特徵向量中,選取最優子集表示文檔,減少特徵向量計算量。 4、選擇分類器。KNN,SVM是文本分類中常用的分類模型。當然,也可以選擇bayes、迴歸模型等。 5、性能評估,參數調優。
相關文章
相關標籤/搜索