文章類別判斷

文章分類初步思路:
1、相似機器學習階段:
1.對輸入文章進行分詞,這裏須要明確告訴
系統這篇文章屬於哪一個分類,而後對該文章進行
分詞,分詞須要去掉嘈雜詞(經常使用短語、口語等),對剩下的
詞放入指定的分類詞組表中,表中能夠包括字段:關鍵詞、詞頻
2.當一類文章量達到必定量的時候,篩選出該類詞組表中詞頻高於某一閾值的詞組,做爲該類文章的關鍵詞
3.對1操做次數越多,詞頻統計出來更有效、更準確


2、判斷階段
對任意輸入文章,按照上面1的步驟找出相關關鍵詞字等,而後到
全部的分類的詞組表中作命中匹配率統計,找出命中率較高
的那組則可判斷出該文章屬於該分類;

歡迎討論.....
機器學習

相關文章
相關標籤/搜索