科普-文本挖掘(文本分類)流程

一個典型的文本分類的數據挖掘流程如下圖,這張圖初看有點亂,我這裏解釋一下,紅色的部分是訓練時候調用的模塊,綠色是測試時候調用的模塊,而藍色的部分是訓練的時候生成的中間文件,它們聯繫着訓練、測試兩個部分。從左到右看是算法運行的流程,首先用戶給出原始的用於訓練的中文文本,然後進行分詞等操作。經過了生成矩陣這個步驟,文本就轉化成了數學語言了,之後的算法都是運行在這個數學語言之上,之後的算法就不再關心輸入
相關文章
相關標籤/搜索