科普-文本挖掘（文本分類）流程

時間 2021-01-13

原文原文鏈接

一個典型的文本分類的數據挖掘流程如下圖，這張圖初看有點亂，我這裏解釋一下，紅色的部分是訓練時候調用的模塊，綠色是測試時候調用的模塊，而藍色的部分是訓練的時候生成的中間文件，它們聯繫着訓練、測試兩個部分。從左到右看是算法運行的流程，首先用戶給出原始的用於訓練的中文文本，然後進行分詞等操作。經過了生成矩陣這個步驟，文本就轉化成了數學語言了，之後的算法都是運行在這個數學語言之上，之後的算法就不再關心輸入