文本挖掘是的過程是什麼，主要劃分爲幾個步驟？

時間 2021-01-13

原文原文鏈接

第一步：適合應用的文檔一般是確定的大量文本數據。文檔聚類方法經常用語解決「大量」這個問題。這些方法是非監督的學習方法，最受歡迎的文檔聚類方法是K-means聚類和凝聚層次聚類。第二步：文本是被清洗了的——它從網頁上的廣告中拆離出來；標準化文本從二進制格式轉換而來；表、數字等式都是經過處理的；還有其它的等等。然後，將文本中的詞語與對應的詞類標記的步驟開始進行。有兩種方法標出詞語：一個是基於規則方法

>>阅读原文<<