文本挖掘是的過程是什麼,主要劃分爲幾個步驟?

第一步:適合應用的文檔一般是確定的大量文本數據。文檔聚類方法經常用語解決「大量」這個問題。這些方法是非監督的學習方法,最受歡迎的文檔聚類方法是K-means聚類和凝聚層次聚類。 第二步:文本是被清洗了的——它從網頁上的廣告中拆離出來;標準化文本從二進制格式轉換而來;表、數字等式都是經過處理的;還有其它的等等。然後,將文本中的詞語與對應的詞類標記的步驟開始進行。有兩種方法標出詞語:一個是基於規則方法
相關文章
相關標籤/搜索