R語言文本分析入門

1. 文本挖掘概述 文本挖掘是指從文本中提取有用的信息。成功應用主要有以下幾方面:信息檢索、內容管理、市場監測、市場分析等方面。文本挖掘被描述爲 「自動化或半自動化處理文本的過程」,包含了文檔聚類、文檔分類、天然語言處理、文體變化分析及網絡挖掘等領域內容。對於文本處理過程首先要擁有分析的語料,好比報告、信函、出版物等。然後根據這些語料創建半結構化的文本庫。然後生成包含詞頻的結構化的詞條-文檔矩陣。
相關文章
相關標籤/搜索