R語言文本分析入門

1. 文本挖掘概述 文本挖掘是指從文本中提取有用的信息。成功應用主要有如下幾方面:信息檢索、內容管理、市場監測、市場分析等方面。文本挖掘被描述爲 「自動化或半自動化處理文本的過程」,包含了文檔聚類、文檔分類、自然語言處理、文體變化分析及網絡挖掘等領域內容。對於文本處理過程首先要擁有分析的語料,比如報告、信函、出版物等。而後根據這些語料建立半結構化的文本庫。而後生成包含詞頻的結構化的詞條-文檔矩陣。
相關文章
相關標籤/搜索