【大數據部落】用R進行網站評論文本挖掘聚類

對於非結構化的網站中文評論信息,r的中文詞頻包可能是用來挖掘其潛在信息的好工具,要分析文本內容,最常見的分析方法是提取文本中的詞語,並統計頻率。頻率能反映詞語在文本中的重要性,一般越重要的詞語,在文本中出現的次數就會越多。詞語提取後,還可以做成詞雲,讓詞語的頻率屬性可視化,更加直觀清晰。        比如對於如下的網站評論信息: 通過一系列的文本處理和高頻詞彙的提取,最後結合聚類,我們可以得到如
相關文章
相關標籤/搜索