用R進行網站評論文本挖掘聚類

原文:http://tecdat.cn/?p=3994html

對於非結構化的網站中文評論信息,r的中文詞頻包多是用來挖掘其潛在信息的好工具,要分析文本內容,最多見的分析方法是提取文本中的詞語,並統計頻率。頻率能反映詞語在文本中的重要性,通常越重要的詞語,在文本中出現的次數就會越多。詞語提取後,還能夠作成詞雲,讓詞語的頻率屬性可視化,更加直觀清晰。 工具

      好比對於以下的網站評論信息:優化


經過一系列的文本處理和高頻詞彙的提取,最後結合聚類,咱們能夠獲得以下的可視化結果。網站

第一類客戶:url

第二類
spa

第三類
htm

這是根據某網站成交評論製做的可視化詞雲,詞頻的統計,分詞和詞雲的製做都是用R,最後作了聚類,將不一樣的用戶聚成了3個類別。這個圖能很直觀看到,每一個類別的客戶的特色。不過這張圖中的詞語還須要進行優化,由於有些術語或詞組可能被拆分紅了更小的詞語,沒有展現出來,爲了演示,我就沒再花更多時間去優化詞庫,主要介紹分析的過程與方法。blog

相關文章
相關標籤/搜索