R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究

原文連接:http://tecdat.cn/?p=6864

咱們對20個Usenet公告板的20,000條消息進行分析。此數據集中的Usenet公告板包括新汽車,體育和密碼學等主題。cors

預處理

咱們首先閱讀20news-bydate文件夾中的全部消息,這些消息組織在子文件夾中,每一個消息都有一個文件。加密

raw_text
## # A tibble: 511,655 x 3
##    newsgroup   id    text                                                              
##    <chr>       <chr> <chr>                                                             
##  1 alt.atheism 49960 From: mathew <mathew@mantis.co.uk>                                
##  2 alt.atheism 49960 Subject: Alt.Atheism FAQ: Atheist Resources                       
##  3 alt.atheism 49960 Summary: Books, addresses, music -- anything related to atheism   
##  4 alt.atheism 49960 Keywords: FAQ, atheism, books, music, fiction, addres
## # … with 511,645 more rows

請注意該newsgroup列描述了每條消息來自哪20個新聞組,以及id列,用於標識該新聞組中的消息。spa

tf-idf

TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。咱們但願新聞組在主題和內容方面有所不一樣,所以,它們之間的詞語頻率也不一樣。code

newsgroup_cors
## # A tibble: 380 x 3
##    item1                    item2                    correlation
##    <chr>                    <chr>                          <dbl>
##  1 talk.religion.misc       soc.religion.christian         0.835
##  2 soc.religion.christian   talk.religion.misc             0.835
##  3 alt.atheism              talk.religion.misc             0.779
##  4 talk.religion.misc       alt.atheism                    0.779
##  5 alt.atheism              soc.religion.christian         0.751
##  6 soc.religion.christian   alt.atheism                    0.751
##  7 comp.sys.mac.hardware    comp.sys.ibm.pc.hardware       0.680
##  8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware          0.680
##  9 rec.sport.baseball       rec.sport.hockey               0.577
## 10 rec.sport.hockey         rec.sport.baseball             0.577
## # … with 370 more rows

主題建模

 LDA能夠整理來自不一樣新聞組的Usenet消息嗎?ci

主題1固然表明sci.space新聞組(所以最多見的詞是「空間」),主題2可能來自密碼學,使用諸如「密鑰」和「加密」之類的術語。rem

 

情緒分析

咱們能夠使用咱們 探討的情緒分析技術來檢查這些Usenet帖子中出現的正面和負面詞的頻率。哪些新聞組整體上最積極或最消極?get

在這個例子中,咱們將使用AFINN情感詞典,它爲每一個單詞提供積極性分數,並用條形圖可視化it

用語言分析情緒

值得深刻了解_爲何_有些新聞組比其餘新聞組更積極或更消極。爲此,咱們能夠檢查每一個單詞的總積極和消極貢獻度。io

N-gram分析

Usenet數據集是一個現代文本語料庫,所以咱們會對本文中的情緒分析感興趣.class


相關文章
相關標籤/搜索