R文本挖掘之jiebaR包

library(jiebaRD)
library(jiebaR)  ##調入分詞的庫
cutter <- worker()
mydata =read.csv(file.choose(),fileEncoding = 'UTF-8',stringsAsFactors = FALSE,header=FALSE) ##讀入數據(特別注意,read.csv居然能夠讀取txt的文本)spa

content <-as.character(mydata) #將數據字符串化
segWords <- segment(content,cutter)對象

#讀取中止詞blog

#刪除停用詞(就是刪除一些介詞、嘆詞之類的詞語,這些詞語自己沒多大分析意義,但出現的頻率卻很高,好比"的、地、得、啊、嗯、呢、了、還、因而、那麼、而後"等等。前提是必需要有一個停用詞庫,網上搜索便可下載,也是一個txt的文本文件,每行一個詞。網上有兩種版本,一種是500多個詞的,一種是1000多個詞的)
f<- read.table(file = file.choose(), stringsAsFactors = FALSE) #stopword.txt
stopwords <- c(NULL) #定義一個空對象stopwords,並賦值爲「空」
for(i in 1:length(f)){ #for循環,length(f)求得中止詞庫詞條個數。
stopwords[i] <- f[i] #遍歷中止詞庫,將第【i】箇中止詞賦值給stopwords
}排序

segWords <- gsub("[0-9a-zA-Z]+?","",segWords) #gsub用來去掉segWord文本中的數字,英文,但生成了空格,""產生了空格字符串

library(stringr) #載入stringr包,僅用來去掉文本中的空格
segWords <- str_trim(segWords) #去掉segwords中的空格
txt.asvector <- unlist(segWords) #將segwords向量化
tableWord <- table(txt.asvector) #將txt.asvector生成爲列聯表
Wordresult<- tableWord[order(-tableWord)] #將tableword降序排列,從多到少排序string

library(wordcloud2) #調入繪製詞雲的庫
wordcloud2(Wordresult[1:100])for循環

相關文章
相關標籤/搜索