R文本挖掘之jiebaR包

時間 2019-11-06

標籤文本挖掘 jiebar 欄目大數據简体版

原文原文鏈接

library(jiebaRD)
library(jiebaR) ##調入分詞的庫
cutter <- worker()
mydata =read.csv(file.choose(),fileEncoding = 'UTF-8',stringsAsFactors = FALSE,header=FALSE) ##讀入數據(特別注意，read.csv居然能夠讀取txt的文本)spa

content <-as.character(mydata) #將數據字符串化
segWords <- segment(content,cutter)對象

#讀取中止詞blog

#刪除停用詞（就是刪除一些介詞、嘆詞之類的詞語，這些詞語自己沒多大分析意義，但出現的頻率卻很高，好比"的、地、得、啊、嗯、呢、了、還、因而、那麼、而後"等等。前提是必需要有一個停用詞庫，網上搜索便可下載，也是一個txt的文本文件，每行一個詞。網上有兩種版本，一種是500多個詞的，一種是1000多個詞的）
f<- read.table(file = file.choose(), stringsAsFactors = FALSE) #stopword.txt
stopwords <- c(NULL) #定義一個空對象stopwords，並賦值爲「空」
for(i in 1:length(f)){ #for循環，length（f）求得中止詞庫詞條個數。
stopwords[i] <- f[i] #遍歷中止詞庫，將第【i】箇中止詞賦值給stopwords
}排序

segWords <- gsub("[0-9a-zA-Z]+?","",segWords) #gsub用來去掉segWord文本中的數字，英文，但生成了空格，""產生了空格字符串

library(stringr) #載入stringr包，僅用來去掉文本中的空格
segWords <- str_trim(segWords) #去掉segwords中的空格
txt.asvector <- unlist(segWords) #將segwords向量化
tableWord <- table(txt.asvector) #將txt.asvector生成爲列聯表
Wordresult<- tableWord[order(-tableWord)] #將tableword降序排列，從多到少排序string

library(wordcloud2) #調入繪製詞雲的庫
wordcloud2(Wordresult[1:100])for循環