wordcloud是Python擴展庫中一種將詞語用圖片表達出來的一種形式,經過詞雲生成的圖片,咱們能夠更加直觀的看出某篇文章的故事梗概。python
首先貼出一張詞雲圖(以哈利波特小說爲例):字體
在生成詞雲圖以前,首先要作一些準備工做搜索引擎
1.安裝結巴分詞庫spa
pip install jieba
Python中的分詞模塊有不少,他們的功能也都是大同小異,咱們安裝的結巴分詞 是當前使用的最多的類型。3d
下面我來簡單介紹一下結巴分詞的用法code
結巴分詞的分詞模式分爲三種:對象
(1)全模式:把句子中全部的能夠成詞的詞語都掃描出來, 速度快,可是不能解決歧義問題blog
(2)精確模式:將句子最精確地切開,適合文本分析索引
(3)搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提升召回率,適合用於搜索引擎分詞圖片
下面用一個簡單的例子來看一下三種模式的分詞區別:
1 import jieba 2 3 # 全模式:把句子中全部的能夠成詞的詞語都掃描出來, 速度快,可是不能解決歧義問題 4 text = "哈利波特是一常優秀的文學做品" 5 seg_list = jieba.cut(text, cut_all=True) 6 print(u"[全模式]: ", "/ ".join(seg_list)) 7 8 # 精確模式:將句子最精確地切開,適合文本分析 9 seg_list = jieba.cut(text, cut_all=False) 10 print(u"[精確模式]: ", "/ ".join(seg_list)) 11 12 # 默認是精確模式 13 seg_list = jieba.cut(text) 14 print(u"[默認模式]: ", "/ ".join(seg_list)) 15 16 # 搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提升召回率,適合用於搜索引擎分詞 17 seg_list = jieba.cut_for_search(text) 18 print(u"[搜索引擎模式]: ", "/ ".join(seg_list))
下面是對這句話的分詞方式:
經過這三種分詞模式能夠看出,這些分詞模式並無很好的劃分出「哈利波特」這個專有名詞,這是由於在結巴分詞的字典中並無記錄這個名詞,因此須要咱們手動添加自定義字典
添加自定義字典:找一個方便引用的位置 (下圖的路徑是我安裝的位置),新建文本文檔(後綴名爲.txt),將想添加的詞輸入進去(注意輸入格式),保存並退出
在上面的代碼中加入自定義字典的路徑,再點擊運行
jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")
分詞結果,能夠看出「哈利波特」這個詞已經被識別出來了
結巴分詞還有另外一個禁用詞的輸出結果
1 stopwords = {}.fromkeys(['優秀', '文學做品']) 2 3 #添加禁用詞以後 4 seg_list = jieba.cut(text) 5 final = '' 6 for seg in seg_list: 7 if seg not in stopwords: 8 final += seg 9 seg_list_new = jieba.cut(final) 10 print(u"[切割以後]: ", "/ ".join(seg_list_new))
能夠看到輸出結果中並無「優秀」和「文學做品」兩個詞
結巴分詞還有不少比較複雜的操做,具體的能夠去官網查看,我就再也不過多的贅述了
下面咱們正式開始詞雲的製做
首先下載模塊,這裏我所使用的環境是Anaconda,因爲Anaconda中包含不少經常使用的擴展包,因此這裏只須要下載wordcloud。若使用的環境不是Anaconda,則另需安裝numpy和PIL模塊
pip install wordcloud
而後咱們須要找一篇文章並使用結巴分詞將文章分紅詞語的形式
1 # 分詞模塊 2 def cut(text): 3 # 選擇分詞模式 4 word_list = jieba.cut(text,cut_all= True) 5 # 分詞後在單獨個體之間加上空格 6 result = " ".join(word_list) 7 # 返回分詞結果 8 return result
這裏我在當前文件夾下建立了一個文本文檔「xiaoshuo.txt」,並複製了一章的小說做爲詞雲的主體文字
使用代碼控制,打開並讀取小說的內容
1 #導入文本文件,進行分詞,製做詞雲 2 with open("xiaoshuo.txt") as fp: 3 text = fp.read() 4 # 將讀取的中文文檔進行分詞 5 text = cut(text)
在網上找到一張白色背景的圖片下載到當前文件夾,做爲詞雲的背景圖(若不指定圖片,則默認生成矩形詞雲)
#設置詞雲形狀,若設置了詞雲的形狀,生成的詞雲與圖片保持一致,後面設置的寬度和高度將默認無效 mask = np.array(image.open("monkey.jpeg"))
接下來能夠根據喜愛來定義詞雲的顏色、輪廓等參數 下面爲經常使用的參數設置方法
font_path : "字體路徑" | 詞雲的字體樣式,若要輸出中文,則跟隨中文的字體 |
width = n | 畫布寬度,默認爲400像素 |
height = n | 畫布高度,默認爲400像素 |
scale = n | 按比例放大或縮小畫布 |
min_font_size = n | 設置最小的字體大小 |
max_font_size = n | 設置最大的字體大小 |
stopwords = 'words' | 設置要屏蔽的詞語 |
background_color = ''color | 設置背景板顏色 |
relative_scaling = n | 設置字體大小與詞頻的關聯性 |
contour_width = n | 設置輪廓寬度 |
contour_color = 'color' | 設置輪廓顏色 |
完整代碼
1 #導入詞雲庫 2 from wordcloud import WordCloud 3 #導入圖像處理庫 4 import PIL.Image as image 5 #導入數據處理庫 6 import numpy as np 7 #導入結巴分詞庫 8 import jieba 9 10 # 分詞模塊 11 def cut(text): 12 # 選擇分詞模式 13 word_list = jieba.cut(text,cut_all= True) 14 # 分詞後在單獨個體之間加上空格 15 result = " ".join(word_list) 16 return result 17 18 #導入文本文件,進行分詞,製做詞雲 19 with open("xiaoshuo.txt") as fp: 20 text = fp.read() 21 # 將讀取的中文文檔進行分詞 22 text = cut(text) 23 #設置詞雲形狀 24 mask = np.array(image.open("monkey.jpeg")) 25 #自定義詞雲 26 wordcloud = WordCloud( 27 # 遮罩層,除白色背景外,其他圖層所有繪製(以前設置的寬高無效) 28 mask=mask, 29 #默認黑色背景,更改成白色 30 background_color='#FFFFFF', 31 #按照比例擴大或縮小畫布 32 scale=1, 33 # 若想生成中文字體,需添加中文字體路徑 34 font_path="/usr/share/fonts/bb5828/逐浪雅宋體.otf" 35 ).generate(text) 36 #返回對象 37 image_produce = wordcloud.to_image() 38 #保存圖片 39 wordcloud.to_file("new_wordcloud.jpg") 40 #顯示圖像 41 image_produce.show()
注:若想要生成圖片樣式的詞雲圖,找到的圖片背景必須爲白色,或者使用Photoshop摳圖替換成白色背景,不然生成的詞云爲矩形
個人詞雲原圖:
生成的詞雲圖: