Python模塊---Wordcloud生成詞雲圖

時間 2020-04-29

標籤 python 模塊 wordcloud 生成雲圖欄目 Python 简体版

原文原文鏈接

wordcloud是Python擴展庫中一種將詞語用圖片表達出來的一種形式，經過詞雲生成的圖片，咱們能夠更加直觀的看出某篇文章的故事梗概。python

首先貼出一張詞雲圖（以哈利波特小說爲例）：字體

在生成詞雲圖以前，首先要作一些準備工做搜索引擎

1.安裝結巴分詞庫spa

pip install jieba

Python中的分詞模塊有不少，他們的功能也都是大同小異，咱們安裝的結巴分詞是當前使用的最多的類型。3d

下面我來簡單介紹一下結巴分詞的用法code

結巴分詞的分詞模式分爲三種：對象

(1)全模式:把句子中全部的能夠成詞的詞語都掃描出來, 速度快,可是不能解決歧義問題blog

(2)精確模式:將句子最精確地切開,適合文本分析索引

(3)搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提升召回率,適合用於搜索引擎分詞圖片

下面用一個簡單的例子來看一下三種模式的分詞區別：

 1 import jieba
 2 
 3 # 全模式:把句子中全部的能夠成詞的詞語都掃描出來, 速度快,可是不能解決歧義問題
 4 text = "哈利波特是一常優秀的文學做品"
 5 seg_list = jieba.cut(text, cut_all=True)
 6 print(u"[全模式]: ", "/ ".join(seg_list))
 7 
 8 # 精確模式:將句子最精確地切開,適合文本分析
 9 seg_list = jieba.cut(text, cut_all=False)
10 print(u"[精確模式]: ", "/ ".join(seg_list))
11 
12 # 默認是精確模式
13 seg_list = jieba.cut(text)
14 print(u"[默認模式]: ", "/ ".join(seg_list))
15 
16 # 搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提升召回率,適合用於搜索引擎分詞
17 seg_list = jieba.cut_for_search(text)
18 print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

下面是對這句話的分詞方式：

經過這三種分詞模式能夠看出，這些分詞模式並無很好的劃分出「哈利波特」這個專有名詞，這是由於在結巴分詞的字典中並無記錄這個名詞，因此須要咱們手動添加自定義字典

添加自定義字典：找一個方便引用的位置（下圖的路徑是我安裝的位置），新建文本文檔（後綴名爲.txt），將想添加的詞輸入進去（注意輸入格式），保存並退出

在上面的代碼中加入自定義字典的路徑，再點擊運行

jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")

分詞結果，能夠看出「哈利波特」這個詞已經被識別出來了

結巴分詞還有另外一個禁用詞的輸出結果

 1 stopwords = {}.fromkeys(['優秀', '文學做品'])
 2 
 3 #添加禁用詞以後
 4 seg_list = jieba.cut(text)
 5 final = ''
 6 for seg in seg_list:
 7     if seg not in stopwords:
 8             final += seg
 9 seg_list_new = jieba.cut(final)
10 print(u"[切割以後]: ", "/ ".join(seg_list_new))

能夠看到輸出結果中並無「優秀」和「文學做品」兩個詞

結巴分詞還有不少比較複雜的操做，具體的能夠去官網查看，我就再也不過多的贅述了

下面咱們正式開始詞雲的製做

首先下載模塊，這裏我所使用的環境是Anaconda，因爲Anaconda中包含不少經常使用的擴展包，因此這裏只須要下載wordcloud。若使用的環境不是Anaconda，則另需安裝numpy和PIL模塊

pip install wordcloud

而後咱們須要找一篇文章並使用結巴分詞將文章分紅詞語的形式

1 # 分詞模塊
2 def cut(text):
3     # 選擇分詞模式
4     word_list = jieba.cut(text,cut_all= True)
5     # 分詞後在單獨個體之間加上空格
6     result = " ".join(word_list)
7     # 返回分詞結果
8     return result

這裏我在當前文件夾下建立了一個文本文檔「xiaoshuo.txt」，並複製了一章的小說做爲詞雲的主體文字

使用代碼控制，打開並讀取小說的內容

1 #導入文本文件,進行分詞,製做詞雲
2 with open("xiaoshuo.txt") as fp:
3     text = fp.read()
4     # 將讀取的中文文檔進行分詞
5     text = cut(text)

在網上找到一張白色背景的圖片下載到當前文件夾，做爲詞雲的背景圖（若不指定圖片，則默認生成矩形詞雲）

#設置詞雲形狀，若設置了詞雲的形狀，生成的詞雲與圖片保持一致，後面設置的寬度和高度將默認無效
    mask = np.array(image.open("monkey.jpeg"))

接下來能夠根據喜愛來定義詞雲的顏色、輪廓等參數下面爲經常使用的參數設置方法

font_path : "字體路徑"	詞雲的字體樣式，若要輸出中文，則跟隨中文的字體
width = n	畫布寬度，默認爲400像素
height = n	畫布高度，默認爲400像素
scale = n	按比例放大或縮小畫布
min_font_size = n	設置最小的字體大小
max_font_size = n	設置最大的字體大小
stopwords = 'words'	設置要屏蔽的詞語
background_color = ''color	設置背景板顏色
relative_scaling = n	設置字體大小與詞頻的關聯性
contour_width = n	設置輪廓寬度
contour_color = 'color'	設置輪廓顏色

完整代碼

 1 #導入詞雲庫
 2 from wordcloud import WordCloud
 3 #導入圖像處理庫
 4 import PIL.Image as image
 5 #導入數據處理庫
 6 import numpy as np
 7 #導入結巴分詞庫
 8 import jieba
 9 
10 # 分詞模塊
11 def cut(text):
12     # 選擇分詞模式
13     word_list = jieba.cut(text,cut_all= True)
14     # 分詞後在單獨個體之間加上空格
15     result = " ".join(word_list)
16     return result
17 
18 #導入文本文件,進行分詞,製做詞雲
19 with open("xiaoshuo.txt") as fp:
20     text = fp.read()
21     # 將讀取的中文文檔進行分詞
22     text = cut(text)
23     #設置詞雲形狀
24     mask = np.array(image.open("monkey.jpeg"))
25     #自定義詞雲
26     wordcloud = WordCloud(
27         # 遮罩層,除白色背景外,其他圖層所有繪製（以前設置的寬高無效）
28         mask=mask,
29         #默認黑色背景,更改成白色
30         background_color='#FFFFFF',
31         #按照比例擴大或縮小畫布
32         scale=1,
33         # 若想生成中文字體,需添加中文字體路徑
34         font_path="/usr/share/fonts/bb5828/逐浪雅宋體.otf"
35     ).generate(text)
36     #返回對象
37     image_produce = wordcloud.to_image()
38     #保存圖片
39     wordcloud.to_file("new_wordcloud.jpg")
40     #顯示圖像
41     image_produce.show()