做者:xiaoyupython
微信公衆號:Python數據科學正則表達式
知乎:python數據分析師bash
詞雲的使用相信你們已經不陌生了,使用很簡單,直接調用wordcloud
包就能夠了。它的主要功能是根據文本詞彙和詞彙頻率生成圖片,從中能夠直觀的看出各個詞彙所佔比重。最近正好想作一我的的logo,因而乎決定使用詞雲來製做完成。微信
pip install wordcloud
複製代碼
使用 pip 安裝你確定會遇到一個坑,安裝過程當中可能會報錯,提示你安裝 Microsoft Visual C++ 14.0,可是這個安裝過程很耗時。dom
有另外一個方法能夠解決,就是下載相應的whl
文件安裝。下載連接:www.lfd.uci.edu/~gohlke/pyt…函數
文件下載後,cmd 進入whl
文件所在文件夾下,而後輸入如下命令:學習
pip install wordcloud-1.4.1-cp36-cp36m-win_amd64.whl
複製代碼
安裝成功後咱們立刻開始製做咱們的圖片。字體
from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
d = path.dirname(__file__)
# 讀文本文件
text = open(path.join(d, 'data.txt')).read()
# 讀取自定義圖片
alice_coloring = np.array(Image.open(path.join(d, "pic.jpg")))
# 你能夠經過 mask 參數 來設置詞雲形狀
wc = WordCloud(background_color="white",max_words=2000,
mask=alice_coloring, max_font_size=60,random_state=102,scale=8,
font_path="C:\Windows\Fonts\msyhbd.ttf").generate(text)
wc.generate_from_text(text)
print('開始加載文本')
# 改變字體顏色
img_colors = ImageColorGenerator(alice_coloring)
# 字體顏色爲背景圖片的顏色
wc.recolor(color_func=img_colors)
# 顯示詞雲圖
plt.imshow(wc, interpolation="bilinear")
# 是否顯示x軸、y軸下標
plt.axis('off')
plt.show()
# 得到模塊所在的路徑的
d = path.dirname(__file__)
# 將多個路徑組合後返回
wc.to_file(path.join(d, "h16.jpg"))
print('生成詞雲成功!')
複製代碼
上面 text 文本內容是經過爬蟲採集的,爬取的關於數據科學的一篇文章,有了文本源以後準備好你想要生成詞雲的圖片就好了。ui
配置 wordcloud
的參數對於圖片效果尤其重要,下面咱們着重介紹一下wordcloud
的參數含義:人工智能
font_path : string 字體路徑,須要展示什麼字體就把該字體路徑+後綴名寫上,如:font_path = '黑體.ttf'
width : int (default=400) 輸出的畫布寬度,默認爲400像素
height : int (default=200) 輸出的畫布高度,默認爲200像素
prefer_horizontal : float (default=0.90) 詞語水平方向排版出現的頻率,默認 0.9
mask : nd-array or None (default=None) 若參數爲空,則正常繪製詞雲。若是 mask 非空,設置的寬高值將被忽略,形狀被 mask 取代。除白色的部分將不會繪製,其他部分會用於繪製詞雲。
scale : float (default=1) 按照比例進行放大畫布,如設置爲2,則長和寬都是原來畫布的2倍。
min_font_size : int (default=4) 顯示的最小的字體大小
font_step : int (default=1) 字體步長,若是步長大於1,會加快運算可是可能致使結果出現較大的偏差。
max_words : number (default=200) 要顯示的詞的最大個數
stopwords : set of strings or None 設置須要屏蔽的詞,若是爲空,則使用內置的STOPWORDS
background_color : color value (default=」black」) 背景顏色,如background_color='white',背景顏色爲白色。
max_font_size : int or None (default=None) 顯示的最大的字體大小
mode : string (default=」RGB」) 當參數爲「RGBA」而且background_color不爲空時,背景爲透明。
relative_scaling : float (default=.5) 詞頻和字體大小的關聯性
color_func : callable, default=None 生成新顏色的函數,若是爲空,則使用 self.color_func
regexp : string or None (optional) 使用正則表達式分隔輸入的文本
collocations : bool, default=True 是否包括兩個詞的搭配
colormap : string or matplotlib colormap, default=」viridis」 給每一個單詞隨機分配顏色,若指定color_func,則忽略該方法。
使用的照片是博主本身的照片。
——————end——————
關注微信公衆號Python數據科學,獲取 120G
人工智能 學習資料。