詞雲圖,也叫文字雲,是對文本中出現頻率較高的「關鍵詞」予以視覺化的展示,詞雲圖過濾掉大量的低頻低質的文本信息,使得瀏覽者只要一眼掃過文本就可領略文章的主旨。操作系統
操做系統:Windows3d
Python版本:3.7.2cdn
本文涉及到的Python第三方模塊,共計四個:分詞模塊jieba,文字雲模塊wordcloud,畫圖模塊matplotlib,用來處理背景圖片的模塊scipy。這些模塊都可經過pip方式進行安裝: blog
模塊的導入: 圖片
準備好一份本身須要分析的文本材料,這裏選用的是19年兩會新鮮出爐的政府工做報告。咱們首先得經過jieba模塊對文本材料進行分詞處理,而後對處理後的材料使用wordcloud文字雲模塊生成相應的詞雲圖片便可。ip
固然了你能夠選擇一個背景圖片,並以此爲基礎生成特定的雲圖,這時就用到了上面提到的另外兩個模塊scipy和matplotlib。ci
好了,思路有了,那就開始實踐吧~it
小試牛刀章節教你僅用9行代碼,來生成一個詞雲圖,先欣賞下最終的效果圖。pip
製做雲圖的思路,上文已做說明,這些就再也不贅述了,直接看代碼,代碼中已添加詳細註釋說明。 io
小試牛刀不夠牛?上面作出的雲圖不夠完美?那就繼續看下去,這裏來實現一個定製圖案的雲圖。
咱們這裏有一張祖國地圖,是否能夠定製生成一個祖國版圖樣式的詞雲圖呢?
是否是又被強大的Python給震撼了?如引言所述,經過生成詞雲圖,對文章中出現頻率較高的「關鍵詞」予以視覺化的展示,幫助讀者快速領略文章的主旨,既方便又高效!
不過呢,不要高興地太早,這裏給你們暗暗地埋了幾顆雷,詞雲圖功能強大實用自沒必要說,可是若想正常的用起來,除了上面提到的在安裝wordcloud模塊時會遇到麻煩以外,還有更多的麻煩在等着你們。請關注後續Python排錯集的系列文章。
關注公衆號「Python專欄」,後臺回覆:zsxq09,獲取本文全套代碼