手把手教你用python製做屬於你的第一個詞雲

相信不少人在網上,或者是在一些報告或者ppt上,都看到過相似這種圖片python

clipboard.png

你可能會好奇它是怎麼作出來的,若是你會ps,你可能會以爲,這是用ps一步一步製做出來的。是的沒錯,一開始我也是堅決不移的這麼認爲。直到後面我遇到了python。程序員

上網搜索「如何製做詞雲」,你會獲得不少教程。可是這些教程都是利用了一些製做工具,它們功能都太過專注,適用範圍有限。並且它們背後的原理,無非也就是利用了python。今天,咱們就拋開表面直擊本質。利用強大的python語言製做屬於本身的第一張詞雲。(快放開我,我要裝逼)shell

衆所周知,python是目前大數據和人工智能領域最流行的語言,這其中很大一部分都要歸功於它強大的社區和數不清的第三方類庫,那有沒有一個集成環境同時集成了python語言的開發環境和經常使用的類庫呢,答案是確定的,那就是Anaconda,它集成了大部分科學計算,數據處理,計算機繪圖等領域所用到的庫。瀏覽器

clipboard.png

還有一件頗有意思的事情,Anaconda和python的中文意思,都是蟒蛇。編輯器

好,接下來進入正題,一步一步實現咱們的第一張詞雲。工具

第一步:下載並安裝Anaconda

首先,進入官網,選擇適合你電腦的版本,
clipboard.png
注意,不管你的電腦是什麼系統,在右邊都會有兩個選項: Python 2.7 version和Python 3.6 version
我推薦下載使用python3.6版本,由於在這個最新的版本中,不少python語言的缺陷都獲得了很好的解決(好比長期困擾python程序員的編碼問題),這樣在往後的學習中,咱們都會進行的比較順利。學習

下載完成後獲得一個exe格式的安裝文件,和正常軟件的安裝同樣,一直下一步下一步就好了,可是在這一步要注意,字體

clipboard.png

必定要記得把第一個選項勾上,若是不勾上,在後續的環境變量配置問題上會比較麻煩。雖然它不建議這麼作(說實話我也不知道爲何),安裝時間會比較久,耐心等待就好了。
安裝好了之後,先新建一個demo目錄,爲了方便起見,咱們直接在桌面新建。按住Shift鍵同時點擊鼠標右鍵,再點擊在此處打開命令窗口(win10較新的版本里cmd被powershell取代了,因此出現的會是在此處打開powershell窗口,別擔憂,它們的功能是同樣的),而後輸入mkdir demo大數據

clipboard.png

而後在桌面上就會出現一個demo文件夾編碼

clipboard.png

而後在這裏下載wordcloud工具包,

clipboard.png

以前咱們下的是python3.6的版本,若是你的電腦是32位的,就選中倒數第二個,若是是64位的,就選擇最後一個。
下載後將這個.whl文件拖拽到你的demo文件夾裏。而後在命令行下,先執行

pip install wheel

再執行

pip install wordcloud-1.3.1-cp36-cp36m-win_amd64.whl

wordcloud-1.3.1-cp36-cp36m-win_amd64.whl就是你的下載下來的文件名,
這些步驟作完,咱們就完成了運行環境配置。

第二步:開始分析

先找到你要分析的文章,將其保存爲txt文件,好比我在網上摘取了一篇關於anaconda的介紹,將其保存爲anaconda.txt文件,

clipboard.png

而後在demo目錄下運行命令行jupyter notebook,打開jupyter編輯器。

clipboard.png

很快瀏覽器就會被打開,跳轉到這個界面

clipboard.png

點擊右上方的New,新建一個python3,而後瀏覽器就會打開一個新的頁面,用於輸入python代碼。

clipboard.png
clipboard.png

輸入

filename = "anaconda.txt"
with open(filename) as f:
 mytext = f.read()

按Shift+Enter 執行,注意:第三行mytext前面必定要有空格。

再輸入mytext,按Shift+Enter運行,就會看到txt裏的文本已經被保存到這個變量裏面來了。
圖片描述

而後調用咱們的wordcloud包,對mytext裏面存儲的文本進行詞雲分析。

from wordcloud import WordCloud
wordcloud = WordCloud().generate(mytext)

程序可能會報警,可是不會影響正常運行,直接忽略它就是了。

此時詞雲分析已經完成了,最後一步對分析結果進行可視化處理。

%pylab inline
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off"

奇蹟發生了

clipboard.png

咱們能夠在圖片上右鍵將其保存到本地。

clipboard.png

到這裏,一張詞雲就作好了。

wordcloud最核心的功能是對關鍵詞進行分析,出現頻率大的詞會用更大的字體對其進行顯示,除此以外,咱們還能夠自定義字體的顏色和詞雲的形狀,圖片的分辨率等等等等。可是咱們若是要對中文進行分析,還必需要藉助中文分詞技術。這裏就再也不贅述。

相關文章
相關標籤/搜索