Python爬蟲新手入門教學(六):製做詞雲圖

前言

本文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,若有問題請及時聯繫咱們以做處理。html

前文內容

Python爬蟲新手入門教學(一):爬取豆瓣電影排行信息網絡

Python爬蟲新手入門教學(二):爬取小說函數

Python爬蟲新手入門教學(三):爬取鏈家二手房數據post

Python爬蟲新手入門教學(四):爬取前程無憂招聘信息學習

Python爬蟲新手入門教學(五):爬取B站視頻彈幕字體

基本開發環境

  • Python 3.6
  • Pycharm

相關模塊的使用

  • jieba
  • wordcloud

安裝Python並添加到環境變量,pip安裝須要的相關模塊便可。spa

上篇文章爬取了B站視頻的彈幕數據,對於這方面能夠作一些彈幕詞雲分析,讓爬蟲數據再也不過於單調。code

代碼內容仍是很是簡介的,看註釋就能夠明白了視頻

import jieba
import wordcloud
# 讀取文件內容
f = open('彈幕.txt', encoding='utf-8')
txt = f.read()
# jiabe 分詞 分割詞彙
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 詞雲圖設置
wc = wordcloud.WordCloud(
        width=1000,         # 圖片的寬
        height=700,         # 圖片的高
        background_color='white',   # 圖片背景顏色
        font_path='msyh.ttc',    # 詞雲字體
        scale=15,
)
# 給詞雲輸入文字
wc.generate(string)
# 詞雲圖保存圖片地址
wc.to_file('out.png')

 

 


由上圖所示,有不少的這樣的 到位 這樣的關鍵詞,這樣的關鍵詞是沒有什麼實際意義的,咱們能夠在詞雲設置中設置 停用詞htm

stopwords={'到位'}

 

若是你想要輸入的圖片不是正方形的圖片,想要設置成本身想要的形狀,須要先找一張 透明圖
導入 imageio 模塊

import jieba
import wordcloud
import imageio
# 導入imageio庫中的imread函數,並用這個函數讀取本地圖片,做爲詞雲形狀圖片
py = imageio.imread('.\\0.jpg')  #  如何你想要改變詞雲圖的形狀,能夠添加
# 讀取文件內容
f = open('B站彈幕.txt', encoding='utf-8')
txt = f.read()
# jiabe 分詞 分割詞彙
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 詞雲圖設置
wc = wordcloud.WordCloud(
        width=1000,         # 圖片的寬
        height=700,         # 圖片的高
        background_color='white',   # 圖片背景顏色
        font_path='msyh.ttc',    # 詞雲字體
        mask=py,     # 所使用的詞雲圖片
        scale=15,
        stopwords={'到位'},         # 停用詞
        # contour_width=5,
        # contour_color='red'  # 輪廓顏色
)
# 給詞雲輸入文字
wc.generate(string)
# 詞雲圖保存圖片地址
wc.to_file('out.png')

 

 

相關文章
相關標籤/搜索