本文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,若有問題請及時聯繫咱們以做處理。html
Python爬蟲新手入門教學(一):爬取豆瓣電影排行信息網絡
Python爬蟲新手入門教學(三):爬取鏈家二手房數據post
Python爬蟲新手入門教學(四):爬取前程無憂招聘信息學習
安裝Python並添加到環境變量,pip安裝須要的相關模塊便可。spa
上篇文章爬取了B站視頻的彈幕數據,對於這方面能夠作一些彈幕詞雲分析,讓爬蟲數據再也不過於單調。code
代碼內容仍是很是簡介的,看註釋就能夠明白了視頻
import jieba import wordcloud # 讀取文件內容 f = open('彈幕.txt', encoding='utf-8') txt = f.read() # jiabe 分詞 分割詞彙 txt_list = jieba.lcut(txt) string = ' '.join(txt_list) # 詞雲圖設置 wc = wordcloud.WordCloud( width=1000, # 圖片的寬 height=700, # 圖片的高 background_color='white', # 圖片背景顏色 font_path='msyh.ttc', # 詞雲字體 scale=15, ) # 給詞雲輸入文字 wc.generate(string) # 詞雲圖保存圖片地址 wc.to_file('out.png')
由上圖所示,有不少的這樣的 到位 這樣的關鍵詞,這樣的關鍵詞是沒有什麼實際意義的,咱們能夠在詞雲設置中設置 停用詞htm
stopwords={'到位'}
若是你想要輸入的圖片不是正方形的圖片,想要設置成本身想要的形狀,須要先找一張 透明圖
導入 imageio 模塊
import jieba import wordcloud import imageio # 導入imageio庫中的imread函數,並用這個函數讀取本地圖片,做爲詞雲形狀圖片 py = imageio.imread('.\\0.jpg') # 如何你想要改變詞雲圖的形狀,能夠添加 # 讀取文件內容 f = open('B站彈幕.txt', encoding='utf-8') txt = f.read() # jiabe 分詞 分割詞彙 txt_list = jieba.lcut(txt) string = ' '.join(txt_list) # 詞雲圖設置 wc = wordcloud.WordCloud( width=1000, # 圖片的寬 height=700, # 圖片的高 background_color='white', # 圖片背景顏色 font_path='msyh.ttc', # 詞雲字體 mask=py, # 所使用的詞雲圖片 scale=15, stopwords={'到位'}, # 停用詞 # contour_width=5, # contour_color='red' # 輪廓顏色 ) # 給詞雲輸入文字 wc.generate(string) # 詞雲圖保存圖片地址 wc.to_file('out.png')