一年一度的虐狗節終於過去了,朋友圈各類曬,曬自拍,曬娃,曬美食,秀恩愛的。程序員在曬什麼,程序員在加班。可是禮物仍是少不了的,送什麼好?做爲程序員,我準備了一份特別的禮物,用以往發的微博數據打造一顆「愛心」,我想她必定會感動得哭了吧。哈哈html
有了想法以後就開始行動了,天然最早想到的就是用 Python 了,大致思路就是把微博數據爬下來,數據通過清洗加工後再進行分詞處理,處理後的數據交給詞雲工具,配合科學計算工具和繪圖工具製做成圖像出來,涉及到的工具包有:python
requests 用於網絡請求爬取微博數據,結巴分詞進行中文分詞處理,詞雲處理庫 wordcloud,圖片處理庫 Pillow,科學計算工具 NumPy ,相似於 MATLAB 的 2D 繪圖庫 Matplotlib 程序員
安裝這些工具包時,不一樣系統平臺有可能出現不同的錯誤,wordcloud,requests,jieba 均可以經過普通的 pip 方式在線安裝,json
pip install wordcloud
pip install requests
pip install jieba複製代碼
在Windows 平臺安裝 Pillow,NumPy,Matplotlib 直接用 pip 在線安裝會出現各類問題,推薦的一種方式是在一個叫 Python Extension Packages for Windows 1 的第三方平臺下載 相應的 .whl 文件安裝。能夠根據本身的系統環境選擇下載安裝 cp27 對應 python2.7,amd64 對應 64 位系統。下載到本地後進行安裝api
pip install Pillow-4.0.0-cp27-cp27m-win_amd64.whl
pip install scipy-0.18.0-cp27-cp27m-win_amd64.whl
pip install numpy-1.11.3+mkl-cp27-cp27m-win_amd64.whl
pip install matplotlib-1.5.3-cp27-cp27m-win_amd64.whl複製代碼
其餘平臺可根據錯誤提示 Google 解決。或者直接基於 Anaconda 開發,它是 Python 的一個分支,內置了大量科學計算、機器學習的模塊 。瀏覽器
新浪微博官方提供的 API 是個渣渣,只能獲取用戶最新發布的5條數據,退而求其次,使用爬蟲去抓取數據,抓取前先評估難度,看看是否有人寫好了,在GitHub逛了一圈,基本沒有知足需求的。卻是給我提供了一些思路,因而決定本身寫爬蟲。使用 m.weibo.cn/ 移動端網址去爬取數據。發現接口 m.weibo.cn/index/my?fo… 能夠分頁獲取微博數據,並且返回的數據是 json 格式,這樣就省事不少了,不過該接口須要登陸後的 cookies 信息,登陸本身的賬號就能夠經過 Chrome 瀏覽器 找到 Cookies 信息。cookie
實現代碼:網絡
def fetch_weibo():
api = "http://m.weibo.cn/index/my?format=cards&page=%s"
for i in range(1, 102):
response = requests.get(url=api % i, cookies=cookies)
data = response.json()[0]
groups = data.get("card_group") or []
for group in groups:
text = group.get("mblog").get("text")
text = text.encode("utf-8")
text = cleanring(text).strip()
yield text複製代碼
查看微博的總頁數是101,考慮到一次性返回一個列表對象太費內存,函數用 yield 返回一個生成器,此外還要對文本進行數據清洗,例如去除標點符號,HTML 標籤,「轉發微博」這樣的字樣。python2.7
數據獲取以後,咱們要把它離線保存起來,方便下次重複使用,避免重複地去爬取。使用 csv 格式保存到 weibo.csv 文件中,以便下一步使用。數據保存到 csv 文件中打開的時候可能爲亂碼,不要緊,用 notepad++查看不是亂碼。機器學習
def write_csv(texts):
with codecs.open('weibo.csv', 'w') as f:
writer = csv.DictWriter(f, fieldnames=["text"])
writer.writeheader()
for text in texts:
writer.writerow({"text": text})
def read_csv():
with codecs.open('weibo.csv', 'r') as f:
reader = csv.DictReader(f)
for row in reader:
yield row['text']複製代碼
從 weibo.csv 文件中讀出來的每一條微博進行分詞處理後再交給 wordcloud 生成詞雲。結巴分詞適用於大部分中文使用場景,使用中止詞庫 stopwords.txt 把無用的信息(好比:的,那麼,由於等)過濾掉。
def word_segment(texts):
jieba.analyse.set_stop_words("stopwords.txt")
for text in texts:
tags = jieba.analyse.extract_tags(text, topK=20)
yield " ".join(tags)複製代碼
數據分詞處理後,就能夠給 wordcloud 處理了,wordcloud 根據數據裏面的各個詞出現的頻率、權重按比列顯示關鍵字的字體大小。生成方形的圖像,如圖:
是的,生成的圖片毫無美感,畢竟是要送人的也要拿得出手纔好炫耀對吧,那麼咱們找一張富有藝術感的圖片做爲模版,臨摹出一張漂亮的圖出來。我在網上搜到一張「心」型圖:
生成圖片代碼:
def generate_img(texts):
data = " ".join(text for text in texts)
mask_img = imread('./heart-mask.jpg', flatten=True)
wordcloud = WordCloud(
font_path='msyh.ttc',
background_color='white',
mask=mask_img
).generate(data)
plt.imshow(wordcloud)
plt.axis('off')
plt.savefig('./heart.jpg', dpi=600)複製代碼
須要注意的是處理時,須要給 matplotlib 指定中文字體,不然會顯示亂碼,找到字體文件夾:C:\Windows\Fonts\Microsoft YaHei UI複製該字體,拷貝到 matplotlib 安裝目錄:C:\Python27\Lib\site-packages\matplotlib\mpl-data\fonts\ttf 下
差很少就這樣。
當我自豪地把這張圖發給她的時候,出現了這樣的對話:
這是什麼?
我:愛心啊,親手作的
這麼專業,好感動啊,你的眼裏只有 python ,沒有我 (哭笑)
我:明明是「心」中有 python 啊
我好像說錯了什麼,哈哈哈。
完整代碼能夠在公衆號回覆"h"下載。
本文首發於公衆號『一個程序員的微站』(id:VTtalk),分享 Python 乾貨和有溫度的內容
博客地址:foofish.net/python-hear…