昨天的朋友圈都在喪心病狂的秀恩愛,秀520紅包!因而就有人出來普法教育。。。 api
今天逛微博的時候發現一個有趣的話題#90後單身緣由TOP3#echarts
七夕之際,一份針對全國90後青年婚戀觀進行抽樣調查公佈告終果。結果顯示,一線城市單身佔比持續領先。90後單身緣由TOP3:圈子小、工做忙、對愛情幻想過於完美。學習
單身的三大緣由:圈子小、工做忙、對愛情幻想過於完美!ui
豬哥以爲這三個緣由都並不合理,難道單身的緣由難道不是由於窮嗎?url
好奇這個調查是怎麼來的?真實性有待考證,恰好這幾天咱們也學習瞭如何爬取微博話題,今天就來驗證一下爲什麼如此優秀卻依然單身!.net
模擬登陸以前講爬取**#周杰倫超話#**的時候已經講過了,這裏就再也不重複,直接貼出代碼! 3d
咱們依然使用requests庫來爬取數據,此次豬哥在請求的時候增長了一個參數:timeout,這樣作是爲了防止請求某個一直沒有應答致使堵死其餘請求! code
要想提取微博內容就須要瞭解請求返回的數據格式 cdn
微博內容提取出來以後,咱們將他們保存起來! blog
批量爬取就涉及分頁,上次咱們將周杰倫超話時,它的分頁機制是:
微博超話分頁機制:根據時間分頁,每一條微博都有一個since_id,時間越大的since_id越大因此在請求時將since_id傳入,則會加載對應話題下比此since_id小的微博,而後又從新獲取最小since_id將最小since_id傳入,依次請求,這樣便實現分頁
那這個話題的分頁機制也是這樣的嗎?咱們來對比一下第一次請求於第二次請求的url
page形式的分頁機制,以前咱們講了不少個案例,直接for循環傳入i,而這個i就看成page就能夠啦!
數據分析咱們採用pyecharts庫
,這是一個很是好用的可視化分析庫!
pyecharts庫
作展現!
以前說你們單身的緣由是由於窮,看來只有豬哥窮!