七夕事後,你分析過本身單身緣由的緣由嗎?

昨天的朋友圈都在喪心病狂的秀恩愛,秀520紅包!因而就有人出來普法教育。。。 api

在這裏插入圖片描述
但是不少老鐵連發紅包的機會都沒有。。。
在這裏插入圖片描述
爲何這麼多如此優秀的同窗都仍是單身呢?

1、需求背景

今天逛微博的時候發現一個有趣的話題#90後單身緣由TOP3#echarts

七夕之際,一份針對全國90後青年婚戀觀進行抽樣調查公佈告終果。結果顯示,一線城市單身佔比持續領先。90後單身緣由TOP3:圈子小、工做忙、對愛情幻想過於完美學習

單身的三大緣由:圈子小、工做忙、對愛情幻想過於完美!ui

豬哥以爲這三個緣由都並不合理,難道單身的緣由難道不是由於窮嗎?url

2、功能描述

好奇這個調查是怎麼來的?真實性有待考證,恰好這幾天咱們也學習瞭如何爬取微博話題,今天就來驗證一下爲什麼如此優秀卻依然單身!.net

3、技術方案

  1. 模擬登陸微博
  2. 爬取話題
  3. 保存文件
  4. 數據清洗
  5. 數據分析

4、模擬登陸

模擬登陸以前講爬取**#周杰倫超話#**的時候已經講過了,這裏就再也不重複,直接貼出代碼! 3d

在這裏插入圖片描述

5、爬取話題

1.找到話題加載數據url

在這裏插入圖片描述
m.weibo.cn/api/contain…

2.代碼模擬請求數據

咱們依然使用requests庫來爬取數據,此次豬哥在請求的時候增長了一個參數:timeout,這樣作是爲了防止請求某個一直沒有應答致使堵死其餘請求! code

在這裏插入圖片描述

3.提取微博內容

要想提取微博內容就須要瞭解請求返回的數據格式 cdn

在這裏插入圖片描述
瞭解數據格式以後咱們就能夠寫代碼提取咱們想要的微博內容啦!
在這裏插入圖片描述
上圖咱們已經拿到微博內容,可是還有不少網頁標籤,咱們來用正則將網頁標籤去掉,和開頭的話題開頭!
在這裏插入圖片描述

4.保存文件

微博內容提取出來以後,咱們將他們保存起來! blog

在這裏插入圖片描述

6、批量爬取

批量爬取就涉及分頁,上次咱們將周杰倫超話時,它的分頁機制是:

微博超話分頁機制:根據時間分頁,每一條微博都有一個since_id,時間越大的since_id越大因此在請求時將since_id傳入,則會加載對應話題下比此since_id小的微博,而後又從新獲取最小since_id將最小since_id傳入,依次請求,這樣便實現分頁

那這個話題的分頁機制也是這樣的嗎?咱們來對比一下第一次請求於第二次請求的url

在這裏插入圖片描述
咱們發現普通話題的分頁機制居然是 page的形式, 看來微博對不一樣級別的話題有不一樣的分頁機制!

page形式的分頁機制,以前咱們講了不少個案例,直接for循環傳入i,而這個i就看成page就能夠啦!

在這裏插入圖片描述

7、數據分析

數據分析咱們採用pyecharts庫,這是一個很是好用的可視化分析庫!

在這裏插入圖片描述
先讀取數據,而後使用jieba庫進行分詞和數據清洗,最後使用 pyecharts庫作展現!
在這裏插入圖片描述
以前調查結果顯示單身的三大緣由是: 圈子小、工做忙、對愛情幻想過於完美。在咱們數據分析得出的結果好像確實如此!

以前說你們單身的緣由是由於窮,看來只有豬哥窮!

相關文章
相關標籤/搜索