對排名前3000位博主進行數據分析

數據分析

熱門博主

這裏是在2017-05-20晚上爬取按照積分排名前3000位的博主,本文是在3000條博主的用戶信息,23萬條博主的活動信息的基礎上進行數據分析的,此數據基於學習的目的,不用於商業目的;框架

原本打算對具體動態信息作個排名,不過考慮到可能會涉及隱私,因此放棄,全文分析均爲宏觀分析;學習

各個博主的出生地

3000位博主中,只有546位填了家鄉,比例爲18%;博客

能夠看的出來,湖北和河南的人數最多,廣東四川北京山東屬於第二梯隊;數據分析

各個博主的現居住地

3000位博主中,只有802位填了如今的居住地,比例爲27%;基礎

能夠發現,這個時候,博主的工做地點變成了IT比較發達的省份,像是北京,廣東,浙江,上海,四川;軟件

各個園齡所佔的人數

大部分在博客園的時間在4-12年的時間,其中5年最多騰訊

工做職位的統計

206人填了信息,比例爲7%軟件工程

這裏取的是排名前20位的職位,其中由於描述的不一樣致使結果存在些許不一樣,但能夠發現其中軟件工程師居多方法

工做單位的統計

116人填了信息,5個騰訊,2個Autodesk,2個武漢大學,其他均不重複,其中100人在工做,16人在大學im

上一次發佈博客的時間

1258個日子,最近一天爲2017-05-20,最遠一天爲2005-04-14

其中越靠後代表上一次發佈博客的時間離如今越近,不過不難發現依然存在挺多的人上次發佈博客的時間離如今比較遠。

多少人進行了遷移(出生地跑到現居住地)

395人,此方法是按照出生地不等於如今居住地計算得出

結婚

107人填了信息,佔總體比例爲4%

單身比例最高,佔了將近2/3,已婚次之

動態信息分佈

發表話題和博客佔用比例大致至關

分數平均值

以300爲單位

能夠發現,前300名大幅拉開和後面的差距

博客數量和分數、粉絲的關係

博客數量和分數並非一個線性關係,代表並非發表的博客數量越高分數就越高,不過貌似粉絲數量和分數存在些許關係。

總結

這個項目是我在工做之餘花了一週的時間一變學習一邊寫出來的,其利用Scrapy爬蟲框架來實現,過程當中也走了些彎路,基本都是靠不停的查找資料來解決問題。項目並不困難,數據分析也比較簡單,在後面能夠加上詞頻分析等等,不過由於最近要開始找工做了,因此暫時要放置一段時間了。

文中若是有錯誤,請及時指出。

相關文章
相關標籤/搜索