http://xlzd.me/2015/09/12/zhihu數據庫
玩知乎好久了,在知乎上學到很多知識,也學到很多抖機靈的技巧,知乎帶給我最大的回憶,xwx。做爲一個知乎重度用戶兼技術宅,簡單抓取了一下知乎的一點數據,力求看到一個儘量真實的知乎社區。服務器
知乎沒有能夠一頁一頁翻取用戶資料的列表頁,並且用戶首頁URL也沒有規律可循,徹底是用戶自定義的。考慮到我不許備拿下所有知乎用戶,只但願 取到一批質量不錯的優質用戶,個人抓取策略是這樣的:用一個知乎大牛入手,抓取他的關注列表,而後進入他的關注列表,抓取每一個人的資料後再抓取這這些人關 注的列表,依次走下去。學習
這裏我選取的入口是大名鼎鼎的輪子哥,輪子哥對我影響很深,甚至個人暱稱xlzd也是模仿他的vczh而來的。令我欣慰的是,從輪子哥的關注列表出去,幾分鐘以後就抓到了我本身的信息。
程序運行了3天,一共抓取了1,008,071用戶的數據,從他/她們的詳情頁獲取到每一個人的信息以後,又接入了FacePlusPlus的API,對每一個人的頭像進行了人臉識別。
對於數據抓取,恰好前幾天獲得一臺阿里雲的免費試用VPS,用來當作數據庫服務器,而後在個人樹莓派和洛杉磯用來FQ的VPS上分別部署了一個單線程的爬蟲。至於爲何是單線程的爬蟲,緣由有二:阿里雲
/people
下的數據,爬取太快容易被封。到今天下班前,阿里雲的機器立刻到期了,我停掉了全部爬蟲,從阿里雲導出了數據。如今先是一些簡單的統計信息。線程
知乎話題關注度top10:設計
知乎粉絲最多top3:code
從知乎的用戶地域分佈開始吧,下面是知乎的大概地理分佈信息:資源
北上廣深是知乎用戶最集中的地區了,大概是因爲知乎用戶大可能是計算機行業,而這幾個城市又是中國計算機行業最繁榮的城市了。部署
接着是知乎用戶的公司分佈狀況:get
除了學生羣體,知乎用戶的重要彙集地就是各大互聯網公司了。固然不難想象,學生羣體中,計算機相關專業也有着很是大的佔比。
下面的圖是知乎用戶職業TOP20:
很難想象,知乎用戶中的產品經理佔比居然如此之高!!!是程序猿沒有時間刷知乎,仍是當今互聯網已經發展到了一個程序猿接受N個產品經理的摧 殘,還請產品經理站出來講點什麼。另外一個使人意外的是,知乎居然有接近1.03%的用戶是CEO,1.407%的用戶是創始人或者聯合創始人,知乎做爲無 數國內社區中逼格最高的社區,當之無愧~~~剩下的TOP20榜中,幾乎被互聯網從業羣體包攬了。
而後接下來的這張圖是知乎用戶大學學校分佈圖:
由圖知,知乎用戶的受教育水平至關高,這也進一步夯實了其做爲逼格最高的中國互聯網社區。但是,在下這種沒有上過大學的互聯網搬磚民工,拿什麼跟大家一塊兒愉快的玩(zhuang)耍(bi)~~~
還有就是知乎用戶的專業分佈狀況:
計算機科學與技術和軟件工程穩穩地將其餘專業甩在了在可預見的未來沒法超越的遠方。壯哉~~~
最後是知乎用戶的性別分佈:
整體來看,知乎用戶男性居多,一小部分用戶沒有填寫性別。
廢話就不贅述啦,還要去喂熊呢。從上面的信息結合平常生活經驗,個人一些想法: