原文連接:https://zhuanlan.zhihu.com/p/92768131?utm_source=tuicool&utm_medium=referral編程
知乎,能夠說是國內目前最大的問答類社區。與微博、貼吧等產品不一樣,知乎上面的內容更可能是用戶針對特定的問題分享知識、經驗和看法。我們編程教室就有很多讀者是從知乎上了解到咱們的。學習
那麼,知乎上都有哪些「大V」用戶?普通用戶喜歡關注哪方面內容?咱們利用 Python 對知乎上的部分信息進行了個採集,作了一份簡單的統計。網站
這個統計也是咱們用 Python 作網站數據分析系列的一部分,是 Python 爬蟲和數據可視化的典型案例。代碼、詳細說明文檔、數據均已上傳,獲取方式見文末,對這方面感興趣的朋友可下載查閱。ui
另外要說明的是,這個項目的代碼由實訓生 清風小築 完成於今年7月,因此並不是最新數據,主要是思路的學習討論,結果僅供參考。blog
首先給你們看的是知乎上粉絲數前50用戶的關係圖:文檔
圖中的線是用戶之間的相互關注的關係。這三張圖的差異只在圓圈的大小上,依次分別表明:粉絲數、連入度(被圖中其餘人關注的數量)、連出度(關注圖中其餘人的數量)數據分析
比較明顯的是,像知乎日報、劉看山、丁香醫生這類普通用戶關注較多的「機構號」,在大V中的受關注度並不高。產品
這張圖是經過一個叫作 Gephi 的軟件,基於 Python 採集下來的數據作出來的。其中圈的顏色是 Gephi 根據關聯關係自動聚合的結果。(參考以前漫威角色關係分析文章)微博
在知乎這個案例中,「陣營」的劃分並不像漫威那麼明顯,但能夠發現機構號基本都被歸在了一類,說明關注行爲有必定的類似性(張佳瑋躺槍)。社區
知乎的四大指標:關注、贊同、感謝、收藏。咱們分別看下以不一樣指標排行的「頭部用戶」:
其中,張佳瑋能夠說是很是突出了。(這個名字好熟悉……還記得以前的虎撲分析嗎?)
官方收錄回答數,張佳瑋仍是遙遙領先,收錄文章數也榜上有名。
若是不論質量,僅看數量的話:
知乎於2010年12月20日上線,到今年7月31日共3145天,輪子哥vzch平均天天要回答7個問題以上(懷疑給他發工資的是微軟仍是知乎……),而太平洋電腦網則平均天天發表12.8篇文章,真是有夠努力!
把這幾組數據合成了兩張三維散點圖:
圖中選取的數據爲關注數大於1萬的用戶。在項目裏有能夠交互的網頁版本,能夠更直觀的查看這個分佈圖。
上面幾張圖是對目前關注數超10萬的用戶的歷史發佈數據進行的統計。從圖上來看,2015年大V們更熱衷於回答,後來則大都改去寫專欄文章了。從趨勢來看,彷佛大V們發文的頻率已再也不增加。不過這並不能直接推斷知乎的總體熱度,也可能內容的產出更分散於不一樣用戶了呢?這就只有知乎官方纔有權威數據了。
這些關注度最高專欄和收藏夾,裏面有你關注的嗎?
最後,這是一個以關注數超1萬的用戶的我的簡介作出來的詞雲:
以上就是咱們對於知乎公開數據作的一些分析。除此以外,咱們以前還作了一個按期更新的知乎大V動態排行,歡迎查看。