簡書上有哪些優質用戶?有多少大V粉絲數上萬,獲贊數上萬?小透明的本身能排到多少位?大V之間相互關注狀況如何?簽約做者有多少人......學習
我想要了解這些問題,因而便有了本文。url
以《簡書=雞湯?爬取今日看點數據:1916篇簡書熱門文章可視化》項目裏獲取的,貢獻了1916篇熱門文章的共計799名用戶的ID,做爲種子ID,爬取各自關注列表裏的用戶信息,再爬取關注者的關注者,如此幾層下去,便能獲取到幾十萬乃至上百萬條用戶信息及彼此的關注狀況。3d
因爲簡書官方對數據有所保護和限制,僅能獲取單個用戶的900名關注者(粉絲亦然)。對於關注數小於900的天然能所有獲取;而大於900的就只有不完整的數據。cdn
在經過2-3層數據爬取後,共得到261277條用戶信息,具體數據有:用戶名、主頁url、是否爲簽約做者、粉絲數、獲贊數、關注數、文章數、總字數等等:blog
爬取799個種子ID(記爲第0層,圖中因爲數量級偏小,因此看不到出來柱形圖的圖案)各自的關注者,獲得第1層47601條總ID數據(含重複ID),新增19526個淨ID;再根據第1層新增的淨ID,爬取其關注者,獲得第2層1239366(約124w+)條總ID數據,新增189921個淨ID;再根據第2層新增的淨ID,爬取了部分ID的關注者,獲得第3層391762條總ID數據,新增53677個淨ID。get
因爲時間限制,沒有再繼續爬取下去,僅獲取了上述共261277條數據。由上圖可知,雖然一層層的爬取關注者,總ID數在第2層便突破了百萬級別,但新增的用戶ID增加並無那麼快,這說明被關注的用戶重複出現,他/她們得到了普遍的關注,於是能夠視爲較優質的用戶。it
有了26萬多條數據後,先來看看這些用戶各自都有多少粉絲,藉此來看看每個人大概的排名是多少。io
繪製成金字塔圖後可知,這26w+用戶裏:粉絲數大於10w+的有5人,依次爲:@劉淼、@簡黛玉、@彭小六、@簡書播客、@江昭和,均是萬中挑一的人物;其餘各梯度人數看圖便可,再也不贅述。值得一提的是粉絲數10-100區間的人數佔比最大,爲40.38%,而非0粉或1粉的用戶,這進一步說明了本次本次爬取的數據較爲優質。與《爬取張佳瑋138w+知乎關注者:數據可視化》一文中張佳瑋138w+知乎關注者中0粉佔比29.18%,1-10粉佔比55.49%,二者相加用戶數已超過116w+,兩相對比,更能說明上述問題:ast
另外這26w+用戶裏0粉的有784人,論理本次爬取時能被爬取到的都起碼有一個粉絲,要否則不符合上述爬取的思路,但這裏卻發現不只有0粉的,甚至有十來個用戶粉絲數爲負數,不知道是否是簡書的BUG,去他們的主頁查看,發現確實顯示的是負數,可是又明明有粉絲???class
知道了各個梯度(區間)用戶的數量和佔比,天然也就能知道每一個人的大體排名。以我自身爲例,粉絲數480人,排名4140,爲前1.6%。還有很大的努力空間。再將全部用戶粉絲分佈狀況繪製成瀑布圖,更能給全部奮筆疾書、努力寫做和輸出的人不斷漲粉後躍遷、上升的直觀感受。
接下來再看看各類TOP 10的榜單:
所有用戶平均粉絲數爲79人。全靠下面的大V帶飛。
一、劉淼:178262;二、簡黛玉:177047;
三、彭小六:139994;四、簡書播客:138836;
五、江昭和:133940;六、簡叔:89629;
七、韓大爺的雜貨鋪:88845;八、Sir電影:88840;
九、飽醉豚:86540;十、我帶爸爸看世界:77153;
所有用戶平均獲贊數爲102個。大V每天見。
一、彭小六:222734;二、韓大爺的雜貨鋪:131250;
三、簡黛玉:124723;四、Sir電影:83485;
五、衷曲無聞:81205;六、懷左同窗:80567;
七、剽悍一隻貓:79558;八、安梳顏:74808;
九、顧一宸:69015;十、陶瓷兔子:66527;
活捉十隻關注狂魔!所有用戶平均關注數爲25人。拖後腿系列
一、臨川人:12878;二、桐子樹下:10624;
三、阿立斯本:7807;四、陳三白:6651;
五、WEFG_jakerfenG:174;六、欣悅生化:6168;
七、Athena79:5434;八、曾培然:5107;
九、有領uullnn:5086;十、MasterKang:5035;
全部用戶平均文章數爲14篇。恰好達標。
一、絕塵:2150;二、幸運的貝殼:1834;
三、孤鳥差魚:1731;四、淡定之龍的傳人:1587;
五、Sir電影:1582;六、郭相麟:1455;
七、鴨梨山大哎:1364;八、炫彬:1360;
九、葡萄喃喃囈語:1354;十、軍旗獵獵:1330;
全部用戶平均總字數爲16750。emmmmmm.
一、愛可可_愛生活:5953371;二、絕塵:4357012;
三、Sir電影:3948118;四、王邑塵:3566126;
五、Sting:3412810;六、詩之源:3337821;
七、優雅愛敵:2716884;八、柳志儒:2512482;
九、掘金官方:2483024;十、軍旗獵獵:2429342;
3.6 獲贊數/文章數前十
一、一棵花白:7517.5;二、冰冷鑽戒:4650;
三、Gosmy:3917;四、該號已廢:3751;
五、二十初仲夏的樹:3616.85;六、米洛在波士頓:3483;
七、Gibson:2973;八、Mr楠先生:2540;
九、南調北征:2419;十、她好酷的:2391;
不少人都以成爲簽約做者做爲本身寫做努力的方向,那麼簡書到底有多少名簽約做者呢?在這26w+較優質用戶裏,共有126人的主頁上明確地掛有「簽約做者」的標籤。爲何這麼說呢,是簽約做者就是,不是就不是,難道主頁上沒有標籤的用戶也多是「簽約做者」不成?!
這個好像還真的有可能。具體有待探究。後續會繼續研究下「簽約做者」這個羣體。目前已經另外爬取@簽約做者文章合集專題裏的3141篇文章,發現該專題裏簽約做者依舊小於150人,其中很多人目前主頁上並無顯示標籤。去掉和上面126名重複的用戶後也不到200人,所以推測簡書總共的簽約做者不到200人,雖然根據爬取的數據顯示,不少人的粉絲數、喜歡數、文章數等都已經符合申請要求了。
一、後續會繼續研究下「簽約做者」這一羣體;
二、學習下用D3.js怎麼繪製大V們相互關注的狀況;
三、一樣的會用《爬取張佳瑋138w+知乎關注者:數據可視化》中獲取的較優質的用戶ID做爲種子ID,用本文相同的爬取思路,去獲取更多知乎大V的數據。