圖 by:石頭@瀘沽湖python
關於做者: 程序猿石頭(ID: tangleithu),現任阿里巴巴技術專家,清華學渣,前大疆後端 Leader。 歡迎關注,交流和指導!
背景
就在昨天,一年一度的北京積分落戶結果出來了,咱們照舊來看看今年(2020年)的數據狀況。git
在看這篇文章以前,你能夠經過以下文章來獲得石頭是如何快速拿到這些數據分析結果的:程序員
數據能夠經過北京市人力資源和社會保障局官方網站下載獲取,關於2020年積分落戶公示及落戶辦理有關工做的通告。公示名單 形如:web
點擊每一項明細能夠得到積分具體數值,以最高分爲例:面試
而後,稍微動點小技巧便可獲取完整的 6032 條記錄。若你想獲取石頭初步處理後的 excel 數據,可直接後臺回覆 「2020積分落戶」 取得。編程
數據分析
輸入就是下載處理後的 csv,每行分別爲「姓名、出生年月、單位名稱、積分分值」。json
本文將從 積分分數分佈、公司分佈、年齡分佈 等幾個方面作簡單分析。後端
分數分佈
咱們來看看積分分佈狀況,大部分人積分分佈在 97~102 分之間。這個分數雖然沒有高考相差那麼誇張,但一個 0.01 也能相差很多人,好比有 98 人都得了 97.5 分。98.17 有 39 人,少 0.01 的 98.16 有 21 人。
➜ 積分落戶2020數據分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1 | head -n 10
98 97.50
84 97.25
80 97.33
73 97.17
72 97.21
67 98.50
66 98.00
61 97.46
57 98.46
54 97.13
➜ 積分落戶2020數據分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1 | grep 98.17
39 98.17
➜ 積分落戶2020數據分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1 | grep 98.16
21 98.16
➜ 積分落戶2020數據分析 git:(master) ✗
按照上次首批積分落戶數據分析 的老規矩,拿到這個文件,好比但願你用最快的方法得到如下信息,你將會怎麼作?
-
獲取取得戶口名額最多的top10公司 -
獲取取得戶口名額的人中姓氏最多的 -
獲取年齡分佈
固然,方法有不少,好比熟悉各類編程語言的,例如 python, php, java
等等寫個簡單的腳本程序,也能比較快獲取答案。或者把相應的數據提取出來,放到 excel 中也能夠。
若是你對 Shell 很熟悉,那真的是分分鐘,應該是秒秒鐘就能獲取答案。本文不對 Shell 具體每一個命令作過多的解釋,不熟悉的同窗能夠直接 man $cmd
或者 $cmd --help
等等查看。
以前我也寫過一篇名叫 Shell 助力開發效率提高 的文章,算是給經常使用的命令的經常使用參數作了一個解釋和示例,有興趣的同窗能夠前往查閱。顯然此次的輸入數據比上次 首批的 json 數據 更簡單。
獲取取得戶口名額最多的top10公司
直接awk
獲得公司名字,對結果進行sort
排序進行去重uniq
統計獲得重複次數,次時結果爲重複次數 公司名
,再對第一列-k 1
重複數字進行按照數字排序逆序-nr
即 sort -nr -k 1
,最後取結果的前10行 head -n 10
。
➜ 首批積分落戶 > grep 'unit' jifenluohu.json| cut -f2 -d: | sort | uniq -c | sort -nr -k 1 | head -n 10
137 "北京華爲數字技術有限公司"
73 "中央電視臺"
57 "北京首鋼建設集團有限公司"
55 "百度在線網絡技術(北京)有限公司"
48 "聯想(北京)有限公司"
40 "北京外企人力資源服務有限公司"
40 "中國民生銀行股份有限公司"
39 "國際商業機器(中國)投資有限公司"
29 "中國國際技術智力合做有限公司"
27 "華爲技術有限公司北京研究所"
➜ 積分落戶2020數據分析 git:(master) ✗ awk '{print $4}' 10000.csv |sort | uniq -c | sort -nr -k 1 | head -n 10
112 北京華爲數字技術有限公司
71 中央電視臺
28 北京外企人力資源服務有限公司
28 華爲技術有限公司北京研究所
27 中國石油自然氣股份有限公司管道北京輸油氣分公司
27 北京首鋼建設集團有限公司
24 中國建築第二工程局有限公司
24 騰訊科技(北京)有限公司
24 聯想(北京)有限公司
23 中國新華航空集團有限公司
對比上次的結果看, 「華爲」 又是榜首,中央電視臺又位列第二,百度下去了,騰訊起來了。(「北京外企人力資源服務有限公司」)掛靠在 FESCO 下的外企,仍然擠進前 10 了。
如下是有戶口指標前 50 的公司分佈,快看看你的公司是否在榜(完整公司排名名單請後臺回覆「2020積分落戶」獲取)。
獲取取得戶口名額的人中姓氏最多的
看看想經過積分落戶,最好是姓啥,哈哈。
看結果仍是姓 "張, 王" 之類的最有戲。😁
➜ 首批積分落戶 > grep '"name":' jifenluohu.json| sed 's|"name": "||g' | sed 's| ||g' | cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
541 張
531 王
462 李
376 劉
205 陳
193 楊
166 趙
132 孫
95 郭
95 徐
➜ 積分落戶2020數據分析 git:(master) ✗ awk '{print $2}' 10000.csv |cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
553 王
477 李
457 張
369 劉
173 陳
168 楊
165 趙
126 孫
114 周
100 吳
對比這個數據,才發現真的是很牛 X,前 10 名的姓氏中,只有兩個不同。估計這是否也符合整個中國的姓氏?哪裏能拿到這部分數據?能夠驗證一下。
爲了把石頭的姓氏「唐」找出來,取了前 50 個,發現像平時不怎麼常見的姓氏還能入圍前 50,仍是頗有意思的呢。好比「於」、「丁」等。
獲取戶口名字中叫啥名最流行
這個數據沒啥有意思的結論就不給了,看看重名的數據吧。
➜ 積分落戶2020數據分析 git:(master) ✗ awk '{print $2}' 10000.csv | sort | uniq -c | sort -nr -k 1 | head -n 10
9 王鵬
6 王偉
6 張穎
5 趙靜
5 石磊
5 王琳
5 王燕
5 王濤
5 王勇
5 孫濤
做爲碼農,必須得養成對本身獲得結果進行自測的習慣,因此若是對本身的結果不夠自信,能夠正向去計算一下最終的結果。
例如能夠簡單grep
一下進行驗證,叫 "王鵬" 的是否是9個。
➜ 積分落戶2020數據分析 git:(master) ✗ grep '王鵬' 10000.csv
202000543 王鵬飛 1979-02 北京航天發射技術研究所 104.09
202001150 王鵬 1980-03 中國扶貧基金會 101.80
202001449 王鵬 1972-10 北京匯衆博思信息科技有限公司 101.25
202002088 王鵬 1977-11 銀河航天(北京)通訊技術有限公司 100.42
202002114 王鵬 1977-05 《中國經濟週刊》雜誌社 100.38
202002753 王鵬 1976-11 北京睿馳青果科技有限公司 99.66
202003455 王鵬 1983-04 北京獨創股份有限公司 98.96
202003514 王鵬飛 1980-07 雲粒智慧科技有限公司 98.92
202003694 王鵬 1976-05 上海創景計算機系統有限公司北京辦事處 98.75
202003763 王鵬 1980-01 北京興慶房地產土地評估有限公司 98.71
202004190 王鵬 1980-09 北京歐拓技術有限公司 98.34
獲取年齡分佈
# 拿到出生年後, 直接經過 awk 計算結果輸出
➜ 首批積分落戶 > grep '"idCard":' jifenluohu.json| cut -f2 -d: | cut -c 9-12 |awk '{print 2019-$1}' | sort | uniq -c
3 34
13 35
39 36
109 37
162 38
302 39
507 40
773 41
799 42
813 43
757 44
586 45
507 46
378 47
238 48
4 49
9 50
1 51
4 52
3 53
2 54
5 55
1 56
1 58
1 59
1 60
1 61
➜ 積分落戶2020數據分析 git:(master) ✗ awk '{print $3}' 10000.csv | cut -f1 -d"-" |awk '{print 2020-$1}' | sort | uniq -c
1 32
3 35
30 36
83 37
290 38
468 39
644 40
741 41
808 42
751 43
636 44
507 45
365 46
329 47
108 48
107 49
85 50
27 51
6 52
10 53
9 54
8 55
6 56
5 57
3 58
2 59
上次數據最大 61 歲,最小 34 歲,今年最新的數據最小 32 歲,最大 59 歲。這個 32 歲的看來很牛 X。看看是誰?1988年出生。
➜ 積分落戶2020數據分析 git:(master) ✗ grep '1988' 10000.csv
202004964 XX磊 1988-07 中煤北京煤礦機械有限責任公司 97.71
這位 XX 磊同窗確實優秀,(太具體了不太好,隱藏部分吧),看詳細得分,由於有榮譽表彰 20 加分,查了下榮譽表彰指標裏的「省部級及以上勞模」分爲四類:全國勞模、享受全國勞模待遇人員、省部級勞模、享受省部級勞模待遇人員。
年齡分佈以下所示,主要仍是集中在 38 ~ 47 歲之間。
其餘
此次的數據就先分享到這裏,若是你有興趣,能夠到網站上採集更多數據(例如各項分數的明細,例如教育背景、合法穩定就業住所等)進行分析。
另外,若是你想計算一下本身能得到多少分,能夠直接到官網網站進行計算,地址爲:http://fuwu.rsj.beijing.gov.cn/integraltool/tool/simulation
後記
以爲本號分享的文章有價值,記得添加星標哦。周更很累,不要白 piao,須要來點正反饋,安排個 「一鍵三連」(點贊、在看、分享)如何?😝 這將是我持續輸出優質文章的最強動力。
快快加入咱們——「阿里雲-ECS/神龍計算平臺」 招人啦
沒想到 Shell 命令居然還能這麼玩?| Shell 玩轉大數據分析
程序猿石頭
程序猿石頭(ID: tangleithu),現任阿里巴巴技術專家,清華學渣,前大疆後端 Leader。用不一樣的視角分享高質量技術文章,以每篇文章都讓人有收穫爲目的,歡迎關注,交流和指導!掃碼回覆關鍵字 「1024」 獲取程序員大廠面試指南。
本文分享自微信公衆號 - 程序猿石頭(tangleithu)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。