2020 北京積分落戶結果公示,落戶指標最多的公司居然又是 ?

點擊上方藍色字體,關注我 ——
php

一個在阿里雲打工的清華學渣!java


圖 by:石頭@瀘沽湖python

關於做者: 程序猿石頭(ID: tangleithu),現任阿里巴巴技術專家,清華學渣,前大疆後端 Leader。 歡迎關注,交流和指導!

背景

就在昨天,一年一度的北京積分落戶結果出來了,咱們照舊來看看今年(2020年)的數據狀況。git

在看這篇文章以前,你能夠經過以下文章來獲得石頭是如何快速拿到這些數據分析結果的:程序員

數據能夠經過北京市人力資源和社會保障局官方網站下載獲取,關於2020年積分落戶公示及落戶辦理有關工做的通告。公示名單 形如:web

2020 年積分落戶公式名單

點擊每一項明細能夠得到積分具體數值,以最高分爲例:面試

2020積分落戶最高分明細

而後,稍微動點小技巧便可獲取完整的 6032 條記錄。若你想獲取石頭初步處理後的 excel 數據,可直接後臺回覆 「2020積分落戶」 取得。編程

數據分析

輸入就是下載處理後的 csv,每行分別爲「姓名、出生年月、單位名稱、積分分值」。json

本文將從 積分分數分佈、公司分佈、年齡分佈 等幾個方面作簡單分析。後端

2020年積分落戶數據 CSV

分數分佈

咱們來看看積分分佈狀況,大部分人積分分佈在 97~102 分之間。這個分數雖然沒有高考相差那麼誇張,但一個 0.01 也能相差很多人,好比有 98 人都得了 97.5 分。98.17 有 39 人,少 0.01 的 98.16 有 21 人。

➜  積分落戶2020數據分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1  | head -n 10
  98 97.50
  84 97.25
  80 97.33
  73 97.17
  72 97.21
  67 98.50
  66 98.00
  61 97.46
  57 98.46
  54 97.13
➜  積分落戶2020數據分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1  | grep 98.17
  39 98.17
➜  積分落戶2020數據分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1  | grep 98.16
  21 98.16
➜  積分落戶2020數據分析 git:(master) ✗ 

2020 年北京積分落戶積分分佈

按照上次首批積分落戶數據分析 的老規矩,拿到這個文件,好比但願你用最快的方法得到如下信息,你將會怎麼作?

  • 獲取取得戶口名額最多的top10公司
  • 獲取取得戶口名額的人中姓氏最多的
  • 獲取年齡分佈

固然,方法有不少,好比熟悉各類編程語言的,例如 python, php, java 等等寫個簡單的腳本程序,也能比較快獲取答案。或者把相應的數據提取出來,放到 excel 中也能夠。

若是你對 Shell 很熟悉,那真的是分分鐘,應該是秒秒鐘就能獲取答案。本文不對 Shell 具體每一個命令作過多的解釋,不熟悉的同窗能夠直接 man $cmd 或者 $cmd --help 等等查看。

以前我也寫過一篇名叫 Shell 助力開發效率提高 的文章,算是給經常使用的命令的經常使用參數作了一個解釋和示例,有興趣的同窗能夠前往查閱。顯然此次的輸入數據比上次 首批的 json 數據 更簡單。

獲取取得戶口名額最多的top10公司

直接awk 獲得公司名字,對結果進行sort排序進行去重uniq統計獲得重複次數,次時結果爲重複次數 公司名,再對第一列-k 1重複數字進行按照數字排序逆序-nr 即 sort -nr -k 1,最後取結果的前10行 head -n 10

➜  首批積分落戶  > grep 'unit' jifenluohu.json| cut -f2 -d: | sort | uniq -c | sort -nr -k 1 | head -n 10
 137  "北京華爲數字技術有限公司"
  73  "中央電視臺"
  57  "北京首鋼建設集團有限公司"
  55  "百度在線網絡技術(北京)有限公司"
  48  "聯想(北京)有限公司"
  40  "北京外企人力資源服務有限公司"
  40  "中國民生銀行股份有限公司"
  39  "國際商業機器(中國)投資有限公司"
  29  "中國國際技術智力合做有限公司"
  27  "華爲技術有限公司北京研究所"
  
  ➜  積分落戶2020數據分析 git:(master) ✗ awk '{print $4}' 10000.csv |sort | uniq -c | sort -nr -k 1 | head -n 10
 112 北京華爲數字技術有限公司
  71 中央電視臺
  28 北京外企人力資源服務有限公司
  28 華爲技術有限公司北京研究所
  27 中國石油自然氣股份有限公司管道北京輸油氣分公司
  27 北京首鋼建設集團有限公司
  24 中國建築第二工程局有限公司
  24 騰訊科技(北京)有限公司
  24 聯想(北京)有限公司
  23 中國新華航空集團有限公司

對比上次的結果看, 「華爲」 又是榜首,中央電視臺又位列第二,百度下去了,騰訊起來了。(「北京外企人力資源服務有限公司」)掛靠在 FESCO 下的外企,仍然擠進前 10 了。

如下是有戶口指標前 50 的公司分佈,快看看你的公司是否在榜(完整公司排名名單請後臺回覆「2020積分落戶」獲取)。

2020年北京積分落戶公司分佈

獲取取得戶口名額的人中姓氏最多的

看看想經過積分落戶,最好是姓啥,哈哈

看結果仍是姓 "張, 王" 之類的最有戲。😁

➜  首批積分落戶  > grep '"name":' jifenluohu.json| sed 's|"name": "||g' | sed 's| ||g' | cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
 541 張
 531 王
 462 李
 376 劉
 205 陳
 193 楊
 166 趙
 132 孫
  95 郭
  95 徐
  
➜  積分落戶2020數據分析 git:(master) ✗ awk '{print $2}' 10000.csv |cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
 553 王
 477 李
 457 張
 369 劉
 173 陳
 168 楊
 165 趙
 126 孫
 114 周
 100 吳  

對比這個數據,才發現真的是很牛 X,前 10 名的姓氏中,只有兩個不同。估計這是否也符合整個中國的姓氏?哪裏能拿到這部分數據?能夠驗證一下。

2020北京積分落戶姓氏分佈

爲了把石頭的姓氏「唐」找出來,取了前 50 個,發現像平時不怎麼常見的姓氏還能入圍前 50,仍是頗有意思的呢。好比「於」、「丁」等。

獲取戶口名字中叫啥名最流行

這個數據沒啥有意思的結論就不給了,看看重名的數據吧

➜  積分落戶2020數據分析 git:(master) ✗ awk '{print $2}' 10000.csv  | sort | uniq -c | sort -nr -k 1 | head -n 10
   9 王鵬
   6 王偉
   6 張穎
   5 趙靜
   5 石磊
   5 王琳
   5 王燕
   5 王濤
   5 王勇
   5 孫濤

做爲碼農,必須得養成對本身獲得結果進行自測的習慣,因此若是對本身的結果不夠自信,能夠正向去計算一下最終的結果。

例如能夠簡單grep一下進行驗證,叫 "王鵬" 的是否是9個。

➜  積分落戶2020數據分析 git:(master) ✗ grep '王鵬' 10000.csv
202000543 王鵬飛 1979-02 北京航天發射技術研究所 104.09
202001150 王鵬 1980-03 中國扶貧基金會 101.80
202001449 王鵬 1972-10 北京匯衆博思信息科技有限公司 101.25
202002088 王鵬 1977-11 銀河航天(北京)通訊技術有限公司 100.42
202002114 王鵬 1977-05 《中國經濟週刊》雜誌社 100.38
202002753 王鵬 1976-11 北京睿馳青果科技有限公司 99.66
202003455 王鵬 1983-04 北京獨創股份有限公司 98.96
202003514 王鵬飛 1980-07 雲粒智慧科技有限公司 98.92
202003694 王鵬 1976-05 上海創景計算機系統有限公司北京辦事處 98.75
202003763 王鵬 1980-01 北京興慶房地產土地評估有限公司 98.71
202004190 王鵬 1980-09 北京歐拓技術有限公司 98.34

獲取年齡分佈

# 拿到出生年後, 直接經過 awk 計算結果輸出
➜  首批積分落戶  > grep '"idCard":' jifenluohu.json| cut -f2 -d: | cut -c 9-12 |awk '{print 2019-$1}' | sort | uniq -c
   3 34
  13 35
  39 36
 109 37
 162 38
 302 39
 507 40
 773 41
 799 42
 813 43
 757 44
 586 45
 507 46
 378 47
 238 48
   4 49
   9 50
   1 51
   4 52
   3 53
   2 54
   5 55
   1 56
   1 58
   1 59
   1 60
   1 61  
   
➜  積分落戶2020數據分析 git:(master) ✗ awk '{print $3}' 10000.csv  | cut -f1 -d"-" |awk '{print 2020-$1}' | sort | uniq -c
   1 32
   3 35
  30 36
  83 37
 290 38
 468 39
 644 40
 741 41
 808 42
 751 43
 636 44
 507 45
 365 46
 329 47
 108 48
 107 49
  85 50
  27 51
   6 52
  10 53
   9 54
   8 55
   6 56
   5 57
   3 58
   2 59   

上次數據最大 61 歲,最小 34 歲,今年最新的數據最小 32 歲,最大 59 歲。這個 32 歲的看來很牛 X。看看是誰?1988年出生。

➜  積分落戶2020數據分析 git:(master) ✗ grep '1988' 10000.csv
202004964 XX磊 1988-07 中煤北京煤礦機械有限責任公司 97.71

這位 XX 磊同窗確實優秀,(太具體了不太好,隱藏部分吧),看詳細得分,由於有榮譽表彰 20 加分,查了下榮譽表彰指標裏的「省部級及以上勞模」分爲四類:全國勞模、享受全國勞模待遇人員、省部級勞模、享受省部級勞模待遇人員。

2020年積分落戶指標年齡最小者

年齡分佈以下所示,主要仍是集中在 38 ~ 47 歲之間。

2020積分落戶年齡分佈

其餘

此次的數據就先分享到這裏,若是你有興趣,能夠到網站上採集更多數據(例如各項分數的明細,例如教育背景、合法穩定就業住所等)進行分析。

另外,若是你想計算一下本身能得到多少分,能夠直接到官網網站進行計算,地址爲:http://fuwu.rsj.beijing.gov.cn/integraltool/tool/simulation

積分落戶模擬計算工具

後記

以爲本號分享的文章有價值,記得添加星標哦。周更很累,不要白 piao,須要來點正反饋,安排個 「一鍵三連」(點贊、在看、分享)如何?😝 這將是我持續輸出優質文章的最強動力。


推 薦 閱 讀

快快加入咱們——「阿里雲-ECS/神龍計算平臺」 招人啦
沒想到 Shell 命令居然還能這麼玩?| Shell 玩轉大數據分析

分析了得到家庭搖號新能源指標的數據後,我發現了一個祕密

面了 7 輪 Google,最終仍是逃不脫被掛的命運

從一道面試題談談一線大廠碼農應該具有的基本能力



程序猿石頭 


程序猿石頭(ID: tangleithu),現任阿里巴巴技術專家,清華學渣,前大疆後端 Leader。用不一樣的視角分享高質量技術文章,以每篇文章都讓人有收穫爲目的,歡迎關注,交流和指導!掃碼回覆關鍵字 「1024」 獲取程序員大廠面試指南


本文分享自微信公衆號 - 程序猿石頭(tangleithu)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索