功能點
爬取數據
- 全部公司數據,名稱簡寫,城市,行業,職位數量,人數範圍,標籤,介紹,融資階段,平均工資
- github2016年度最受歡迎編程語言相應年數薪水,城市,學歷要求,公司融資階段,公司行業
- 大數據行業五大崗位相應年數薪水,城市,學歷要求,公司融資階段,公司行業,崗位要求
編程語言分析
- 編程語言在不一樣城市(top10)的需求量
- 編程語言在不一樣行業(top10)的需求量
- 編程語言在不一樣融資階段的需求量
- 編程語言相應工做年限薪水平均值
大數據崗位分析
- 五個崗位的職位需求關鍵詞詞雲
- 五個崗位在不一樣城市(top10)的需求量
- 五個崗位在不一樣行業(top10)的需求量
- 五個崗位在不一樣融資階段的需求量
- 五個崗位相應工做年限薪水平均值
數據可視化
開發工做
- 編寫數據採集所用語言:python
-
針對拉勾網反爬蟲的應對措施:前端
- 加http頭假裝成瀏覽器;
- 找臨界值更換IP;
- 限制爬取頻率;
- 設置代理池。
- 使用多線程爬蟲:提升效率
- 製做詞雲:jieba中文分詞,自定義詞典,wordcloud生成圖片
- 分析結果可視化:bokeh,echarts
數據崗位分析結果
2016github10大熱門編程語言現狀分析

Python崗位所在行業

scala崗位所在公司行業

能夠看出Python的應用更廣,而Scala主要是數據服務行業須要。緣由是Python除了能夠用來作web開發,在科學計算等方面的表現也很出色。python
- 崗位城市分佈(示例java)
Java崗位城市分佈

能夠看出Java的整體需求仍是北上廣深杭比較多,而杭州數量多的可能也許是由於坐落在此的阿里巴巴內部使用Java較多
- 崗位所在公司融資階段(示例PHP)

對PHP需求最多的是初創型公司,可能由於PHP能夠作到快速開發而且在中小規模公司比較適用。
多維度分析
普通開發不一樣城市不一樣工做年限平均工資

能夠看出,北京的總體工資水平最高,高薪主要集中在北上廣深杭,其中,杭州的工資水平也較高,可能由於杭州是阿里巴巴網易等大型互聯網公司總部所在地。git
不一樣融資階段公司工做年限不一樣平均工資

能夠看到1-3年和3-5年工資差距並不明顯,D輪及以上公司給的工資總體水平都比其餘融資階段高github
分析結論
- 數據崗位集中在北上廣深,需求量呈爆炸式增加。
- 數據崗位算法、學歷要求更高,對業務敏銳,薪資更高。
- 門檻高的崗位需求量更少(Scala), 門檻低應用廣(Python)
- 互聯網行業對人才的要求愈來愈高(算法、數學、業務)