描述:html
一哥們離職找工做,最近聊了聊面試待遇要求一類的事情,有些感觸。java
在一個公司呆的時間長了,對市場上對開發的要求已經不那麼敏感了,也不知道人家要求哪些技能。一個公司的業務是有限的,呆了2年,3年,4年以後,知識面可能就狹隘了;程序員
四、5年的程序員市場上平均待遇是多少也不清楚,問問好朋友聊聊也只知道幾家的標準,對於大多數人,工資是安身立命之本,不可不察。面試
想到本身自己就是最數據採集與分析的,就蹦出來個想法:採集點招聘信息樣本,作下簡單的統計,也許會有所收穫。。工具
正好最近也不是很忙,通過一番折騰,有了下面的結果:spa
圖表:htm
工資與招聘信息個數高級 JAVA程序員崗位職責關鍵字餅圖blog
相關數據:開發
序號 工資區間 招聘信息數量 採樣總數量 百分比 序號 關鍵字 出現次數數據分析
採集使用工具:
htmlparser 數據抓取
lucene analyzer IKAnalyzer 分詞
Excel 圖表生成
結尾:
要數據分析,數據量必定要大,我這裏只是簡單的採集了800條智聯的(高級java程序員)數據;正規點應該把獵聘網 智聯 51job 58同城上的招聘全部的信息都爬下來,數據量先上來,這樣纔有些價值。
區區800條數據,其實沒什麼太大的參考意義,玩玩而已,可是起碼能簡單分析下 工資大概是多少 都要求什麼技能,哪一個區域招聘的比較多。