「互聯網寒冬」,來分析一下爬取的 BOSS 直聘數據。

臨近年底,「互聯網寒冬」的來臨讓你們倍感壓力,你們紛紛感嘆寒冬將至。可是,越是這個時候,越要明確本身的奮鬥目標,不斷的充實本身,提升本身的能力,爲找工做打下堅實的基礎。機器學習


本次咱們爬取了招聘網站上關於計算機視覺方向的招聘信息,並對於招聘信息進行分析,看一下目前計算機視覺方向對於應聘者的需求如何。ide


首先招聘信息的爬取採用的是selenium 庫,對boss 直聘招聘網站進行爬取,由於網站對於反爬的驗證碼比較複雜,即使是利用tesserocr 來對這種驗證碼識別的也很難將其識別準確,所以直接採用selenium庫,對於網頁信息進行爬取。對於驗證碼仍須要人工來進行識別並進行操做。可是因爲爬取的過程當中,對網頁進行了模擬瀏覽過程,所以幾乎不會產生反爬環節。學習


圖片 


對於招聘信息的提取首先是打開咱們所要查詢的招聘方向的連接,這裏咱們查詢的是計算機視覺方向(本身更改所需便可),而後針對每一頁上的每個招聘連接,在新的網頁進行打開,而後爬取其網頁信息。總體的運行效果圖以下動圖所示。字體


圖片 

對於每個招聘連接,利用BeautifulSoup進行網頁信息的提取,並將其保存到csv文件當中,具體代碼以下圖所示。網站


圖片

完整代碼獲取見文末 spa


這裏咱們爬取了招聘信息中,對於應聘者的學歷、經驗的要求,以及招聘者提出的工做要求和薪金待遇以及工做地點。將爬取後的信息保存爲csv文件放到根文件夾下,至此爬取招聘信息的工做便完成。爬取的信息以下如所示。3d


圖片


首先,咱們想觀察一下目前招聘者對於應聘者的工做要求,所以爲了更加直觀的展現工做要求,咱們採用詞雲的形式,對於工做要求中的關鍵詞進行展現。blog


採用詞雲的優點在於:第一,展現起來比較美觀,第二是出現頻率越高的關鍵詞,其字體也越大,所以更能直觀的進行展現。圖片


對於爬取獲得的信息,利用pandas進行讀取,而後將「工做要求」一項進行提取後,採用jieba進行分析,並結合WordCloud庫進行展現,獲得的結果以下如所示。深度學習


圖片 

由詞雲咱們能夠看出,目前計算機視覺領域深度學習技術是最杯招聘者所看重的一項技能,所以它的出現頻率也是最高的。其次對於機器學習、圖像處理技術也要進行掌握,並能達到熟練掌握的程度。若是有小夥伴想要進軍計算機視覺領域的話,那麼上述的詞雲所體現的信息,將會對你有很大的幫助,在處理完「工做需求以後」,咱們還對你們廣泛關心的「工資」水平和「經驗要求進行了分析。


因爲招聘者對於工資都是提供一個大概的範圍,所以,這裏咱們採起招聘者提供的平均工資來做爲咱們的「工資」數據,根據平均工資的最大值跟最小值將工資分爲五類,可視化數據以下圖所示。

 

圖片 

由工資圖能夠看出,目前計算機視覺領域的工資水平大都集中在20K到30K之間,仍是一個至關不錯的工資水平。


對於經驗的分析,咱們也進行了分析,以下圖所示。

 

圖片 

由上圖能夠看出,招聘者對於應聘者的經驗仍是十分看重的,所以若是小夥伴是在校生的話,仍是抓住機會出去實習,增加本身的經驗吧。

相關文章
相關標籤/搜索