python拉勾數據職位分析

  簡介:試着,作了一個拉勾網數據分析師職位的數據分析。
其實,雖然很想作數據分析師,可是是跨行,內心至關忐忑,作這個分析就至關於加深本身對數據分析這個行業的瞭解了。java

思路

clipboard.png

  大體思路python

起始 數據來源

  原本是想本身寫個爬蟲的,但是學了很久,仍是不能融會貫通,總會出一些bug,只能繼續學習,爭取早日修成爬神功。又想着,總不能還沒開始,就結束了此次實驗。最後無心中發現了一個爬蟲工具--八爪魚、、只須要點點點(其實,當時有種挫敗感)。不過,總算數據總算有了。mysql

數據的採集

  數據的具體採集過程以下:sql

下載安裝八爪魚採集器。
建立任務,選擇列表及詳情。
輸入任務名稱、備註。
輸入採集網址
設置詳情頁連接,也就是點進具體的詳情頁。
設置好翻頁。
點擊須要採集的數據信息。
開始採集。
數據導出爲excel。
過程 數據的清洗與處理架構

  這裏試着用了兩種工具,Excel + Python,也比較了一下兩者的優勢。與前人所述基本一致,紙上得來終覺淺啊。app

  想說一下字段的命名,若是用了Python進行處理的話,最好仍是把字段命名爲英文,或者說字母。能夠簡化後期處理,會方便不少。echarts

  固然,你若是全用Excel是用中文命名,也是沒有問題的。函數

  字段工具

Excel的處理過程 預防萬一oop

  所謂預防萬一,就是將Excel另存一份源數據,以避免後期發生不可預知錯誤。

清洗與處理 命名字段

clipboard.png

處理salary列

  新建工做表,將salary字段複製過來。

清除全部格式。
數據-分列-固定符號-"-"
查找替換 k。這裏說明下,清除格式後,不管查找大寫K仍是小寫k,都可。
由於抓取的數據是一組區間值,沒法直接使用,所以取薪資的中間值也就是平均值。使用函數 'MEDIAN' ,它會返回一組數的中值,或者使用 'AVERAGE' 也可。獲得的值以下:

clipboard.png

再對這組值進行數據分析,數據-數據分析-描述統計,獲得最大值,最小值,全距,再根據公式計算組數,組距,進行數據分組,再根據 ' FREQUENCY '函數計算每組頻率。

clipboard.png

  接下來,就能夠繪製圖表了。

  ps:或者直接在第5步,採用數據分析工具中的直方圖,進行分析。

處理experience、city、education、property、scale列

  新建工做表,複製。

清除全部格式。
使用函數 'SUBSTITUTE' 替換全部 "/",或者直接查找替換。
數據透視表統計,繪圖。

clipboard.png

處理field列

  新建工做表,複製。

清除全部格式
查找替換"、",","爲半角「,」。
分列。
  這樣,基本就處理完了。

數據展現 行業及職位數量

clipboard.png

  從圖中能夠看出,17個行業中,移動互聯網對數據人才的需求量是最大的,其次是金融和電子商務,而生物服務、文化娛樂、旅遊、分類信息、硬件等的需求量最少。我認爲,這從一個側面反映了移動互聯網數據量的巨大,以及對人才的渴求。

城市與職位

  首先看一下,職位主要分佈的區域:

clipboard.png

  從圖中能夠看到,招聘公司主要位於南方,東三省居然沒有。我認爲,這個時代,對數據的重視程度從某種程度上說明了發展的質量,就這個樣本數據來講,從某種程度上反映了東三省的發展速度較慢,不如南方。

  再看一下,城市與職位:

clipboard.png

  這裏主要截取了前10個城市,毫無心外,北上廣赫然在列,杭州也不少,排在廣州前面。看來,咱們這些想作數據分析師的人,都沒法逃離北上廣啊。嗯,你也能夠去杭州,據在那兒生活了七八年的同窗來講,他不想走了。

行業、城市與薪資

  前面數據處理獲得了每一個職位的平均薪資,這裏進一步處理獲得了每一個行業在每一個城市的平均薪資。下圖是招聘最多的幾個行業在每一個城市的平均薪資。

clipboard.png

  從圖中能夠知道,總體上相對來講,廣州在這些行業中屬於較低的。北京、上海差距不是太大。

招聘公司融資階段

clipboard.png

招聘不一樣職稱的數量

  這裏藉助python進行了統計:

python import pandas as pd data = pd.DataFrame(pd.read_csv(r'C:\Users\sunshine\Desktop\2017.8.20.csv',encoding = 'gbk')) data.columns positionName = [] for i in range(len(data.position)): if "實習" in data.position[i]: positionName.append("實習") elif "助理" in data.position[i]: positionName.append("助理") elif "專員" in data.position[i]: positionName.append("專員") elif "主管" in data.position[i]: positionName.append("主管") elif "經理" in data.position[i]: positionName.append("經理") elif "工程師" in data.position[i]: positionName.append("工程師") elif "總監" in data.position[i]: positionName.append("總監") elif "科學家" in data.position[i]: positionName.append("科學家") elif "架構" in data.position[i]: positionName.append("架構師") else: positionName.append("其餘") data["positionName1"] = positionName data["positionName1"].value_counts()

clipboard.png

  這裏沒有用matplotlib畫,借用了echarts。

招聘公司對我的能力的要求 招聘公司對應聘者的學歷要求

clipboard.png

  從圖中咱們很明顯能夠獲得,公司對應聘者的學歷要求,本科以上佔了絕大部分,這說明,90%以上的公司對應聘者的學歷要求很高,我認爲,這可能有如下緣由:

分析行業對應聘者的知識水平要求仍是很高的,由於數據分析師不但要涉及不少高等數學,統計學,機率論,線性代數等數學知識,還要涉及不少行業知識。
這個行業須要應對不少突飛猛進的信息,各類東西更新迭代很是快,所以對應聘者的自學能力提出了很高的要求。
招聘公司對應聘者經驗的要求

  大部分公司招的都是1-5年的,1年之下和經驗不限的不多,因此說,實習經驗很重要,沒有實習經歷,太難入行了。我淚奔。公司須要的都是老鳥啊。

招聘公司對應聘者工具掌握的要求

clipboard.png

  這裏使用了python進行了正則匹配,和詞雲生成。

python import re import numpy as np import pandas as pd import matplotlib.pyplot as plt import jieba as jb from wordcloud import WordCloud #轉換數據格式 word_str = ''.join(data['deion']) #對文本進行分詞 word_split = jb.cut(word_str) #使用|分割結果並轉換格式 word_split1 = "| ".join(word_split) #設置要匹配的關鍵詞 pattern=re.compile('sql|mysql|posgresql|python|excel|spss|matlab|ppt|powerpoint|sas|[\br\b]|hadoop|spark|hive|ga|java|perl|tableau|eviews|presto') #匹配全部文本字符 word_w=pattern.findall(word_split1) word_s = str(word_w) my_wordcloud = WordCloud().generate(word_s) plt.imshow(my_wordcloud) plt.axis("off") plt.show()

clipboard.png

  有點醜...

  所以,換了個工具.....

clipboard.png

  好看點了,不管哪張圖都說明,除了excel,若是,你懂R或者python,再加上SQL,和spss,喔,你是個香餑餑。

招聘公司對應聘者技能的要求

  能夠看到,公司對應聘者的要求大部分在數據分析能力和產品、業務等方面。看來,數據分析師最重要的仍是懂業務,這也是我想發展的方向。至於數據挖掘方向,對數學功底要求過高了,畢竟我不是科班出身。可是,我以爲平時在實驗室作的實驗,其實和業務是一個道理。只不過,是將實驗換成了產品。

總結

  對於數據分析崗,招聘公司主要位於南方,可是以北京公司最多。不須要融資,B輪和上市公司對於該崗位的需求較大。而且主要是移動互聯網行業的公司。企業對於應聘者的工具掌握可能是Excel,Spss,Python,R,SQl等,若是你全會,那基本就是個香餑餑。在技能方面,企業比較看重數據分析,以及對業務、運營的理解。而對於應聘者而言,本科生學歷徹底足夠了。就薪資而言,廣州多有行業較其餘城市偏低,北京和上海在同等工做經歷下,薪資要領先於其餘城市。

  網易雲課堂專欄課程:大數據分析必備利器《R語言數據分析必知必會》http://study.163.com/course/c...

相關文章
相關標籤/搜索