拉勾數據分析崗數據分析報告

簡介:試着,作了一個拉勾網數據分析師職位的數據分析。
其實,雖然很想作數據分析師,可是是跨行,內心至關忐忑,作這個分析就至關於加深本身對數據分析這個行業的瞭解了。java

大體思路

大體思路

起始

數據來源

原本是想本身寫個爬蟲的,但是學了很久,仍是不能融會貫通,總會出一些bug,只能繼續學習,爭取早日修成爬神功。又想着,總不能還沒開始,就結束了此次實驗。最後無心中發現了一個爬蟲工具--八爪魚、、只須要點點點(其實,當時有種挫敗感)。不過,總算數據總算有了。python

過程

數據的清洗與處理

這裏試着用了兩種工具,Excel + Python,也比較了一下兩者的優勢。與前人所述基本一致,紙上得來終覺淺啊。mysql

想說一下字段的命名,若是用了Python進行處理的話,最好仍是把字段命名爲英文,或者說字母。能夠簡化後期處理,會方便不少。sql

固然,你若是全用Excel是用中文命名,也是沒有問題的。api

字段

Excel的處理過程

預防萬一

所謂預防萬一,就是將Excel另存一份源數據,以避免後期發生不可預知錯誤。架構

清洗與處理

命名字段

處理salary列

新建工做表,將salary字段複製過來。app

  1. 清除全部格式。
  2. 數據-分列-固定符號-"-"
  3. 查找替換 k。這裏說明下,清除格式後,不管查找大寫K仍是小寫k,都可。
  4. 由於抓取的數據是一組區間值,沒法直接使用,所以取薪資的中間值也就是平均值。使用函數 'MEDIAN' ,它會返回一組數的中值,或者使用 'AVERAGE' 也可。獲得的值以下:
  5. 再對這組值進行數據分析,數據-數據分析-描述統計,獲得最大值,最小值,全距,再根據公式計算組數,組距,進行數據分組,再根據 ' FREQUENCY '函數計算每組頻率。

接下來,就能夠繪製圖表了。echarts

ps:或者直接在第5步,採用數據分析工具中的直方圖,進行分析。函數

處理experience、city、education、property、scale列

新建工做表,複製。工具

  1. 清除全部格式。
  2. 使用函數 'SUBSTITUTE' 替換全部 "/",或者直接查找替換。
  3. 數據透視表統計,繪圖。

處理field列

新建工做表,複製。

  1. 清除全部格式
  2. 查找替換"、",","爲半角「,」。
  3. 分列。

這樣,基本就處理完了。

數據展現

行業及職位數量

從圖中能夠看出,17個行業中,移動互聯網對數據人才的需求量是最大的,其次是金融和電子商務,而生物服務、文化娛樂、旅遊、分類信息、硬件等的需求量最少。我認爲,這從一個側面反映了移動互聯網數據量的巨大,以及對人才的渴求。

城市與職位

首先看一下,職位主要分佈的區域:

從圖中能夠看到,招聘公司主要位於南方。

再看一下,城市與職位:

這裏主要截取了前10個城市,毫無心外,北上廣赫然在列,杭州也不少,排在廣州前面。看來,咱們這些想作數據分析師的人,都沒法逃離北上廣啊。嗯,你也能夠去杭州,據在那兒生活了七八年的同窗來講,他不想走了。

行業、城市與薪資

前面數據處理獲得了每一個職位的平均薪資,這裏進一步處理獲得了每一個行業在每一個城市的平均薪資。下圖是招聘最多的幾個行業在每一個城市的平均薪資。

從圖中能夠知道,總體上相對來講,廣州在這些行業中屬於較低的。北京、上海差距不是太大。

招聘公司融資階段

招聘不一樣職稱的數量

這裏藉助python進行了統計:

python

import pandas as pd
data = pd.DataFrame(pd.read_csv(r'C:\Users\sunshine\Desktop\2017.8.20.csv',encoding = 'gbk'))

data.columns
positionName = []
for i in range(len(data.position)):
    if "實習" in data.position[i]:
        positionName.append("實習")
    elif "助理" in data.position[i]:
        positionName.append("助理")
    elif "專員" in data.position[i]:
        positionName.append("專員")
    elif "主管" in data.position[i]:
        positionName.append("主管")
    elif "經理" in data.position[i]:
        positionName.append("經理")
    elif "工程師" in data.position[i]:
        positionName.append("工程師")
    elif "總監" in data.position[i]:
        positionName.append("總監")
    elif "科學家" in data.position[i]:
        positionName.append("科學家")
    elif "架構" in data.position[i]:
        positionName.append("架構師")
    else:
        positionName.append("其餘")

data["positionName1"] = positionName

data["positionName1"].value_counts()

這裏沒有用matplotlib畫,借用了echarts。

招聘公司對我的能力的要求

招聘公司對應聘者的學歷要求

從圖中咱們很明顯能夠獲得,公司對應聘者的學歷要求,本科以上佔了絕大部分,這說明,90%以上的公司對應聘者的學歷要求很高,我認爲,這可能有如下緣由:

  1. 分析行業對應聘者的知識水平要求仍是很高的,由於數據分析師不但要涉及不少高等數學,統計學,機率論,線性代數等數學知識,還要涉及不少行業知識。
  2. 這個行業須要應對不少突飛猛進的信息,各類東西更新迭代很是快,所以對應聘者的自學能力提出了很高的要求。

招聘公司對應聘者經驗的要求

大部分公司招的都是1-5年的,1年之下和經驗不限的不多,因此說,實習經驗很重要,沒有實習經歷,太難入行了。我淚奔。公司須要的都是老鳥啊。

招聘公司對應聘者工具掌握的要求

這裏使用了python進行了正則匹配,和詞雲生成。

python

import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import jieba as jb
from wordcloud import WordCloud

#轉換數據格式
word_str = ''.join(data['description'])
#對文本進行分詞
word_split = jb.cut(word_str)
#使用|分割結果並轉換格式
word_split1 = "| ".join(word_split)
#設置要匹配的關鍵詞
pattern=re.compile('sql|mysql|posgresql|python|excel|spss|matlab|ppt|powerpoint|sas|[\br\b]|hadoop|spark|hive|ga|java|perl|tableau|eviews|presto')
#匹配全部文本字符
word_w=pattern.findall(word_split1)

word_s = str(word_w)

my_wordcloud = WordCloud().generate(word_s)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

有點醜...

所以,換了個工具.....

好看點了,不管哪張圖都說明,除了excel,若是,你懂R或者python,再加上SQL,和spss,喔,你是個香餑餑。

招聘公司對應聘者技能的要求

能夠看到,公司對應聘者的要求大部分在數據分析能力和產品、業務等方面。看來,數據分析師最重要的仍是懂業務,這也是我想發展的方向。至於數據挖掘方向,對數學功底要求過高了,畢竟我不是科班出身。可是,我以爲平時在實驗室作的實驗,其實和業務是一個道理。只不過,是將實驗換成了產品。

總結

對於數據分析崗,招聘公司主要位於南方,可是以北京公司最多。不須要融資,B輪和上市公司對於該崗位的需求較大。而且主要是移動互聯網行業的公司。企業對於應聘者的工具掌握可能是Excel,Spss,Python,R,SQl等,若是你全會,那基本就是個香餑餑。在技能方面,企業比較看重數據分析,以及對業務、運營的理解。而對於應聘者而言,本科生學歷徹底足夠了。就薪資而言,廣州多有行業較其餘城市偏低,北京和上海在同等工做經歷下,薪資要領先於其餘城市。

數據分析報告地址:https://me.bdp.cn/api/su/SBEGK7Z8

相關文章
相關標籤/搜索