簡介:試着,作了一個拉勾網數據分析師職位的數據分析。
其實,雖然很想作數據分析師,可是是跨行,內心至關忐忑,作這個分析就至關於加深本身對數據分析這個行業的瞭解了。java
原本是想本身寫個爬蟲的,但是學了很久,仍是不能融會貫通,總會出一些bug,只能繼續學習,爭取早日修成爬神功。又想着,總不能還沒開始,就結束了此次實驗。最後無心中發現了一個爬蟲工具--八爪魚、、只須要點點點(其實,當時有種挫敗感)。不過,總算數據總算有了。python
這裏試着用了兩種工具,Excel + Python,也比較了一下兩者的優勢。與前人所述基本一致,紙上得來終覺淺啊。mysql
想說一下字段的命名,若是用了Python進行處理的話,最好仍是把字段命名爲英文,或者說字母。能夠簡化後期處理,會方便不少。sql
固然,你若是全用Excel是用中文命名,也是沒有問題的。api
所謂預防萬一,就是將Excel另存一份源數據,以避免後期發生不可預知錯誤。架構
新建工做表,將salary字段複製過來。app
接下來,就能夠繪製圖表了。echarts
ps:或者直接在第5步,採用數據分析工具中的直方圖,進行分析。函數
新建工做表,複製。工具
新建工做表,複製。
這樣,基本就處理完了。
從圖中能夠看出,17個行業中,移動互聯網對數據人才的需求量是最大的,其次是金融和電子商務,而生物服務、文化娛樂、旅遊、分類信息、硬件等的需求量最少。我認爲,這從一個側面反映了移動互聯網數據量的巨大,以及對人才的渴求。
首先看一下,職位主要分佈的區域:
從圖中能夠看到,招聘公司主要位於南方。
再看一下,城市與職位:
這裏主要截取了前10個城市,毫無心外,北上廣赫然在列,杭州也不少,排在廣州前面。看來,咱們這些想作數據分析師的人,都沒法逃離北上廣啊。嗯,你也能夠去杭州,據在那兒生活了七八年的同窗來講,他不想走了。
前面數據處理獲得了每一個職位的平均薪資,這裏進一步處理獲得了每一個行業在每一個城市的平均薪資。下圖是招聘最多的幾個行業在每一個城市的平均薪資。
從圖中能夠知道,總體上相對來講,廣州在這些行業中屬於較低的。北京、上海差距不是太大。
這裏藉助python進行了統計:
python import pandas as pd data = pd.DataFrame(pd.read_csv(r'C:\Users\sunshine\Desktop\2017.8.20.csv',encoding = 'gbk')) data.columns positionName = [] for i in range(len(data.position)): if "實習" in data.position[i]: positionName.append("實習") elif "助理" in data.position[i]: positionName.append("助理") elif "專員" in data.position[i]: positionName.append("專員") elif "主管" in data.position[i]: positionName.append("主管") elif "經理" in data.position[i]: positionName.append("經理") elif "工程師" in data.position[i]: positionName.append("工程師") elif "總監" in data.position[i]: positionName.append("總監") elif "科學家" in data.position[i]: positionName.append("科學家") elif "架構" in data.position[i]: positionName.append("架構師") else: positionName.append("其餘") data["positionName1"] = positionName data["positionName1"].value_counts()
這裏沒有用matplotlib畫,借用了echarts。
從圖中咱們很明顯能夠獲得,公司對應聘者的學歷要求,本科以上佔了絕大部分,這說明,90%以上的公司對應聘者的學歷要求很高,我認爲,這可能有如下緣由:
大部分公司招的都是1-5年的,1年之下和經驗不限的不多,因此說,實習經驗很重要,沒有實習經歷,太難入行了。我淚奔。公司須要的都是老鳥啊。
這裏使用了python進行了正則匹配,和詞雲生成。
python import re import numpy as np import pandas as pd import matplotlib.pyplot as plt import jieba as jb from wordcloud import WordCloud #轉換數據格式 word_str = ''.join(data['description']) #對文本進行分詞 word_split = jb.cut(word_str) #使用|分割結果並轉換格式 word_split1 = "| ".join(word_split) #設置要匹配的關鍵詞 pattern=re.compile('sql|mysql|posgresql|python|excel|spss|matlab|ppt|powerpoint|sas|[\br\b]|hadoop|spark|hive|ga|java|perl|tableau|eviews|presto') #匹配全部文本字符 word_w=pattern.findall(word_split1) word_s = str(word_w) my_wordcloud = WordCloud().generate(word_s) plt.imshow(my_wordcloud) plt.axis("off") plt.show()
有點醜...
所以,換了個工具.....
好看點了,不管哪張圖都說明,除了excel,若是,你懂R或者python,再加上SQL,和spss,喔,你是個香餑餑。
能夠看到,公司對應聘者的要求大部分在數據分析能力和產品、業務等方面。看來,數據分析師最重要的仍是懂業務,這也是我想發展的方向。至於數據挖掘方向,對數學功底要求過高了,畢竟我不是科班出身。可是,我以爲平時在實驗室作的實驗,其實和業務是一個道理。只不過,是將實驗換成了產品。
對於數據分析崗,招聘公司主要位於南方,可是以北京公司最多。不須要融資,B輪和上市公司對於該崗位的需求較大。而且主要是移動互聯網行業的公司。企業對於應聘者的工具掌握可能是Excel,Spss,Python,R,SQl等,若是你全會,那基本就是個香餑餑。在技能方面,企業比較看重數據分析,以及對業務、運營的理解。而對於應聘者而言,本科生學歷徹底足夠了。就薪資而言,廣州多有行業較其餘城市偏低,北京和上海在同等工做經歷下,薪資要領先於其餘城市。
數據分析報告地址:https://me.bdp.cn/api/su/SBEGK7Z8