一篇文章看懂大數據分析就業前景及職能定位

大數據分析

Overview:前端

  1. java

  2. 基本概念python

  3. DS的職能要求算法

  4. DE的職能要求後端

  5. 總結服務器

1、序

今天主要給你們好好說說python的發展方向,這篇文章也是藏了很久了,羣裏各類問怎麼學,大數據分析怎麼學,爬蟲怎麼入門,說實在的,你關注我號久一點,都知道有那麼幾篇文章是專門給入門看的,還有幾篇是資料總結的。會找的都能找到。架構

可是一篇可能不夠,由於我想盡量的給你們剖析行業狀況,讓你們在作選擇的時候不至於還不知道這是幹啥的,只知道這個很火。app

今天就先給你們講大數據分析工程師。運維

2、基本概念

對於一大部分想轉行作IT,作python的,都是衝着大數據分析來的,那你知道大數據分析的是啥嗎?你知道大數據分析的崗位職能分配狀況嗎?工具

若是這些都答不上來的話,那就別追風口,若是盲目的跟風,只會讓你進來找不着北,到頭來,浪費1年時間,還的回去幹老本行。

首先,咱們常常叫的大數據分析師有兩種崗位定位:

  • 大數據科學家,Data Scientist,DS

  • 大數據工程師,Data Engineer,DE

從這兩個單詞裏,你就能看出端倪了,那接下來就以我在普華永道的工做經歷告訴你,這二者的區別,以及工做內容劃分。

3、DS職能要求

1. 專業知識

DS的職能是算法分析,是基於對行業背景的瞭解幫助客戶做出預期計算。而這裏面就會涉及到不少專業知識,俗稱統計分析。

和pwc同事共事的時候,我常常向他們討教關於DS的一些事情,再加上一塊兒作項目,分工明確,也天然對DS更瞭解一些。我見過的DS都是碩士畢業,還都是全美TOP10的學校,要麼博士。

不是學歷歧視,是你要作這事情,就得要這點本事,你沒有7年,你的專業知識支撐不了你作DS。若是你不理解這句話,我給你們舉個例子:

你們都讀太小學(就怕我說都讀太高中,你說你初中畢業爲了生存,就出來打拼了)不考慮天才好麼,咱們都是小老百姓。而後解題思路就是按照老師教的,而思路只侷限在一元二次方程組,二元一次方程組,而讀過大學的,他可能直接用積分就給你解出來了;幾何題都作過對麼,幾何題難的是什麼?作輔助線啊!輔助線出來,人人都是華羅庚,還喜歡後面跟一句,我要是畫出來了,我也會作。

這是什麼?就是知識邊界啊。你所知道的星辰大海,只是別人的滄海一粟。因此專業知識必不可少。

2. 行業背景

接下來DS還須要有某個領域的行業背景,俗稱BK,background knowledge。你可能會奇怪爲何還要這。

由於大數據分析都是針對行業來作的,那麼行業內的行話,套路,潛規則,生存法則都是不同的,你要對公司作預期分析,你就得對行業有一個基本認識,甚至深刻了解。

咱們之前的DS,貫穿各大實體行業,有保險的,醫療的,建築的,心理的,法律的等等。爲何要招那麼多DS,就是由於每一個DS都有本身擅長的幾個領域。必定的BK可以幫助DS在面對數據的時候快速的做出信息過濾,可以在聊需求的時候,快速給出反饋。這纔是價值。

3. 工具

到了第三塊,纔是大家關心的python,爲何把python放最後?由於python只是一個工具。對於開發者來講,python多是大家的底,但對於DS來講,python只是一個交通工具。

之前用excel VB,後來用java,如今還有人在用R,不過更多的仍是python。這就比如說,如今若是你想去某個地方,坐地鐵能到的,基本都坐地鐵,由於又快又方便。那沒有地鐵的時候呢?只能作公交。沒有公交的時候呢?就得騎自行車,或者走路。

因此DS歷來不會關心代碼運行效率,他們關心的是編碼效率。而python正好又是編碼效率極高的。

因此你要和我說你在外面培訓了4個月的大數據分析後,就想作DS了,那請你再考慮考慮。

4、DE職能要求

相對DS,DE就比較雜了,作的事情也多。就拿我來講,當時中國data team 就3個,2個DS,你說我是DE也能夠,說我是打雜的也能夠。由於DS只負責算法輸出,而其他的都是我來作。

大家想一想,一個項目光有算法能行嗎?誰去執行它,它要如何被外部調用?髒數據的清洗工做誰來作?還有不少不少的事情須要你考慮。

那我一個個來講,首先DE最重要的事情就是輔助DS清洗數據,咱們叫data cleaning。由於不少時候從外部拿到的數據,不管是買來的,爬來的,仍是已有的,都是原始數據,DS須要對這部分數據作一個預處理,不然很容易污染樣本數據。那DE的工做,很重要的一部分就是去清洗數據。至於規則是你和DS討論的,沒有一個固定的模版。

其次,剛剛說到的數據來源,有一個是爬來的,因此你還得會爬蟲。關於爬蟲部分的內容我會另起一篇,給你們好好講講。當時我想作,但沒有作的一部分就是爬蟲,由於全美有不少公開數據是能夠去獲取的,當時我想作的是分類,包括清洗、過濾、入庫、展現。沒來得及作。

若是你會爬蟲,DS就會很高興了,由於他們不用爲沒有數據犯愁了,你要知道,對於DS來講,數據的數量和質量都是他們關心的東西。而老闆更是了,由於DS要數據,他就要花錢去買,若是你是DE你說你能夠嘗試爬爬看,那老闆對你什麼見解?

那你若是還會作後端開發就更好了,我固然的主要經歷就放在了自動化建設上面。US那邊的老闆是沒有要求作,那我是本着提高生產效率去的,因此是本身給本身加戲了。最後的效果還不錯,讓我一個任務從一週到1-2分鐘,只須要改配置就能夠了,固然這個過程是很是痛苦的,咱們前先後後一塊兒對需求,review代碼。

而後服務端寫好了,咱們還能夠作前端展現,對於vendor來講,他們不關心數據怎麼來的,他們想看直接的東西,那不就是dashboard嗎?這塊我也沒作,只是開了個頭。

後來發現咱們有一個20人的app團隊在作這個事情,我確定沒有人家20我的作得好,可是起碼在他們交付前,咱們data team也能夠體現出價值來不是?不然只有等app team作完了,把咱們的數據接入了,老闆在看的到。

因此我一直強調,價值是自我實現的,平臺給你的是機會,能作多大,都看你本身。前幾天還和一個讀者說這個事情,我說別和我扯公司規範,流程,在我看來都是藉口。

你作運維,必定要等測試代碼過了給到你,才能發佈,那你爲何不能把測試以後的步驟自動化?讓測試本身提交jira,而後打鉤子,作CI/CD?部署服務器,和我說測試服務器就要手搭,搭好了以後有一套腳本會自動化部署其餘服務,那爲何不把建立服務器也自動化?你又不是物理機,你是雲服務器啊。

題外話了,咱們收回來,因此對於DE來講,作的事情能夠不少。那python就是咱們的武器庫了,武器是爬蟲、數據清洗、後端、前端等等,要什麼拿什麼,就看你有多少了。而武器庫裏還能夠加上kettle、tableau、informatica等等,這些只是附加項了。

這個,培訓機構4個月培訓一個武器,我是相信的。而他們鼓吹的大數據分析師,其實就是DE。不能說絕對,只能說大部分把,給本身留條路……

5、總結

好了,今天說了那麼多,但願能給正在大數據分析路上的你,吃一顆定心丸,該走的路一步不能少。

關注公衆號「Python專欄」,後臺回覆「騰訊架構資源1」,獲取由騰訊架構師整理的大數據學習全套資源包!

Python專欄二維碼
相關文章
相關標籤/搜索