大數據從入門到精通

大數據被認爲是「將來的新石油」,在社會生產、流通、分配、消費活動以及經濟運行機制等方面發揮着重要的做用。前端

做爲 IT 類職業中的「大熊貓」,大數據工程師的收入待遇能夠說達到了同類的頂級。國內 IT、通信、行業招聘中,有 10% 都是和大數據相關的,且比例還在上升。「大數據時代的到來很忽然,在國內發展勢頭激進,而人才卻很是有限,如今徹底是供不該求的情況。java

全部從底層數據工做者往上發展的基本路徑:linux

不少初學者,對大數據的概念都是模糊不清的,大數據是什麼,能作什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深刻了解,想學習的同窗歡迎加入大數據學習扣羣:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給你們,而且有清華大學畢業的資深大數據講師給你們免費授課,給你們分享目前國內最完整的大數據高端實戰實用學習流程體系redis

1. 第一階段(通常崗位叫數據專員)數據庫

基本學會excel(VBA最好學會;會作透視表;熟練用篩選、排序、公式),作好PPT。這樣不少傳統公司的數據專員已經能夠作了編程

2. 第二階段(數據專員~數據分析師)bootstrap

這一階段要會SQL,懂業務,加上第一階段的那些東西。大多數傳統公司和互聯網小運營、產品團隊夠用了。緩存

3. 第三階段(數據分析師)echarts

統計學熟練(迴歸、假設檢驗、時間序列、簡單蒙特卡羅),可視化,PPT和excel必定要溜。這些技術就夠了,能應付大多數傳統公司業務和互聯網業務。框架

4. 第四階段(分裂)

數據分析師(數據科學家)、BI等:這部分通常是精進統計學,熟悉業務,機器學習會使用(調參+選模型+優化),取數、ETL、可視化啥的都是基本姿態。

可視化工程師:這部分國內比較少,其實偏重前端,會high charts,d3.js, echarts.js。技術發展路線能夠獨立,不在這四階段,可能前端轉行更好。

ETL工程師:顧名思義,作ETL的。

大數據工程師:熟悉大數據技術,hadoop系二代。

數據工程師(一部分和數據挖掘工程師重合):機器學習精通級別(每每是幾種,不用擔憂不是所有,和數據分析師側重點不一樣,更須要了解組合模型,理論基礎),會組合模型造成數據產品;計算機基本知識(包括linux知識、軟件工程等);各種數據庫(RDBMS、NoSQL(4大類))

數據挖掘:和上基本相同。

爬蟲工程師:顧名思義,最好http協議、tcp/ip協議熟悉。技術發展路線能夠獨立,不在這四階段。

往數據發展的基本學習路徑能夠歸納爲如下內容:

1. EXCEL、PPT(必須精通)

數據工做者的基本姿態,話說本人技術並非很好,可是起碼會操做;要會大膽秀本身,和業務部門交流需求,展現分析結果。技術上回VBA和數據透視就到頂了。

2. 數據庫類(必須學)

初級只要會RDBMS就好了,看公司用哪一個,用哪一個學哪一個。沒進公司就學MySQL吧。

NoSQL能夠在以後和統計學啥的一塊兒學。基本的NoSQL血MongoDB和Redis(緩存,嚴格意義上不算數據庫),而後(選學)能夠了解各種NoSQL,基於圖的數據庫Neo4j,基於Column的數據庫BigTable,基於key-value的數據庫redis/cassendra,基於collection的數據庫MongoDB。

3. 統計學(必須學)

若是要學統計學,重要概念是會描述性統計、假設檢驗、貝葉斯、極大似然法、迴歸(特別是廣義線性迴歸)、主成分分析。這些個用的比較多。也有學時間序列、bootstrap、非參之類的,這個看本身的意願。

其餘數學知識:線性代數經常使用(是不少後面的基礎),微積分不經常使用,動力系統、傅里葉分析看本身想進的行業了。

4. 機器學習(數據分析師要求會選、用、調)

經常使用的是幾個線性分類器、聚類、迴歸、隨機森林、貝葉斯;不經常使用的也稍微瞭解一下;深度學習視狀況學習。

5. 大數據(選學,有公司要求的話會用便可,不要求會搭環境)

hadoop基礎,包括hdfs、map-reduce、hive之類;後面接觸spark和storm再說了。

6. 文本類(選學,有公司要求的話會用便可)

這部分不熟,基本要知道次感化、分詞、情感分析啥的。

7. 工具類

語言:非大數據類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab);大數據可能還會用到scala和java。

可視化(選學):tableau、http://plot.ly、d3.js、echarts.js,R裏面的ggplot、ggvis,Python裏的bokeh、matplotlib、seaborn都不錯

數據庫語言:看你本身用啥學啥

其餘框架、類庫(選學):爬蟲(requests、beautifulsoup、scrapy),日誌分析

推薦一個大數據學習羣 142974151天天晚上20:10都有一節【免費的】大數據直播課程,專一大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智能,數據挖掘都是純乾貨分享,

相關文章
相關標籤/搜索