最近,在知乎上看到一個問題:「數據分析師須要注重哪方面的計算機技能培養?」python
問題的背景是這樣的:linux
某211高校通訊專業出身,畢業後在運營商工做了7年多,前後從事通訊網絡運維、規劃工做,近兩年負責運營商數據分析(網絡部門,偏向業務分析)。算法
因爲職業發展瓶頸,從去年11月計劃跳槽,花了半年時間學習統計學基礎、SQL、Python等。shell
近期跳槽到互聯網產品部門,從事互聯網產品(APP)的數據分析師,支撐產品部門的數據分析(偏向業務分析,不負責數據倉庫、ETL等偏向IT工做)。工做內容差別較大,包括分析的顆粒度、工做方式(例如本身寫shell腳本跑數)、工做內容,所以緊急提高linux(shell編程)、SQL等技能,且加快對業務的熟悉,但仍感受亞歷山大。數據庫
我的想繼續往數據分析方向發展,也深知數據分析包括計算機科學、統計學、業務等三個部份內容,目前比較欠缺的應該是計算機科學,請問對於想往數據分析師(數據科學)方向發展,計算機科學方面的技能可否給些提高建議?編程
今天也是想借這個問題,系統回答下「數據分析師」的職業發展,也是最近在思考的。網絡
根據我近10年的工做經驗,包括在甲方IT部任職BI項目經理和運營部任職業務分析經理,乙方Data Analytics項目(EDW/BI/Big Data/AI Machine Learning)諮詢和項目實施經驗,按照由易到難的進階步驟,我以爲應該掌握這些技能:運維
基礎篇
一、首先是Excel,貌似這個很簡單,其實未必。Excel不只可以作簡單二維表、複雜嵌套表,能畫折線圖/Column chart/Bar chart/Area chart/餅圖/雷達圖/Combo char/散點圖/Win Loss圖等,並且能實現更高級的功能,包括透視表(相似於BI的多維分析模型Cube),以及Vlookup等複雜函數,處理100萬條之內的數據沒有大問題。最後,不少更高級的工具都有Excel插件,例如一些AI Machine Learning的開發工具。機器學習
二、掌握SQL Server或者Oracle的SQL語句,雖然你是業務分析師,但若是取數據能少依賴於IT人員和IT工具(好比BI的多維分析模型,有時候並不能獲取你想要的數據),對於作業務分析,無疑是如虎添翼,我曾經見過華爲的會計能寫七層嵌套的SQL語句,很吃驚。包括join, group by, order by, distinct, sum, count, average, 各類統計函數等。數據庫設計
三、掌握可視化工具,好比BI,如Cognos/Tableau/FineBI等,具體看企業用什麼工具,像我以前用的是FineBI。這些工具作可視化很是方便,特別是分析報告能含這些圖,必定會吸引高層領導的眼球,一目瞭然瞭解,洞察業務的本質。另外,做爲專業的分析師,用多維分析模型Cube可以方便地自定義報表,效率大大提高。
總結:至此,掌握以上技能的80%,能夠算是一個合格的分析師了。這個階段的數據分析師,須要既懂得如何利用工具處理數據,也要懂得業務場景,能分析解決基本的問題。這裏仍是要強調一點,數據分析師最重要的是熟悉業務,最好是懂。懂業務,分析邏輯就會清晰通常,並且也能排除大部分無用的嘗試。長期以往對於瞭解的業務,比對一下數據就知道問題出在哪裏了。
以後,若是是要深鑽技術,甚至往數據科學家方向上發展。
進階篇
一、系統的學好統計學
純粹的機器學習講究算法預測能力和實現,可是統計一直就強調「可解釋性」。好比說,針對今天微博股票發行就上升20%,你把你的兩個預測股票上漲仍是下跌的model套在新浪的例子上,而後給你的上司看。統計學就是這樣的做用。
數據挖掘相關的統計方法(多元Logistic迴歸分析、非線性迴歸分析、判別分析等)
定量方法(時間軸分析、機率模型、優化)
決策分析(多目的決策分析、決策樹、影響圖、敏感性分析)
樹立競爭優點的分析(經過項目和成功案例學習基本的分析理念)
數據庫入門(數據模型、數據庫設計)
預測分析(時間軸分析、主成分分析、非參數迴歸、統計流程控制)
數據管理(ETL(Extract、Transform、Load)、數據治理、管理責任、元數據)
優化與啓發(整數計劃法、非線性計劃法、局部探索法、超啓發(模擬退火、遺傳算法))
大數據分析(非結構化數據概念的學習、MapReduce技術、大數據分析方法)
數據挖掘(聚類(k-means法、分割法)、關聯性規則、因子分析、存活時間分析)
其餘,如下任選兩門(社交網絡、文本分析、Web分析、財務分析、服務業中的分析、能源、健康醫療、供應鏈管理、綜合營銷溝通中的機率模型)
風險分析與運營分析的計算機模擬
軟件層面的分析學(組織層面的分析課題、IT與業務用戶、變革管理、數據課題、結果的展示與傳達方法)
二、掌握AI Machine Learning算法,會用工具(好比Python/R)進行建模。
傳統的BI分析能回答過去發生了什麼?如今正在發生什麼?但對於將來會發生什麼?必須靠算法。雖然像Tableau、FineBI等自助式BI已經內置了一部分分析模型,可是分析師想要更全面更深度的探索,須要像Python/R的數據挖掘工具。另外大數據之間隱藏的關係,靠傳統工具人工分析是不可能作到的,這時候交由算法去實現,無疑會有更多的驚喜。
其中,面向統計分析的開源編程語言及其運行環境「R」備受矚目。R的強項不只在於其包含了豐富的統計分析庫,並且具有將結果進行可視化的高品質圖表生成功能,並能夠經過簡單的命令來運行。此外,它還具有稱爲CRAN(The Comprehensive R Archive Network)的包擴展機制,經過導入擴展包就可使用標準狀態下所不支持的函數和數據集。R語言雖然功能強大,可是學習曲線較爲陡峭,我的建議從python入手,擁有豐富的statistical libraries,NumPy ,SciPy.org ,Python Data Analysis Library,matplotlib: python plotting。
最後,怎麼說呢,不管什麼時候業務分析、數據分析仍是數據科學教,他的價值體現仍是在於商業價值。數據人才到最後的發展也必定是要往企業運營VP、戰略參謀者身居。好比,數據戰略家可使用IT知識和經驗來制定商業決策,數據科學家能夠結合對專業知識的深刻理解使用IT技術開發複雜的模型和算法,分析顧問能夠結合實際的業務知識與分析經驗聚焦下一個行業爆點。
因此須要你具有溝通、組織、管理能力和商業思惟,這就不僅侷限於某個崗位了,須要你站在更高位的角度思考,爲企業謀福利。同時也要思考,拿着「數據分析」這張牌,如何在公司發揮價值,用數據驅動企業運營,這是要思考的。
課程推薦
若是想快速對數據分析創建認知,找到一個學習方向,推薦秦路老師的《7周入門數據分析》。
若是是在想要從事或已經從事數據工做的,好比「表哥表姐」,須要相似一個大牛在幫扶着教你的,這裏重點安利一個叫《決策菁英》的培訓課程。
這個課程算是我見過比較齊全比較接地氣的了。從行業背景、我的定位、工具技術學習、業務需求配合、職業發展,在企業放大數據分析的影響力等等,都有很詳細的解答。
尤爲是成爲數據分析師以後,可能會面臨的一些問題:好比說你基於數據分析得出結論和建議,領導不採納不接受,決策難落地,本身也作不出成果。若是你發展的順利,公司組建了一個數據中心,你做爲leader,爲了迎合如今以及將來各類各樣的業務需求,可能須要設計開發數據產品,很大一部分工做就涉及與業務、技術如何配(si)合(bi)溝通的事。
最後,成爲數據部門的老大,可能須要考慮如何將我的的影響力、部門的影響力在企業中放大。這裏數據分析可能要在全公司推廣,數據分析的決策可能也要上升到影響戰略的程度,這其中也有不少技能以外的東西。
轉自: https://504479728.iteye.com/b...