爲何數據前面加個大?算法
不加大你不點,不加大不時髦,不加大不夠大!工具
先從一個故事講起,某養豬場廠長告訴A分析屍,我要看幾個數據,你提取一下,一週後給我看看。學習
A分析屍列出:大數據
豬總數10000、收入500萬、淨利潤180萬。設計
豬場老闆一看,說:作的不錯,A君好好幹。blog
一樣的問題,豬場老闆給了B分析屍,B分析師很用功,分析公司今年的戰略計劃和年初定製的KPI目標,得知一個信號,豬場老闆想下降成本、提升利潤。數據分析
B分析屍列出了:自動化
投入減小30%、毛利480萬、淨利增加50%微博
豬場老闆一看,大喜,B君下月給你加薪。class
一樣的問題又給了數據君
數據君爲了分析目標老闆的目的,分析了去年他講話的內容,也分析了他以往發給員工的郵件,甚至爬了豬總的微博、朋友圈得知一個信息,豬總其實不想繼續增長擴張,想減小投入,提升淨利,並且他對自動化餵養很感興趣,寫了幾篇本身豬場和自動化餵養結合的文章,那麼問題來了?我該如何思考?
先看看通常商業分析分析的路徑,這個是麥肯錫的,很經典,但許多人知道,歷來不循序漸進來
首先從幾個關鍵的業務目標出發:
羅列出這些目標影響的因素有那些?那麼問題來了,因素他們多你如何去選取?
這時候就須要數據的支持,通常2種方式:
一、內部數據去推算,驅動因素影響的程度如何?這時候什麼相關分析、AHP、迴歸分析等,給因素影響一個量化的標準,找出核心驅動因素;
二、外部數據,採用座談,調研等方式肯定公司各個業務部門對驅動因素的鎖定。
其次就是驗證推理提取核心的過程:
數據君總體分析了豬的結構,好比公母比例、幼豬和出品豬的結構變化,豬市場價格發展變化規律等,也從市場上分析了一些自動化餵養設備的投入,算出了ROI,這時候要系統性的去思考,各種對比和梳理。
這點大多數據分析輕車熟路,不作過多的闡述。
那麼我發現了什麼?
一、豬的繁殖有問題,公豬佔85%,母豬佔15%;
二、豬食的浪費問題,天天大概有價值10000大洋的豬食被當成垃圾請走;
三、豬市場的價格從10月開始通常上升趨勢明顯。
最後,我給豬總呈現了三個數據,這纔是數據分析的核心:
一、繁殖問題,比例失調嚴重,緊缺母豬,如今(5月)母豬在市場的引入價格較低,建議引入500頭母豬,這是第一個數據;
二、自動化餵養,採納分析了ROI和採購價格的對比,預計採購某廠家的自動化餵養,1年後自動化餵養能夠節約50w的成本,這是第二個數據;
三、從目前來說,咱們的成品豬較多,建議加大銷售,騰出更多的地方買入幼豬,預估10月份將提高30%的淨利,這是第三個數據;
豬場老闆一看,目瞪口呆!!
數據君明天開始,你出任公司數據增加的業務負責人,薪資加倍。
以上的故事是我虛構的,可能語言組織和思路還不夠嚴謹,我只是爲了告訴你們一個道理,數據分析的本質是商業分析,而不是技術和工具問題,大數據時代,數據價值和驅動纔是咱們每一個分析師應該關注的問題,從一個綜合技能來看。
想成爲一個出色的分析師須要N多技能,那些技能能讓你快速實現本身的目標,這纔是咱們學習數據分析應該定位的,都要學習嗎?
有了場景,有了明確的目的,接下來纔是分析師們經常使用的三大利器:
一、對比,任何分析都是對比,對比就要講究設計、平等、體系,纔可比,換句話就是找「雙胞胎」,才值得比,並列關係;
二、拆解,業務其實和數據分析同樣,都是不斷的拆分,拆的程度就是回答你的假設,許多指標都是分渠道、區域、用戶類型、品類特徵去拆,但拆要分主次,你拆和不拆對結果有什麼影響要好好假設考慮,並列和主次;
三、構成,許多事情你明白他的構成你就更加清晰,比如你去飯店吃飯,有一盤菜,LP說真好吃,那你就會去研究這菜有什麼成分,什麼菜品組成,加工順序如何,這就叫拋,彼此都是並列和流程關係。
不要迷戀統計學、工具、算法,就比如平均數能夠當作是一組數據的綜合衡量,而分析解讀風險指數就是方差,固然你不懂統計學,什麼數據都用平均數的話,你和統計局智商基本同樣,要消化概念,看你如何把算法和規則轉化爲商業問題,這纔是關鍵。