今天分享一下數據分析的一些基本思想,我給它起了個名字叫作用數聽說話。內容都是我的的一些心得,比較膚淺!若有不足之處,但願你們諒解!廢話不說了,如今咱正式開始。html
用數聽說話,就是用真實的數聽說真實的話!真實也能夠理解爲求真務實。那麼,數據分析就是不斷地求真,進而持續地務實的過程!用一句話表達就是用數聽說話,用真實的數聽說話,說真話、說實話、說管用的話。jsp
1.用數聽說話測試
數據本不會說話,可是面對不一樣的人時,就會發出不一樣的聲音。如今咱們以《荒島售鞋》這個老故事爲引例,從數據分析的角度來解讀,看看能不能開出新花?爲防止你們案例疲勞,我儘可能用新的表達方式把故事羅嗦一下!大數據
話說郭靖和楊康,被成吉思汗派去美麗的桃花島進行射鵰牌運動鞋的市場拓展。郭靖和楊康一上桃花島就驚訝地發現這裏的居民所有赤腳,沒有一個穿鞋的,不論男女仍是老小,莫不如此。楊康一看,倒吸了一口涼氣,說:唉!完了,沒啥市場!郭靖卻不這麼認爲,立刻掏出了新買的IPHONE4G給鐵木真打了個長途加漫遊的彙報電話。面對桃花島這個空白的市場,郭靖電話裏這麼說:「桃花島人口衆多,但信息閉塞。如今全島居民,所有赤腳。在運動鞋市場上沒有任何競爭對手,茫茫藍海,市場將爲我獨霸!可喜,可喜啊!」這個時候,咱現場作個調查,假如你是成吉思汗,你會怎麼抉擇?(投資Y1人,不投資的N1人。)設計
這個時候楊康聽不下去了,立刻搶過電話,說到「大汗,別聽郭靖瞎嚷嚷!市場雖然沒有競爭,但並不就必定是藍海。在全球化競爭的大背景下,這麼垂手可得的就讓咱們找到了藍海,您以爲可能嗎?難道阿迪、耐克、彪馬、銳步這些國際巨頭都是棒槌,會發現不了?我看確定是島上幾百年不穿鞋的生活習慣,短時間內沒法改變,因此各路羣雄,都只能望而止步!惋惜,惋惜啊!」聽了楊康的論述,鐵木真又該如何選擇呢?請你們舉手表態。(願意投資Y2人,不肯意投資的N2人。)薑是老的辣!成吉思汗比較理性,他只說了一句:「繼續調研,要用數聽說話!」就把電話掛了!htm
一個星期以後,楊康率先給BOSS彙報了。不過他沒有選擇打電話,而是改發E—MAIL。緣由有三:一是全球通資費過高了,錢要省着點花;二是楊康有點小人,他擔憂郭靖聽了他的表述後,剽竊他的思想;三是他寫了一份詳細的調研報告,電話裏三言兩語說不清。楊康的調查報告裏詳細地記錄了他與島內精心選取的200位居民的談話內容,以及他抽取居民樣本時科學合理的甄別條件,最後的結論就是:島內居民所有(100%)以捕魚爲生,腳一年四季泡在水裏,根本就不須要鞋!聽到這個消息,成吉思汗怎麼辦呢?請你們繼續舉手表態!(願意投資Y3人,不肯意投資的N3人。)blog
成吉思汗有本身的想法。這個時候,他沒有作決策,而是繼續等。等什麼呢?等郭靖的結論!又過了兩天郭靖終於打來了電話。電話裏說了3句話:「這個市場能夠作!緣由是島上的居民每週都要上山砍柴,而且十有八九會被劃破腳!更可喜的是,這兩天他用美男計泡到了島主的女兒黃蓉,並且黃蓉答應給射鵰牌運動鞋做形象代言!」故事發生到這個階段,我請你們作最後一次表態。(願意投資Y4人,不肯意投資的N4人。)排序
好!數據在變,咱們的決策也在變。不過,成吉思汗比咱們理性的多。回答仍是一句話,不過比第一次多了幾個字:「繼續深刻調研,用詳實數據論證。」爲何呢?難道這些數據還不夠詳實嗎?是的!由於在成吉思汗腦殼裏還存在有不少疑問。教程
好比:事件
1)難道競爭對手真的沒來過?仍是對方論證後真的不可行?
2)山上不會開個伐木廠吧?若是有了伐木廠,居民就不會上山砍柴了,到時候送柴上門,鞋還有個屁用啊!
3)爲何一週才上一次山?該不會主要使用的是太陽能吧?
4)運動鞋的運輸成本、營銷成本、銷售成本是多少?投資收益率有多高?
5)……
聽完這個案例,我想問你們一個問題!從數據分析的角度看,你受到了什麼啓示?請注意這裏說的數據分析的角度,若是你獲得的啓示是:鐵木真領導的郭靖與楊康不是1個老男人+2個帥小夥的Gourp,而是教練型的Team。那麼,抱歉!這不是咱們今天討論的範圍。好,在座的各位誰來表達一下本身的見解呢?提示性的啓示有:
面對同一個數據,不一樣的人會說不一樣的話。
真實的數據並不必定能推導出正確的結論。
正確的決策須要有充分的數據去論證。
……
說完了啓示,咱把這頁PPT總結一下。這個案例涉及數據的蒐集、分析、彙報以及用於決策的整個過程。在這個過程裏,不管那個細節出了問題,最終作出的決策都將是致命的!因此說質量是數據的生命,在數據用於決策的整個過程,都必須保證真實有效!
2.用真實的數聽說話
所謂用真實的數聽說話,就是指在說話以前,先審覈數據的真實性!現實生活中,拿着錯誤的數據還能大言不慚的能夠說比比皆是。其中有兩位傑出的表明:一個是傳說中偉大的中國統計局,另外一個就是動不動就要封殺這個封殺那個的CCTV。我不是瞎說,由於有數據支撐!
2010年1月20日,國家統計局公佈了2009年全國房地產市場數據,整年房價平均每平方米上漲813元。夠雷人吧!雷聲還沒過,霹靂緊跟着又來了!2月25日國家統計局發佈了《2009年國民經濟和社會發展統計公報》,數據顯示,70個大中城市房屋銷售價格上漲1.5%。真但是天雷滾滾!難怪網友把統計局票選成大天朝的娛樂至尊!
此話一出,央視不答應了!真所謂中國統計,娛樂至尊;央視不出,誰與爭鋒?那咱們仔細推敲一下央視的數據。2010年2月15日,CCTV發佈了虎年春晚的滿意度報告,結果顯示滿意度爲83.6%。幾乎同一天,新浪的公佈的調查結果是14.55%;後來沒幾天,騰訊也發佈了滿意度數據,結果是10.48%。數據一出,網友們罵聲不斷,此起彼伏,一浪高過一浪。可是人家央視就是央視,大有敵軍圍困萬千重,我自巋然不動的定力。更誇張的是央視不但能裝做視而不見,充耳不聞,並且還繼續恬不知恥地在本身家的那幾個頻道里賣弄數據,自娛自樂。到底央視的數據錯在哪裏?咱們先審視一下央視的調查方法。
央視的調查結果,來自央視——索福瑞媒介研究有限公司。索福瑞號稱他們電視觀衆滿意度調查的樣本覆蓋了全國30個城市,抽樣框總人數有30,000人,央視春晚滿意度的調查就是從這3萬人中隨機抽取了2122人進行調查。這樣看,嚴格意義上講所謂83.6%的滿意度只能表明3萬人的見解。固然,若是我拿這個說法與央視理論,對方確定能拿出3萬表明全國的理論證據。具體就是先從2千推斷3萬,再用3萬推及到30個城市,而後從30個城市推及至全國全部城市,最後再推及至全國。這裏用到了簡單隨機抽樣、分層抽樣、典型抽樣,總起來仍是個多階段抽樣,多麼堂而皇之的理論依據!可是,縱然每一步都能保證90%的可靠程度,四次推及下來理論的可靠程度也只有65%。可遺憾的是,最後一步用城市推及全國的作法在理論上還有一道坎,由於咱們不知道如何用45%的城鎮居民來表明55%的農村人口?
說完了表明性的問題,咱們再看看調查方法。索福瑞採用的是電話調查,並且時段選擇在春晚直播的那幾個小時內。聽說調查是從晚上8:30開始,一直持續到春晚結束。巨汗!8:30貌似90%的節目尚未上演,又怎麼能調查到觀衆對整個春晚的滿意度呢?
央視的數據是經不住推敲的!那麼,新浪和騰訊的必定對嗎?不必定,這兩個數據也只能表明新浪用戶和騰訊用戶的春晚滿意度,最多可以表明一下4億網友,要想替13億的中國人民表達心聲,也恐怕是鞭長莫及。
欣賞了統計局和CCTV送給咱們的兩個開年笑話以後,咱們本身也應該反思,我們平常工做中,在從數據的蒐集、提取、整理到分析、發佈、使用的這一連串過程當中,數據有沒有失真?是否是數據自始自終都很齊全、很準確,並且統計口徑與分析目的保持着高度的一致呢?這個問題留到平常工做中供你們思考。
3.說真話說實話
拿着錯誤的數據,確定得不出正確的結論。那麼面對真實的數據,就必定能得出正確的結論嗎?未必!給你們看個小笑話。
問:你只有10平米的蝸居,鄰居家從90m2換到190m2,你的居住面積有沒有增長?
答:沒有。
解:錯,大家兩家的平均居住面積是100m2,你的居住面積被神不知鬼不覺地增長了!
這個神不知鬼不覺是誰呢?無敵的平均數!仔細想一想,這個均值算錯了嗎?沒有!那麼,問題出在哪裏?單一的統計量存在片面性,因此要想反映數據的真實面貌,就得使用一系列統計量。
我再杜撰一個氣候的例子,說明一下在結構嚴重失衡的狀況下,使用平均數的可怕之處。咱們的大中國啊,960萬平方千米,同一時間裏有的颳風,有的下雨,還有的高溫酷暑。從去年冬天到今年的春天,北方一直暴雪連天,南方則遭遇百年旱情;而最近這段時間,南方多個省市河水決堤,沿河兩岸,村莊淪陷,而北方則是烈日當頭,乾旱焦人,酷暑難耐。若是咱們計算整年或者是全國降雨量的平均值,算出來的結果確定是神州大地風調雨順,國泰民安,而實際倒是華夏民族飽經風霜,多災多難!
還好,統計學家不僅給了咱們平均數,同時還設計了許多其餘的統計量,你們看看下面這個表。
衡量數據的集中趨勢,基本有三個統計量,均值、中位數和衆數。均值是數值平均數,它容易受極端值的影響。也就是說若是數據的跨度或者說是極差不大的話,用均值能夠很好的反映真實狀況。可是,若是數據的差別比較大,單一使用平均數就會搞出新的笑話了。中位數和衆數屬於位置平均數,中位數是把數據從小到大排序,正好處於中間位置的那個數,衆數是說出現的頻次最多的那個數。
數據除了有集中趨勢,還有離散趨勢。反映離散趨勢的統計量主要有方差、標準差、極差、變異係數等。方差就是觀測值與均值差的平方和除以自由度,自由度通常是n或n-1。整體數據就用n,抽樣數據就用n-1。標準差就是方差的正平方根,它的意義是消除了量綱的影響。極差是最大值與最小值的差,反映的是觀測值的跨度範圍。還有一個比較重要也是比較經常使用的就是變異係數,它是標準差與均值的比,目的是消除數量級的影響。
此外,還有一些是描述數據分佈的統計量,好比分位數,有四分位、八分位、十分位等等,二分位就是中位數,它們反映一系列數據某幾個關鍵位置的數值。頻率分佈,就是對數據分組或者是分類後,各組或各種的百分比。偏度是用於衡量分佈的不對稱程度或偏斜程度,峯度是用於衡量分佈的集中程度或分佈曲線的尖峭程度的指標。
若是想再深刻一些的話,就會用到相關係數、置信水平、統計指數等等。相關係數是反映變量之間線性相關程度的指標,取值範圍是【-1,1】,大於0爲正相關,小於0爲負相關,等於0表示不相關。置信水平是指整體參數值落在樣本統計值某一區內的機率。統計指數就是將不能直接比較的一些指標經過同度量因素的做用使得可以比較,常見的物價指數、上證指數等等。
有了這些基本的統計量,咱們在實際工做中只要稍微用心選擇一下,就能夠比較準確的描述數據的真實狀況。
4.說管用的話
說管用的話是指深刻分析數據的實質,挖掘數據的內涵,而不是停留在數據的表層,說些大話、空話或者套話。這就要求在數據分析時,首先明確分析的目的,其次是選擇恰當的方法,最後得出有用的結論。通俗地說,說管用的話,就是不說屁話,少說廢話!
4.1明確分析目的
這裏咱們舉個例子。我想這個例子的時候正好是7月7號,N年前的那個時候,正好是在座的各位高考的日子,因此就杜撰了一個高考的數據。
咱們這個班級,雖然成績很爛,800分的總分,平均成績只有486分,可是人才濟濟,名字一個比一個響,人氣一個比一個旺。你們先認識一下,有飽讀四書五經,滿腹經綸的關東秀才呂輕侯;有籃球場上進攻犀利,防守嚴密的小飛俠科比;還有足球場上不管是邊路傳中仍是搶點射門都有很是出色的C羅納爾多;有喜歡煙燻妝、藍絲襪加高跟鞋出鏡的僞娘劉著,有被億萬網友燒香膜拜的春哥黨教主李宇春,還有常常抱着吉他哼着綿羊音的90後MM曾軼可;以及自稱冰清玉潔、妖媚性感、擅長爆發性舞蹈動做的芙蓉姐姐和非清華北大經濟學碩士不嫁、奧巴馬也可的重慶籍奇女子羅玉鳳!
基於學生的考試成績,不一樣的人會關注不一樣的方面,高考的判卷老師會關心試卷的雷同程度,命題人會測試考卷的信度和效度,研究文理分科的專家會計算文理成績的相關程度。可是對於普通中學,一般只會關心兩個方面。一是學生成績,計算升學率;二是教學水平,給優秀教師發獎金。若是高中的教學科在這裏研究文理相關就屬於廢話,若是還要把問卷的信效檢驗也扯出來就是屁話了。
關於學生:
呂秀才:總分722分,班級第一,平均成績超過90分,若是將其餘同窗的水平比做三層小樓的話,呂秀才應該是站在賽格頂上!奇才,上清華北大沒有問題。
科比和C羅:總分550左右,平均不到70分!屬於班級2號、3號人物,但成績確實不咋地,不過在該班級中也算鶴立雞羣了。
劉著、李宇春、曾軼可:成績較差,上學確定不是她們的出路!基於平時性情怪異,男的像女,女的像男,還有一個像綿羊,建議別走高考這條尋常路,仍是去湖南衛視選秀吧。
鳳姐、芙蓉:這成績,就是個腦殘,估計腦殼不是被門擠過,就是被驢踢過!
關於老師:
衡量教師的優劣須要剔除異常值,呂秀才就是!呂秀才屬於成績異常出衆,我的素質極高,因此他的成績不該該成爲衡量老師優劣的樣本。
語文均值高,變異係數小!由此看出語文老師真是好老師!該發獎金!
同理,歷史老師也不錯!也應該適當獎勵。至於物理老師,太差,得趕快換掉,絕對不能讓他繼續誤人子弟了!
存在疑問的就是英語老師。英語成績的均值較高,但變異係數大。這說明數據裏可能存在極端值。可能的異常值是科比與C羅。科比美國人,外語天然好!C羅葡萄牙人,但從2003年到2009年一直在英國留學,6年啊,英語好也是應該的!因此,科比與C羅的英語成績不能算是英語老師的栽培,因此科比和C羅是異常值,應該剔除。那麼,剔除異常後就會發現英語的均值只有47分!說明英語老師並不能算作好老師,因此只能與獎金無緣了!
4.2選擇恰當的方法
接上面的案例。若是咱們是研究高中該不應進行文理分科的有關部門,那麼咱們該如何分析文理成績之間的相關性?
舉例1:如何計算文理科之間的相關性。
目前基本有三種方法,一是簡單相關分析,二是典型相關分析,三是潛變量相關分析。
簡單相關分析就是經過加總,分別計算出文科成績總和、理科成績總和,而後計算二者的簡單相關係數。
典型相關分析主要用於衡量兩組變量之間的相關性。它的基本原理是:爲了從整體上把握兩組指標之間的相關關係,分別在兩組變量中提取是的相關係數最大的一系列典型變量,而後經過計算各對典型變量之間的相關性,來反映變量間的相關程度。
潛變量相關就是計算潛變量之間的相關係數。所謂潛變量是相對於顯變量或者測量變量而言的。潛變量是實際工做中沒法直接測量到的變量,包括比較抽象的概念和因爲種種緣由不能準確測量的變量。一個潛變量每每能夠有多個顯變量,潛變量是能夠看作是其對應顯變量的抽象和歸納,顯變量則可視爲特定潛變量的測量指標。在文理科相關性的分析中,咱們能夠將文科、理科當作潛變量,將語文、外語、政治、歷史這四個顯變量當作文科的測量指標,將數學、物理、化學、生物這四個顯變量當作是理科的測量指標,那麼求文理成績之間的相關問題就轉化成潛變量之間相關的問題。
那麼。咱們究竟該選用哪一種方法呢?或者假如說咱們同時使用了上面三種方法,求出相關係數,該選擇哪個呢?好比咱們計算的結果分別是0.35(簡單相關)、0.85(最大典型變量)、-0.65(潛變量相關),這個時候咱們到底該相信哪一個數據呢?
其實,我更願意相信簡單相關計算的結果。緣由以下:
一、簡單相關,既簡單又易理解。
二、典型相關的取值範圍是【0,1】,它計算出的結果沒有正負,只有大小。與咱們實際研究目的有悖。咱們想知道學生是否在文理課程上均衡發展,所謂均衡就是正相關,所謂不均衡就是負相關。而典型相關作不到。
三、潛變量相關雖然取值範圍是【-1.1】,可是它多數是採用主成分的方法擬合潛變量,而依據方差提取最大主成分的過程與咱們的分析貌似不甚吻合。
四、最重要的是,其實簡單加總與典型相關、主成分相關擁有同一個思想,就是先把多個變量擬合成一個變量(或幾個),而後分析這個擬合出來的變量之間的相關性。其實,在量綱、數量級相同的狀況下,並且權重也容易計算的狀況下,最簡單有效的擬合就是加總!因此我認爲簡單加總後計算出的相關係數是最有效。而潛變量、典型變量是在量綱或數量級不等的狀況下,衡量多個變量之間相關關係的有效方法。
舉例2:計算硬幣正反機率
最後,再給你們作道選擇題。
問題:若是一枚硬幣連拋10次都是正面,問第11次出現正面的機率是多少?
選項:A. 接近0%B.50%C.接近100%D. 以上答案都不對
一個硬幣連拋10次都出現正面的機率是0.510,絕對的小几率事件。在一次實驗中,小几率事件發生,那麼咱們就應該拒絕原假設。原假設是什麼?硬幣出現正反的機率是0.5。因此,咱們能夠大膽地推斷,硬幣自己就是一個兩面都是正面的硬幣,因此說第11次出現正面的機率是100%,或者接近100%。你們是否是有異議呢?
樹上10只鳥,獵槍一槍打死1只,樹上還剩0只的結論你們都應該贊成吧。由於咱們考慮的是實際問題,不是10-1=?的數學算式。因此你們在幼兒園的時候就知道槍聲響過,樹上一隻鳥都不會剩。試想,你和你的朋友打賭投硬幣猜正反,若是10次以後朋友投出來的都是正面,你會怎麼想?兄弟你出千了吧,硬幣確定有問題吧!相信用不了10次,你就會提出這樣的質疑了。若是說計算機率,0.5沒有錯,獨立事件發生的機率不因以前的狀況而改變。可是,若是用假設檢驗的思想,100%的結論就更合理了。之因此說0.5的結果不對,不是說你的計算出錯了,而是在解決實際問題的時候,你太教條了,太書本了,從而選錯方法了。
5.最後總結
個人分享結束了,你們也聽了也笑了,可是笑過以後務必記住我囉嗦了一個小時的這句話:用數聽說話就是用真實的數聽說話,說真話、說實話、說管用的話!最後說一句廢話:但願剛剛過去的1個小時沒有浪費你們的時間。謝謝!
來源:http://blog.sina.com.cn/s/blog_66035a700100khw2.html
更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>
詳情請諮詢在線客服!
客服熱線:023-66090381