從前有一個數字王國,裏面的數字們喜歡在一塊兒玩,不過它們有點挑剔,老是想跟與本身接近的數字玩,他們以爲其餘都是遠房親戚,不親。咱們怎麼幫助它們找到合適的一組數字呢?ide
平均數是統計中的一個重要概念。一般用來表示一組統計對象的集中趨勢。對象
平均數裏面最經常使用的是算術平均數(或稱均值)。它是一組數字的和除以數字的個數。排序
在均值用於表示統計對象的通常水平,它是描述數據集中程度的一個統計量。咱們既能夠用它來反映一組數據的通常狀況,也能夠用它進行不一樣組數據的比較,以看出組與組之間的差異。it
例如數字20會跟下面兩組數字哪一組玩呢?table
A | 19 | 23 | 19 | 21 | 23 | 20 | 21 | 20 | 18 | 22 |
---|---|---|---|---|---|---|---|---|---|---|
B | 43 | 45 | 36 | 45 | 38 | 36 | 39 | 38 | 39 | 41 |
經過計算均值,A組的均值爲20.6,B組的均值爲40,因此數字20去和A組玩。class
爲何要用一個均值這樣的叫法,爲何不能直接叫平均數呢?統計
由於平均數有好多種:數據
STOP!好吧,咱們就用均值。。異常
數字20又來找人玩,此次的數據組是它們,均值是20,好像沒什麼問題,可是20好像並不開心:tab
C | 5 | 2 | 5 | 5 | 5 | 3 | 6 | 2 | 84 | 83 |
---|
這是怎麼一回事?!
中位數是另外一個表示集中趨勢的一個值,中位數不是全部數字計算得出,而是把全部的數按照大小的順序排列。若是數據的個數是奇數,則中間那個數據就是這組數據的中位數;若是數據的個數是偶數,則中間那2個數據的平均值就是這組數據的中位數。
因此上面的這組數字,應該用中位數來描述。
將全部數字從小到大排列後:
C | 2 | 2 | 3 | 5 | 5 | 5 | 5 | 6 | 83 | 84 |
---|
中位數爲第5和第6個數的平均值,也就是5,說明C組集中在了數字5的周圍,因此數字20不喜歡和它們一塊兒玩。在這裏,83,84偏離了總體,是異常值。
那就換一組數字吧,此次的數據組是它們,均值是20,中位數也是20,此次沒什麼問題了吧?
D | 3 | 5 | 5 | 5 | 6 | 34 | 34 | 36 | 36 | 36 |
---|
衆數指一組數據中出現次數最多的數據值。例如在(2,3,3,3)中,出現最多的是3,所以衆數是3,衆數多是一個數,但也多是多個數。用衆數表明一組數據,適合於數據量較多時使用,且衆數不受異常值的影響。
D組中出現次數最多的數字是5和36,表示數字分紅了兩堆接近的數,仍是沒有和數字20接近的,數字20也不喜歡和它們玩。
數字20受夠了!它要求再找些靠譜的參考標準,好吧,下面是一些參考:
全距又稱極差,用來表示一組數據中最大值與最小值之間的差額,即最大值減最小值後所得數值。全距爲離散程度的最簡單測度值,比較容易受到異常值影響。
上面的四組數據的全距爲:
A | B | C | D | |
---|---|---|---|---|
全距 | 5 | 9 | 82 | 33 |
對於數字20來講,若是全距太大,就有多是個坑。不過光看全距說明不了更多問題,還要進一步來看。
百分位數是將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值就稱爲這一百分位的百分位數。
上面四組數據的10%百分位數和90%百分位數分別爲:
百分位數 | A | B | C | D |
---|---|---|---|---|
10% | 18.9 | 36 | 2 | 4.8 |
90% | 23 | 45 | 83.1 | 36 |
百分位數對於數字20來講,是一個很好的參考,能夠知道和他大小相仿的數字都集中在什麼區域。可是這麼多百分位數,選哪一個好呢?
四分位數能夠理解爲是特定的幾個百分位數:25%,50%和75%。將一組數據從小到大排列後:
第一四分位數等於第25%的數字,也叫下四分位數;
第二四分位數等於第50%的數字,也就是中位數;
第三四分位數等於第75%的數字,也叫上四分位數;
第三四分位數與第一四分位數的差距又稱四分位距。
四分位距提供了一個簡單的判斷數字分散程度的指標,對於數字20來講,能夠有效的避免使用百分位數時的選擇困難症。
上面四組數據的四分位數以及四分位距爲:
四分位數 | A | B | C | D |
---|---|---|---|---|
下四分位數 | 19.25 | 38 | 3.5 | 5 |
上四分位數 | 21.75 | 42.5 | 5.75 | 35.5 |
四分位距 | 2.5 | 4.5 | 2.25 | 30.5 |
這樣看來C組彷佛比A組還要好,還有沒有更靠譜一些的指標?
方差用來描述一組數的離散程度,它將各個數和均值的差算一下平方,相加以後再除以總數,這樣就能夠算出各個數據分散的程度。
上面四組數據的方差爲:
A | B | C | D | |
---|---|---|---|---|
方差 | 2.64 | 10.2 | 1009.8 | 232 |
C組和D組一會兒就被排除了,偏離了太多。方差更好,不過因爲平方了一下,若是想要更直觀的表示和均值的距離的話,就要用到下面的標準差:
標準差是方差開平方,反映這組數字的離散程度。
標準差越大,表明大部分的數值和其平均值之間差別較大;標準差越小,表明這些數值較接近平均值。
上面四組數據的標準差爲:(保留兩位小數)
A | B | C | D | |
---|---|---|---|---|
標準差 | 1.62 | 3.19 | 31.78 | 15.23 |
標準差說明A組數據,平均和均值之間平均差距爲1.62,你們都很接近,選這一組就沒錯了。
數字20:你一開始告訴我標準差不就行了?繞這麼多彎子幹什麼?
上面的每一種值都有各自的適用場合,要根據關注的目標,使用合適的值進行描述,纔是最合理的,沒有惟一一個最好的衡量值。例如上面四組數據,若是隻看標準差,能說明數字比較靠近,但並不能代表這一組數字靠近誰,還須要結合均值來一塊兒考慮。