2 數據的歸納性度量

閱讀材料爲 第四章。函數

開頭先來一個整體內容的歸納好了:spa

集中趨勢:衆數、中位數、平均數excel

離散程度:異衆比率、四分位差、極差、平均差、方差或標準差、離散係數io

分佈的形狀:偏態係數、峯態係數變量

 

集中趨勢:方法

分類數據:經驗

衆數:通常狀況下,只有在數據量較大的時候衆數纔有意義。總結

衆數可能不存在,也可能有多個。數據

順序數據:di

分位數、中位數

中位數的位置:(n+1)/2

數值型數據:

平均數:簡單平均數、加權平均數、幾何平均數

簡單平均數很簡單就不說了。

根據分組數據計算的平均數稱爲加權平均數;工做中咱們算1-9月的店均銷售就是採用加權平均的,由於每月的店鋪數會有變化。用1-9月的銷售額之和除以1-9月的店鋪數之和。

幾何平均數的主要應用是計算現象的平均增加率(當數據出現零值或負值時不宜使用)。

當所平均的各比率數值相差不大時,算術和幾何平均的結果差異不大。

 

衆數、中位數、平均數之間的關係:

當數據對稱分佈時,三者相等;

當數據左偏分佈時,平均數被拉向左邊,中位數也略偏左邊,所以,平均數<中位數<衆數

當數據右偏分佈時,平均數被拉向右邊,中位數也略偏右邊,所以,衆數<中位數<平均數

三者的應用場合:

衆數:數據量大時適用;分類數據。

中位數:不受極端值影響,所以偏態分佈時適用;順序數據。

平均數:受極端值影響大,所以數據對稱分佈時適用;數值型數據。

 

集中趨勢和離散程度之間的聯繫:

數據的離散程度越大,集中趨勢的測度值對該組數據的表明性越差。

離散程度的測度值有:

異衆比率(分類數據)

四分位差(順序數據;兩個四分位數的差,反映了中間50%數據的離散狀況)

方差&標準差(經常使用,有量綱)&極差(簡單粗暴,極易受極端值影響)&平均差(實際意義清楚,準確反映全體數據的離散狀況)

離散係數:用於對比不一樣水平的不一樣樣本的離散狀況(標準差除以平均值)。

 

平均值&標準差鑄造的終極武器:標準分數

計算方法:(數據-平均值)/標準差

用途:

①能夠測度每一個數據在該組數據中的相對位置

②能夠用它來判斷一組數據匯老是否有離羣數據

③咱們在對多個具備不一樣量綱的變量進行處理時,經常用標準分數對各變量進行標準化處理

---->經驗法則:適用於對稱分佈的數據。三個數分別是 68%,95%,99%

---->切比雪夫不等式:適用於任何分佈的數據。三個數分別是 75%,89%,94%

 

離散係數(相對離散程度)

計算方法:標準差除以平均值。(當平均數接近0時,離散係數的值趨於增大,此時必須慎重解釋)

主要用來比較不一樣樣本數據的離散程度。

 

數據分佈形狀的度量:偏態與峯態

偏態:若數據對稱分佈,則偏態係數爲0;若大於1或小於-1,爲高度偏態分佈;若在0.5到1 或 -1到-0.5之間,爲中等偏態分佈。

峯態:若數據正態分佈,則峯態係數爲0;若大於0爲尖峯分佈,數據分佈集中;若小於0爲扁平分佈,數據分佈分散。

 

最後總結一下與以上概念相關的excel函數:

1.衆數:mode(),若不含重複數據,會返回錯誤值

2.中位數:median()

3.四分位數:quartile.inc(array,quart)

quart=0,返回最小值;quart=1,返回第一個四分位數;quart=2返回中位數;quart=3,返回第二個四分位數;quart=4返回最大值

4.算術平均數:average()

5.幾何平均數:geomean()

6.平均差:avedev()

7.標準差:stdev()

8.偏態係數:skew()

9.峯態係數:kurt()

相關文章
相關標籤/搜索