2 數據的歸納性度量

時間 2019-11-10

標籤數據歸納度量简体版

原文原文鏈接

閱讀材料爲第四章。函數

開頭先來一個整體內容的歸納好了：spa

集中趨勢：衆數、中位數、平均數excel

離散程度：異衆比率、四分位差、極差、平均差、方差或標準差、離散係數io

分佈的形狀：偏態係數、峯態係數變量

集中趨勢：方法

分類數據：經驗

衆數：通常狀況下，只有在數據量較大的時候衆數纔有意義。總結

衆數可能不存在，也可能有多個。數據

順序數據：di

分位數、中位數

中位數的位置：(n+1)/2

數值型數據：

平均數：簡單平均數、加權平均數、幾何平均數

簡單平均數很簡單就不說了。

根據分組數據計算的平均數稱爲加權平均數；工做中咱們算1-9月的店均銷售就是採用加權平均的，由於每月的店鋪數會有變化。用1-9月的銷售額之和除以1-9月的店鋪數之和。

幾何平均數的主要應用是計算現象的平均增加率（當數據出現零值或負值時不宜使用）。

當所平均的各比率數值相差不大時，算術和幾何平均的結果差異不大。

衆數、中位數、平均數之間的關係：

當數據對稱分佈時，三者相等；

當數據左偏分佈時，平均數被拉向左邊，中位數也略偏左邊，所以，平均數<中位數<衆數

當數據右偏分佈時，平均數被拉向右邊，中位數也略偏右邊，所以，衆數<中位數<平均數

三者的應用場合：

衆數：數據量大時適用；分類數據。

中位數：不受極端值影響，所以偏態分佈時適用；順序數據。

平均數：受極端值影響大，所以數據對稱分佈時適用；數值型數據。

集中趨勢和離散程度之間的聯繫：

數據的離散程度越大，集中趨勢的測度值對該組數據的表明性越差。

離散程度的測度值有：

異衆比率（分類數據）

四分位差（順序數據；兩個四分位數的差，反映了中間50%數據的離散狀況）

方差&標準差（經常使用，有量綱）&極差（簡單粗暴，極易受極端值影響）&平均差（實際意義清楚，準確反映全體數據的離散狀況）

離散係數：用於對比不一樣水平的不一樣樣本的離散狀況（標準差除以平均值）。

平均值&標準差鑄造的終極武器:標準分數

計算方法：(數據-平均值)/標準差

用途：

①能夠測度每一個數據在該組數據中的相對位置

②能夠用它來判斷一組數據匯老是否有離羣數據

③咱們在對多個具備不一樣量綱的變量進行處理時，經常用標準分數對各變量進行標準化處理

---->經驗法則：適用於對稱分佈的數據。三個數分別是 68%，95%，99%

---->切比雪夫不等式：適用於任何分佈的數據。三個數分別是 75%，89%，94%

離散係數（相對離散程度）

計算方法：標準差除以平均值。（當平均數接近0時，離散係數的值趨於增大，此時必須慎重解釋）

主要用來比較不一樣樣本數據的離散程度。

數據分佈形狀的度量：偏態與峯態

偏態：若數據對稱分佈，則偏態係數爲0；若大於1或小於-1，爲高度偏態分佈；若在0.5到1 或 -1到-0.5之間，爲中等偏態分佈。

峯態：若數據正態分佈，則峯態係數爲0；若大於0爲尖峯分佈，數據分佈集中；若小於0爲扁平分佈，數據分佈分散。

最後總結一下與以上概念相關的excel函數：

1.衆數：mode()，若不含重複數據，會返回錯誤值

2.中位數：median()

3.四分位數：quartile.inc(array,quart)

quart=0，返回最小值；quart=1，返回第一個四分位數；quart=2返回中位數；quart=3，返回第二個四分位數；quart=4返回最大值

4.算術平均數：average()

5.幾何平均數：geomean()

6.平均差：avedev()

7.標準差：stdev()

8.偏態係數：skew()

9.峯態係數：kurt()

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。