閱讀材料爲 第四章。函數
開頭先來一個整體內容的歸納好了:spa
集中趨勢:衆數、中位數、平均數excel
離散程度:異衆比率、四分位差、極差、平均差、方差或標準差、離散係數io
分佈的形狀:偏態係數、峯態係數變量
集中趨勢:方法
分類數據:經驗
衆數:通常狀況下,只有在數據量較大的時候衆數纔有意義。總結
衆數可能不存在,也可能有多個。數據
順序數據:di
分位數、中位數
中位數的位置:(n+1)/2
數值型數據:
平均數:簡單平均數、加權平均數、幾何平均數
簡單平均數很簡單就不說了。
根據分組數據計算的平均數稱爲加權平均數;工做中咱們算1-9月的店均銷售就是採用加權平均的,由於每月的店鋪數會有變化。用1-9月的銷售額之和除以1-9月的店鋪數之和。
幾何平均數的主要應用是計算現象的平均增加率(當數據出現零值或負值時不宜使用)。
當所平均的各比率數值相差不大時,算術和幾何平均的結果差異不大。
衆數、中位數、平均數之間的關係:
當數據對稱分佈時,三者相等;
當數據左偏分佈時,平均數被拉向左邊,中位數也略偏左邊,所以,平均數<中位數<衆數
當數據右偏分佈時,平均數被拉向右邊,中位數也略偏右邊,所以,衆數<中位數<平均數
三者的應用場合:
衆數:數據量大時適用;分類數據。
中位數:不受極端值影響,所以偏態分佈時適用;順序數據。
平均數:受極端值影響大,所以數據對稱分佈時適用;數值型數據。
集中趨勢和離散程度之間的聯繫:
數據的離散程度越大,集中趨勢的測度值對該組數據的表明性越差。
離散程度的測度值有:
異衆比率(分類數據)
四分位差(順序數據;兩個四分位數的差,反映了中間50%數據的離散狀況)
方差&標準差(經常使用,有量綱)&極差(簡單粗暴,極易受極端值影響)&平均差(實際意義清楚,準確反映全體數據的離散狀況)
離散係數:用於對比不一樣水平的不一樣樣本的離散狀況(標準差除以平均值)。
平均值&標準差鑄造的終極武器:標準分數
計算方法:(數據-平均值)/標準差
用途:
①能夠測度每一個數據在該組數據中的相對位置
②能夠用它來判斷一組數據匯老是否有離羣數據
③咱們在對多個具備不一樣量綱的變量進行處理時,經常用標準分數對各變量進行標準化處理
---->經驗法則:適用於對稱分佈的數據。三個數分別是 68%,95%,99%
---->切比雪夫不等式:適用於任何分佈的數據。三個數分別是 75%,89%,94%
離散係數(相對離散程度)
計算方法:標準差除以平均值。(當平均數接近0時,離散係數的值趨於增大,此時必須慎重解釋)
主要用來比較不一樣樣本數據的離散程度。
數據分佈形狀的度量:偏態與峯態
偏態:若數據對稱分佈,則偏態係數爲0;若大於1或小於-1,爲高度偏態分佈;若在0.5到1 或 -1到-0.5之間,爲中等偏態分佈。
峯態:若數據正態分佈,則峯態係數爲0;若大於0爲尖峯分佈,數據分佈集中;若小於0爲扁平分佈,數據分佈分散。
最後總結一下與以上概念相關的excel函數:
1.衆數:mode(),若不含重複數據,會返回錯誤值
2.中位數:median()
3.四分位數:quartile.inc(array,quart)
quart=0,返回最小值;quart=1,返回第一個四分位數;quart=2返回中位數;quart=3,返回第二個四分位數;quart=4返回最大值
4.算術平均數:average()
5.幾何平均數:geomean()
6.平均差:avedev()
7.標準差:stdev()
8.偏態係數:skew()
9.峯態係數:kurt()