感謝參考原文-http://bjbsair.com/2020-04-01/tech-info/18374.htmlhtml
1.平均值(mean)python
平均值的概念很簡單:全部數據之和除以數據點的個數,以此表示數據集的平均大小;其數學定義爲3d
平均值計算公式code
如下面10個點的CPU使用率數據爲例htm
14 31 16 19 26 14 14 14 11 13
其平均值爲17.2blog
2.方差、標準差get
方差這一律唸的目的是爲了表示數據集中數據點的離散程度;其數學定義爲:數學
方差class
標準差與方差同樣,表示的也是數據點的離散程度;其在數學上定義爲方差的平方根:im
標準差
3.爲何使用標準差?
一個標準差 68%, 兩個標準差 95%, 三個標準差 99%。
標準差定義是整體各單位標準值( xi)與其平均數(μ)離差平方和的算術平均數的平方根。它反映組內個體間的離散程度。
全部數減去其平均值的平方和,所得結果除以該組數之個數(或個數減一,即變異數),再把所得值開根號,所得之數就是這組數據的標準差。
標準計算公式:
假設有一組數值X₁,X₂,X₃,......Xn(皆爲實數),其平均值(算術平均值)爲μ,公式如圖1。
標準差也被稱爲標準誤差,或者實驗標準差,公式爲
一個較大的標準差,表明大部分數值和其平均值之間差別較大;一個較小的標準差,表明這些數值較接近平均值。
例如,A、B兩組各有6位學生參加同一次語文測驗,A組的分數爲9五、8五、7五、6五、5五、45,B組的分數爲7三、7二、7一、6九、6八、67。這兩組的平均數都是70,但A組的標準差約爲17.08分,B組的標準差約爲2.16分,說明A組學生之間的差距要比B組學生之間的差距大得多。
一個標準差 68%, 兩個標準差 95%, 三個標準差 99%。
與方差相比,使用標準差來表示數據點的離散程度有3個好處:
- 表示離散程度的數字與樣本數據點的數量級一致,更適合對數據樣本造成感性認知。依然以上述10個點的CPU使用率數據爲例,其方差約爲41,而標準差則爲6.4;二者相比較,標準差更適合人理解。
- 表示離散程度的數字單位與樣本數據的單位一致,更方便作後續的分析運算。
- 在樣本數據大體符合正態分佈的狀況下,標準差具備方便估算的特性:66.7%的數據點落在平均值先後1個標準差的範圍內、95%的數據點落在平均值先後2個標準差的範圍內,而99%的數據點將會落在平均值先後3個標準差的範圍內。
4.python求均值、方差、標準差
#求均值
arr_mean = np.mean(arr)
#求方差
arr_var = np.var(arr)
#求標準差
arr_std = np.std(arr,ddof=1)
print("平均值爲:%f" % arr_mean)
print("方差爲:%f" % arr_var)
print("標準差爲:%f" % arr_std)感謝參考原文-http://bjbsair.com/2020-04-01/tech-info/18374.html
1.平均值(mean)
平均值的概念很簡單:全部數據之和除以數據點的個數,以此表示數據集的平均大小;其數學定義爲
平均值計算公式
如下面10個點的CPU使用率數據爲例
14 31 16 19 26 14 14 14 11 13
其平均值爲17.2
2.方差、標準差
方差這一律唸的目的是爲了表示數據集中數據點的離散程度;其數學定義爲:
方差
標準差與方差同樣,表示的也是數據點的離散程度;其在數學上定義爲方差的平方根:
標準差
3.爲何使用標準差?
一個標準差 68%, 兩個標準差 95%, 三個標準差 99%。
標準差定義是整體各單位標準值( xi)與其平均數(μ)離差平方和的算術平均數的平方根。它反映組內個體間的離散程度。
全部數減去其平均值的平方和,所得結果除以該組數之個數(或個數減一,即變異數),再把所得值開根號,所得之數就是這組數據的標準差。
標準計算公式:
假設有一組數值X₁,X₂,X₃,......Xn(皆爲實數),其平均值(算術平均值)爲μ,公式如圖1。
標準差也被稱爲標準誤差,或者實驗標準差,公式爲
一個較大的標準差,表明大部分數值和其平均值之間差別較大;一個較小的標準差,表明這些數值較接近平均值。
例如,A、B兩組各有6位學生參加同一次語文測驗,A組的分數爲9五、8五、7五、6五、5五、45,B組的分數爲7三、7二、7一、6九、6八、67。這兩組的平均數都是70,但A組的標準差約爲17.08分,B組的標準差約爲2.16分,說明A組學生之間的差距要比B組學生之間的差距大得多。
一個標準差 68%, 兩個標準差 95%, 三個標準差 99%。
與方差相比,使用標準差來表示數據點的離散程度有3個好處:
- 表示離散程度的數字與樣本數據點的數量級一致,更適合對數據樣本造成感性認知。依然以上述10個點的CPU使用率數據爲例,其方差約爲41,而標準差則爲6.4;二者相比較,標準差更適合人理解。
- 表示離散程度的數字單位與樣本數據的單位一致,更方便作後續的分析運算。
- 在樣本數據大體符合正態分佈的狀況下,標準差具備方便估算的特性:66.7%的數據點落在平均值先後1個標準差的範圍內、95%的數據點落在平均值先後2個標準差的範圍內,而99%的數據點將會落在平均值先後3個標準差的範圍內。
4.python求均值、方差、標準差
#求均值
arr_mean = np.mean(arr)
#求方差
arr_var = np.var(arr)
#求標準差
arr_std = np.std(arr,ddof=1)
print("平均值爲:%f" % arr_mean)
print("方差爲:%f" % arr_var)
print("標準差爲:%f" % arr_std)