方差(variance): 變量與其均值的差的平方和除以(變量數+1)。3d
若有一組數據: [1,2,3,4,5], 其均值就是 (1+2+3+4+5) / 5 = 3blog
因此其方差爲: ((1-3)^2 + (2-3)^2 +(3-3)^2 + (4-3)^2 + (5-3)^2) /( 5+1) = 1.6666....generator
標準差(standard deviation):方差的算術平方根io
方差和標準差反應了一組數據的離散程度:import
當方差越小時,數據的離散程度越小變量
而當方差越大時,數據的離散程度也就越大。im
若有兩組數據數據
A = [1,2,3,4,5]blob
B=[1,5,7,9,11]img
A 的方差爲2 、B的方差爲11.84 ,從方差的大小比較,var(A)<var(B)
因此B的離散程度比A的離散程度高
爲何方差能夠體現數據的離散程度?
由公式可知:
當全部的變量值都同樣時,均值等於變量值
因此方差爲0,此時離散程度爲0。當各個變量值裏均值都有必定距離時
方差大於0。
例子:
經過使用 from sklearn.datasets.samples_generator import make_blobs 圍繞3箇中心點來生成數據集
紅色的點表明 中心點
藍色的點表明 生成點
經過修改make_blobs裏面的cluster_std參數來控制 生成點 與 中心點之間的離散程度。而cluster_std參數
對應就是標準差
(1)當標準差爲 0.60時:
(2) 當標準差爲 0.3時
圖像反映了不一樣標準差之間數據發佈的狀況
由此也反映了標準差與數值離散程度之間的對應關係。