最近處理數據時,常常用到Z-score處理方法,因此把本身瞭解到的知識聚集在此,對本身也是個提高,但願對別人也有所幫助。html
因爲Z-score的數據分佈知足「正態分佈」(N(0,1)),而「正態分佈」又被稱爲「Z-分佈」,因此該方法被稱爲「Z-score」。spa
Z-score是用於作數據規範化處理的一種方法。htm
Z-score又稱:零-均值規範化、standardscore、Z-value。blog
Z-score的計算公式以下:ip
(注:本圖轉載自wikipedia)
其中x是原始數據,u是所有數據的均值,分母爲標準方差。it
Z-score的分佈以下圖所示:io
(注:本圖轉載自wikipedia)方法
Z-score表示原始數據偏離均值的距離長短,而該距離度量的標準是標準方差。im
Z-score大於零表示該數據大於均值。統計
Z-score小於零表示該數據小於均值。
Z-score等於零表示該數據等於均值。
Z-score等於「1」表示該數據比均值大一個標準方差。
Z-score等於「-1」表示該數據比均值小一個標準方差。
若是統計數據量足夠多,Z-score數據分佈知足,68%的數據分佈在「-1」與「1」之間,95%的數據分佈在「-2」與「2」之間,99%的數據分佈在「-3」與「3之間」。能夠經過此對你的數據作必定的驗證。相見上面的Z-score數據分佈圖。
Z-score可用於數據分佈過於凌亂,沒法判斷最大值與最小值,或者數據中存在過多的奇異點,能夠用Z-score方法對數據作規範化處理。
其實Z-score也是一種數據歸一化處理的一種方法。
轉自:http://blog.sina.com.cn/s/blog_a89e19440101eeuo.html
本文參考以下連接:
http://en.wikipedia.org/wiki/Standard_score
http://stattrek.com/statistics/dictionary.aspx?definition=z_score