Z-score

最近處理數據時,常常用到Z-score處理方法,因此把本身瞭解到的知識聚集在此,對本身也是個提高,但願對別人也有所幫助。html

(1)Z-score定義

     因爲Z-score的數據分佈知足「正態分佈」(N(0,1)),而「正態分佈」又被稱爲「Z-分佈」,因此該方法被稱爲「Z-score」。spa

     Z-score是用於作數據規範化處理的一種方法。htm

     Z-score又稱:零-均值規範化、standardscore、Z-value。blog

(2)Z-score公式

     Z-score的計算公式以下:ip

          (注:本圖轉載自wikipedia)
     其中x是原始數據,u是所有數據的均值,分母爲標準方差。it

(3)Z-score分佈

     Z-score的分佈以下圖所示:io


(注:本圖轉載自wikipedia)方法

(4)Z-score物理意義

     Z-score表示原始數據偏離均值的距離長短,而該距離度量的標準是標準方差。im

     Z-score大於零表示該數據大於均值。統計

     Z-score小於零表示該數據小於均值。

     Z-score等於零表示該數據等於均值。

     Z-score等於「1」表示該數據比均值大一個標準方差。

     Z-score等於「-1」表示該數據比均值小一個標準方差。

     若是統計數據量足夠多,Z-score數據分佈知足,68%的數據分佈在「-1」與「1」之間,95%的數據分佈在「-2」與「2」之間,99%的數據分佈在「-3」與「3之間」。能夠經過此對你的數據作必定的驗證。相見上面的Z-score數據分佈圖。

(5)Z-score應用

     Z-score可用於數據分佈過於凌亂,沒法判斷最大值與最小值,或者數據中存在過多的奇異點,能夠用Z-score方法對數據作規範化處理。

     其實Z-score也是一種數據歸一化處理的一種方法。

 

 

轉自:http://blog.sina.com.cn/s/blog_a89e19440101eeuo.html

 

本文參考以下連接:

http://en.wikipedia.org/wiki/Standard_score

http://stattrek.com/statistics/dictionary.aspx?definition=z_score

本站公眾號
   歡迎關注本站公眾號,獲取更多信息