數據的標準化和標準化方法

 

  數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中常常會用到,去除數據的單位限制,將其轉化爲無量綱的純數值,便於不一樣單位或量綱的指標可以進行比較和加權。web

  其中最典型的就是數據的歸一化處理,即將數據統一映射到[0, 1]區間上,常見的數據歸一化的方法有:函數

  一、min-max標準化(Min-max normalization).net

  min-max標準化也叫離差標準化,是對原始數據的線性變換,使結果落到[0,1]區間,轉換函數以下:orm

                        

  其中,max爲樣本數據的最大值,min爲樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時,可能致使max和min的變化,須要從新計算定義。blog

  

  二、log函數轉換get

  經過以10爲底的log函數轉換的方法一樣能夠實現歸一化,具體方法以下:io

                        

  看了下網上不少介紹都是x*= log10 (x),實際上是有問題的,這個結果並不是必定落在[0,1]區間上,應該還要除以log10 (max),max爲樣本數據最大值,而且全部的數據都要大於等於1.
方法

 

  三、atan函數轉換im

  用反正切函數也能夠實現數據的歸一化:數據

                        

  使用這個方法須要注意的是若是想映射到區間爲[0,1],則數據都應該大於等於0,小於0的數據將被映射到[-1, 0]區間上。

 

  而並不是全部數據標準化的結果都映射到[0,1]區間上,其中最長久的標準化方法就是Z標準化,也是SPSS中最爲經常使用的標準化方法。

  

  四、z-score標準化(zero-mean normalization)

  也叫標準差標準化,通過處理的數據符合標準正態分佈,即均值爲0,標準差爲1,其轉化函數爲:

                          

  其中μ爲全部樣本數據的均值,σ爲全部樣本數據的標準差。

  

 

 

  參考文章:

  http://webdataanalysis.net/data-analysis-method/data-normalization/

相關文章
相關標籤/搜索