http://www.cnblogs.com/chaosimple/p/3227271.htmlhtml
數據標準化(歸一化)處理是數據挖掘的一項基礎工做,不一樣評價指標每每具備不一樣的量綱和量綱單位,這樣的狀況會影響到數據分析的結果,爲了消除指標之間的量綱影響,須要進行數據標準化處理,以解決數據指標之間的可比性。原始數據通過數據標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。如下是兩種經常使用的歸一化方法:函數
也稱爲離差標準化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數以下:orm
其中max爲樣本數據的最大值,min爲樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能致使max和min的變化,須要從新定義。htm
這種方法給予原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。通過處理的數據符合標準正態分佈,即均值爲0,標準差爲1,轉化函數爲:blog