數據的標準化和標準化方法

時間 2019-11-11

標籤數據標準化方法简体版

原文原文鏈接

　　數據的標準化（normalization）是將數據按比例縮放，使之落入一個小的特定區間。在某些比較和評價的指標處理中常常會用到，去除數據的單位限制，將其轉化爲無量綱的純數值，便於不一樣單位或量綱的指標可以進行比較和加權。web

　　其中最典型的就是數據的歸一化處理，即將數據統一映射到[0, 1]區間上，常見的數據歸一化的方法有：函數

　　一、min-max標準化（Min-max normalization）.net

　　min-max標準化也叫離差標準化，是對原始數據的線性變換，使結果落到[0,1]區間，轉換函數以下：orm

　　其中，max爲樣本數據的最大值，min爲樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時，可能致使max和min的變化，須要從新計算定義。blog

　　二、log函數轉換get

　　經過以10爲底的log函數轉換的方法一樣能夠實現歸一化，具體方法以下：io

　　看了下網上不少介紹都是x^*= log₁₀(x)，實際上是有問題的，這個結果並不是必定落在[0,1]區間上，應該還要除以log₁₀(max)，max爲樣本數據最大值，而且全部的數據都要大於等於1.方法

　　三、atan函數轉換im

　　用反正切函數也能夠實現數據的歸一化：數據

　　使用這個方法須要注意的是若是想映射到區間爲[0,1]，則數據都應該大於等於0，小於0的數據將被映射到[-1, 0]區間上。

　　而並不是全部數據標準化的結果都映射到[0,1]區間上，其中最長久的標準化方法就是Z標準化，也是SPSS中最爲經常使用的標準化方法。

　　四、z-score標準化（zero-mean normalization）

　　也叫標準差標準化，通過處理的數據符合標準正態分佈，即均值爲0，標準差爲1，其轉化函數爲：

　　其中μ爲全部樣本數據的均值，σ爲全部樣本數據的標準差。

　　參考文章：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。