【火爐煉AI】機器學習001-數據預處理技術（均值移除，範圍縮放，歸一化，二值化，獨熱編碼）

時間 2019-12-06

標籤火爐煉AI 機器學習數據預處理技術均值移除範圍縮放歸一編碼欄目字符編碼简体版

原文原文鏈接

【火爐煉AI】機器學習001-數據預處理技術（均值移除，範圍縮放，歸一化，二值化，獨熱編碼）

(【本文所使用的Python庫和版本號】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )git

數據預處理的必要性：在真實世界中，常常須要處理大量的原始數據，這些原始數據是機器學習算法沒法理解的，因此爲了讓機器學習算法理解原始數據，須要對數據進行預處理。github

最經常使用的數據預處理技術：算法

1. 均值移除（Mean removal）

把每一個特徵的平均值移除，以保證特徵均值爲0（即標準化處理），這樣作能夠消除特徵彼此間的誤差。機器學習

###########對數據集進行Normalization#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[3, -1.5, 2, -5.4],
               [0, 4,-0.3,2.1],
               [1, 3.3, -1.9, -4.3]]) # 原始數據矩陣 shape=(3,4)

data_standardized=preprocessing.scale(data)

print(data_standardized.shape)
print('Mean={}'.format(data_standardized.mean(axis=0)))
print('Mean2={}'.format(np.mean(data_standardized,axis=0)))
print('standardized: ')
print(data_standardized)
print('STD={}'.format(np.std(data_standardized,axis=0)))
複製代碼

-------------------------------------輸---------出--------------------------------工具

(3, 4) Mean=[ 5.55111512e-17 -1.11022302e-16 -7.40148683e-17 -7.40148683e-17] Mean2=[ 5.55111512e-17 -1.11022302e-16 -7.40148683e-17 -7.40148683e-17] standardized: [[ 1.33630621 -1.40451644 1.29110641 -0.86687558] [-1.06904497 0.84543708 -0.14577008 1.40111286] [-0.26726124 0.55907936 -1.14533633 -0.53423728]] STD=[1. 1. 1. 1.]學習

--------------------------------------------完-------------------------------------編碼

########################小**********結###############################spa

1, 值移除以後的矩陣每一列的均值約爲0，而std爲1。這樣作的目的是確保每個特徵列的數值都在相似的數據範圍之間，防止某一個特徵列數據自然的數值太大而一家獨大。code

2, 能夠直接調用preprocessing模塊中成熟的scale方法來對一個numpy 矩陣進行均值移除。orm

3, 求一個numpy矩陣的平均值（或std，min,max等）至少有兩種方法，如代碼中第9行和第10行所示。

#################################################################

2. 範圍縮放（Scaling）

必要性：數據點中每一個特徵列的數值範圍可能變化很大，所以，有時須要將特徵列的數值範圍縮放到合理的大小。

###########對數據集進行範圍縮放#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[3, -1.5, 2, -5.4],
               [0, 4,-0.3,2.1],
               [1, 3.3, -1.9, -4.3]]) # 原始數據矩陣 shape=(3,4)

data_scaler=preprocessing.MinMaxScaler(feature_range=(0,1)) # 縮放到（0,1）之間
data_scaled=data_scaler.fit_transform(data)

print('scaled matrix: *********************************')
print(data_scaled)
複製代碼

-------------------------------------輸---------出--------------------------------

scaled matrix: ********************************* [[1. 0. 1. 0. ] [0. 1. 0.41025641 1. ] [0.33333333 0.87272727 0. 0.14666667]]

--------------------------------------------完-------------------------------------

########################小**********結###############################

1. 值移除以後的矩陣每一列的均值約爲0，而std爲1。這樣作的目的是確保每個特徵列的數值都在相似的數據範圍之間，防止某一個特徵列數據自然的數值太大而一家獨大。

2. 能夠直接調用preprocessing模塊中成熟的scale方法來對一個numpy 矩陣進行均值移除。

3. 求一個numpy矩陣的平均值（或std，min,max等）至少有兩種方法，如代碼中第9行和第10行所示

#################################################################

3. 歸一化（Normalization）

用於須要對特徵向量的值進行調整時，以保證每一個特徵向量的值都縮放到相同的數值範圍。機器學習中最經常使用的歸一化形式就是將特徵向量調整爲L1範數，使特徵向量的數值之和爲1.

###########對數據集進行Normalization#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[3, -1.5, 2, -5.4],
               [0, 4,-0.3,2.1],
               [1, 3.3, -1.9, -4.3]]) # 原始數據矩陣 shape=(3,4)

data_L1_normalized=preprocessing.normalize(data,norm='l1')
print('L1 normalized matrix: *********************************')
print(data_L1_normalized)
print('sum of matrix: {}'.format(np.sum(data_L1_normalized)))

data_L2_normalized=preprocessing.normalize(data) # 默認：l2
print('L2 normalized matrix: *********************************')
print(data_L2_normalized)
print('sum of matrix: {}'.format(np.sum(data_L2_normalized)))
複製代碼

-------------------------------------輸---------出--------------------------------

L1 normalized matrix: ********************************* [[ 0.25210084 -0.12605042 0.16806723 -0.45378151] [ 0. 0.625 -0.046875 0.328125 ] [ 0.0952381 0.31428571 -0.18095238 -0.40952381]] sum of matrix: 0.5656337535014005 L2 normalized matrix: ********************************* [[ 0.45017448 -0.22508724 0.30011632 -0.81031406] [ 0. 0.88345221 -0.06625892 0.46381241] [ 0.17152381 0.56602858 -0.32589524 -0.73755239]] sum of matrix: 0.6699999596689536

--------------------------------------------完-------------------------------------

########################小**********結###############################

1，Normaliztion以後全部的特徵向量的值都縮放到同一個數值範圍，能夠確保數據點沒有由於特徵的基本性質而產生的較大差別，即確保全部數據點都處於同一個數據量，提升不一樣特徵數據的可比性。

2，注意和均值移除的區別：均值移除是對每個特徵列都縮放到相似的數值範圍，每個特徵列的均值爲0，而Normalization是將全局全部數值都縮放到同一個數值範圍。

#################################################################

4. 二值化（Binarization）

二值化用於將數值特徵向量轉換爲布爾類型向量。

###########對數據集進行Binarization#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[3, -1.5, 2, -5.4],
               [0, 4,-0.3,2.1],
               [1, 3.3, -1.9, -4.3]]) # 原始數據矩陣 shape=(3,4)

data_binarized=preprocessing.Binarizer(threshold=1.4).transform(data)
print('binarized matrix: *********************************')
print(data_binarized)
複製代碼

-------------------------------------輸---------出--------------------------------

binarized matrix: ********************************* [[1. 0. 1. 0.] [0. 1. 0. 1.] [0. 1. 0. 0.]]

--------------------------------------------完-------------------------------------

########################小**********結###############################

1，二值化以後的數據點都是0或者1，因此叫作二值化。

2，計算方法是，將全部大於threshold的數據都改成1，小於等於threshold的都設爲0。

3，常常用於出現某種特徵（好比設爲1），或者沒有出現某種特徵（設爲0）的應用場合。

#################################################################

5. 獨熱編碼（One-Hot Encoding）

一般，須要處理的數值都是稀疏地，散亂地分佈在空間中，但咱們並不須要存儲這些大數值，這時就須要使用獨熱編碼，獨熱編碼其實是一種收緊特徵向量的工具。

###########對數據集進行獨熱編碼#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[0,2,1,12],
               [1,3,5,3],
               [2,3,2,12],
               [1,2,4,3]]) # 原始數據矩陣 shape=(4,4)

encoder=preprocessing.OneHotEncoder()
encoder.fit(data)
encoded_vector=encoder.transform([[2,3,5,3]]).toarray()
print('one-hot encoded matrix: *********************************')
print(encoded_vector.shape)
print(encoded_vector)
複製代碼

-------------------------------------輸---------出--------------------------------

one-hot encoded matrix: ********************************* (1, 11) [[0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]

--------------------------------------------完-------------------------------------

########################小**********結###############################

1，獨熱編碼能夠縮小特徵向量的維度，將稀疏的，散亂的數據集（好比代碼塊中的data，shape=(4,4)）收縮爲11維緻密矩陣（如輸出結果，shape=(1,11)）。

2，編碼方式爲：根據原始數據集data構建編碼器encoder，用編碼器來對新數據進行編碼。好比，第0列有三個不一樣值（0,1,2），故而有三個維度，即0=100，1=010，2=001；同理，第1列有兩個不一樣值（2,3），故而只有兩個維度，即2=10，3=01；同理，第2列有四個不一樣值（1,5,2,4），故而有四個維度，即1=1000，2=0100,4=0010,5=0001同理，第3列有兩個不一樣值（3,12），故而只有兩個維度，即3=10，12=01。因此在面對新數據[[2,3,5,3]]時，第0列的2就對應於001，第二列的3對應於01，第三列的5對應於0001，第四列的3對應於10，鏈接起來後就是輸出的這個（1,11）矩陣，即爲讀了編碼後的緻密矩陣。

3，若是面對的新數據不存在上面的編碼器中，好比[[2,3,5,4]]時，4不存在於第3列（只有兩個離散值3和12），則輸出爲00，鏈接起來後是[[0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 0.]]，注意倒數第二個數字變成了0

#################################################################

注：本部分代碼已經所有上傳到（個人github）上，歡迎下載。

參考資料:

1, Python機器學習經典實例，Prateek Joshi著，陶俊傑，陳小莉譯