Python 學習筆記之——用 sklearn 對數據進行預處理

1. 標準化

標準化是爲了讓數據服從一個零均值和單位方差的標準正態分佈。也即針對一個均值爲 mean 標準差爲 std 的向量 X 中的每一個值 x,有 x_{scaled} = \frac{x - mean}{std}html

>>> from sklearn import preprocessing
>>> import numpy as np

>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])

>>> X_scaled = preprocessing.scale(X_train)
>>> X_scaled                                          
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])

>>> X_scaled.mean(axis=0)
array([0., 0., 0.])

>>> X_scaled.std(axis=0)
array([1., 1., 1.])
複製代碼

默認針對每列來進行標準化,也即針對每一個特徵進行標準化。能夠經過設置 axis=1 來對每行進行標準化,也即對每一個樣本進行標準化。sklearn.preprocessing.scale()python

此外,咱們還能夠用訓練數據的均值和方差來對測試數據進行相同的標準化處理。sklearn.preprocessing.StandardScaler()測試

>>> scaler = preprocessing.StandardScaler().fit(X_train)
>>> scaler
StandardScaler(copy=True, with_mean=True, with_std=True)

>>> scaler.mean_                                      
array([1. ..., 0. ..., 0.33...])

>>> scaler.scale_                                       
array([0.81..., 0.81..., 1.24...])

>>> scaler.transform(X_train)                           
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])

>>> X_test = [[-1., 1., 0.]] # 用一樣的均值和方差來對測試數據進行標準化
>>> scaler.transform(X_test)                
array([[-2.44...,  1.22..., -0.26...]])
複製代碼

2. 將數據縮放到必定範圍

有時候,咱們須要數據處在給定的最大值和最小值範圍之間,經常是 0 到 1 之間,這樣數據的最大絕對值就被限制在了單位大小之內。spa

>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
...
>>> min_max_scaler = preprocessing.MinMaxScaler()
>>> X_train_minmax = min_max_scaler.fit_transform(X_train)
>>> X_train_minmax
array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

>>> X_test = np.array([[-3., -1.,  4.]]) # 將一樣的變換應用到測試數據上
>>> X_test_minmax = min_max_scaler.transform(X_test)
>>> X_test_minmax
array([[-1.5       ,  0.        ,  1.66666667]])
複製代碼

當 MinMaxScaler() 傳入一個參數 feature_range=(min, max),咱們能夠將數據縮放到咱們想要的範圍內。sklearn.preprocessing.MinMaxScaler()code

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
複製代碼

此外,咱們還能夠將數據限制在 [-1, 1] 之間,經過除以每一個特徵的最大絕對值。sklearn.preprocessing.MaxAbsScaler()orm

>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
...
>>> max_abs_scaler = preprocessing.MaxAbsScaler()
>>> X_train_maxabs = max_abs_scaler.fit_transform(X_train)
>>> X_train_maxabs               
array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

>>> X_test = np.array([[ -3., -1.,  4.]])
>>> X_test_maxabs = max_abs_scaler.transform(X_test)
>>> X_test_maxabs                 
array([[-1.5, -1. ,  2. ]])
>>> max_abs_scaler.scale_         
array([2.,  1.,  2.])
複製代碼

3. 歸一化

歸一化的目的是讓每一個樣本具備單位範數。也即針對向量 X 中的每一個值 x,有 x_{normalized} = \frac{x}{||X||}cdn

>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> X_normalized = preprocessing.normalize(X, norm='l2')

>>> X_normalized                                      
array([[ 0.40..., -0.40...,  0.81...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.  ...,  0.70..., -0.70...]])

>>> normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing
>>> normalizer
Normalizer(copy=True, norm='l2')

>>> normalizer.transform(X)                            
array([[ 0.40..., -0.40...,  0.81...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.  ...,  0.70..., -0.70...]])

>>> normalizer.transform([[-1.,  1., 0.]])             
array([[-0.70...,  0.70...,  0.  ...]])
複製代碼

默認是對每行數據用 L2 範數進行歸一化,咱們也能夠選擇 L1 範數或者針對每列進行歸一化。sklearn.preprocessing.Normalizer()htm

獲取更多精彩,請關注「seniusen」! ci

相關文章
相關標籤/搜索