1、Standardizationpython
方法一:StandardScaler數組
from sklearn.preprocessing import StandardScaler sds = StandardScaler() sds.fit(x_train) x_train_sds = sds.transform(x_train) x_test_sds = sds.transform(x_test)
方法二:MinMaxScaler 特徵縮放至特定範圍 , default=(0, 1)dom
from sklearn.preprocessing import MinMaxScaler mns = MinMaxScaler((0,1)) mns.fit(x_train) x_train_mns = mns.transform(x_train) x_test_mns = mns.transform(x_test)
2、Normalization 使單個樣本具備單位範數的縮放操做。 常常在文本分類和聚類當中使用。函數
from sklearn.preprocessing import Normalizer normalizer = Normalizer() normalizer.fit(x_train) x_train_nor = normalizer.transform(x_train) x_test_nor = normalizer.transform(x_test)
3、Binarization 特徵二值化是將數值型特徵變成布爾型特徵。spa
from sklearn.preprocessing import Binarizer bi = Binarizer(threshold=0.0) # 設置閾值默認0.0 大於閾值設置爲1 , 小於閾值設置爲0 XX = bi.fit_transform(x_train["xx"]) # shape (1行,X列) x_train["XX"] = XX.T # x_train["XX"] = XX[0,:]
4、連續性變量劃分份數rest
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False) x:array-like # 要分箱的數組 bin:int # 在x範圍內的等寬單元的數量。
pd.cut(df["XXX"],5)
進行分箱操做後獲得得值是字符串,還須要進行Encoding categorical featurescomponent
5、one-hot Encoding / Encoding categorical featuresorm
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False) dummy_na=False # 是否把 missing value單獨存放一列 pd.get_dummies(df , columns = ['xx' , 'xx' , ... ])
6、Imputation of missing values 缺失值處理blog
①、將無限大,無限小,Missing Value (NaN)替換成其餘值;ci
②、sklearn 不接收包含NaN的值;
class sklearn.preprocessing.Imputer(missing_values='NaN', strategy='mean', axis=0, verbose=0, copy=True) strategy : (default=」mean」) # median , most_frequent axis : (default=」0」) # 表示用列上全部值進行計算 from sklearn.preprocessing import Imputer im =Imputer() im.fit_transform(df['xxx'])
③、使用無心義的值來填充,如-999。
df.replace( np.inf , np.nan ) # 先用NaN值替換,再用-999填充NaN值。 df.fillna(-999) df.fillna(-1) # 注意: -1與標準化的數值可能有意義關係
7、Feature selection 特徵選擇
①:基於 L1-based feature selection
from sklearn.linear_model import Lasso lasso = Lasso() lasso.fit(xdata,ydata) lasso.coef_ # 查看特徵係數 array([ 1.85720489, 0. , -0.03700954, 0.09217834, -0.01157946, -0.53603543, 0.72312094, -0.231194 , 1.26363755, -0. , 0. , -0. , 0. , 0. , 0. , -0. , -0. , -0. , 0. , -0. , 0. , 5.21977984, -0. , -0. , 7.00192208, -0. , 0. , 0. , -0. ])
能夠發現,通過One-hot Encod的變量都變成0 , 須要手工進一步篩選 , 不能去掉One-hot的變量 !
利用模型進行篩選的方法:
class sklearn.feature_selection.SelectFromModel(estimator, threshold=None, prefit=False) from sklearn.feature_selection import SelectFromModel model = SelectFromModel(lasso,prefit=True) x_new = model.transform(xdata)
②:基於 Tree-based feature selection
採用 Random Forests
from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor() rf.fit(xdata,ydata) rf.feature_importances_ array([ 8.76227379e-02, 4.41726855e-02, 2.12394498e-02, 1.98631826e-01, 1.75612945e-02, 6.72095736e-02, 4.25518536e-01, 3.50132246e-02, 7.23241098e-02, ... ]
非線性模型, 沒有係數, 只有變量重要性!!!!
變量重要性大,放前面, 小的刪除或者放後面
③:基於Removing features with low variance 移除全部方差不知足閾值的特徵
class sklearn.feature_selection.VarianceThreshold(threshold=0.0) from sklearn.feature_selection import VarianceThreshold v = VarianceThreshold(1) v.fit_transform(xdata)
④:基於Univariate feature selection 單變量特徵選擇
一、SelectKBest 移除得分前 k 名之外的全部特徵
class sklearn.feature_selection.SelectKBest(score_func=<function f_classif>, k=10) score_func : 統計指標函數 K : 個數
模型衡量指標:
導入相應的函數便可!
from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import f_regression skb = SelectKBest(f_regression,k=10) skb.fit_transform(xdata,ydata) xdata.shape
二、移除得分在用戶指定百分比之後的特徵
class sklearn.feature_selection.SelectPercentile(score_func=<function f_classif>, percentile=10) score_func:採用統計指標函數 percentile:百分數
推薦使用 Feature importtance , Tree-base > L1-base > ... //
8、Dimensionality reduction 減小要考慮的隨機變量的數量
方法一:PCA ,主成分分析 , 計算協方差矩陣
sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None) # n_components : 設置留下來幾列 from sklearn.decomposition import PCA pca = PCA(15) newdata = pca.fit_transform(xdata) newdata.shape
univariate feature selection 與 PCA 區別:
1/ 計算每個feature 統計量 , 而後選擇前幾個
2/ PCA 是考慮整個數據集 , 列與列存在關係 , 計算整個矩陣方差共線,
pca.explained_variance_ # 可解釋的方差 pca.explained_variance_ratio_ # 百分比
注意:PCA 前先將數據進行標準化!!!
from sklearn.preprocessing import StandardScaler ss = StandardScaler() pca.fit_transform(ss.fit_transform(xdata))
方法二:TruncatedSVD
TruncatedSVD 原來N列 能夠選擇指定保留k列 , 降維
SVD 產生N*N矩陣 , 沒有降維
sklearn.decomposition.TruncatedSVD(n_components=2, algorithm='randomized', n_iter=5, random_state=None, tol=0.0) n_components:int , 輸出數據的指望維度。
9、思惟導圖
10、fit、fit_transform和transform的區別
咱們使用sklearn進行文本特徵提取/預處理數據。能夠看到除訓練,預測和評估之外,處理其餘工做的類都實現了3個方法:fit、transform和fit_transform。
從命名中能夠看到,fit_transform方法是先調用fit而後調用transform,咱們只須要關注fit方法和transform方法便可。
transform方法主要用來對特徵進行轉換。從可利用信息的角度來講,轉換分爲無信息轉換和有信息轉換。
無信息轉換是指不利用任何其餘信息進行轉換,好比指數、對數函數轉換等。
有信息轉換從是否利用目標值向量又可分爲無監督轉換和有監督轉換。
無監督轉換指只利用特徵的統計信息的轉換,統計信息包括均值、標準差、邊界等等,好比標準化、PCA法降維等。
有監督轉換指既利用了特徵信息又利用了目標值信息的轉換,好比經過模型選擇特徵、LDA法降維等。
經過總結經常使用的轉換類,咱們獲得下表:
fit方法主要對整列,整個feature進行操做,可是對於處理樣本獨立的操做類,fit操做沒有實質做用!
11、特徵工程選擇
時間
空間
比率值
變化率
變化率例子: 10月 : (20% - 10%) / 10% = 100%