from sklearn.preprocessing import MinMaxScaler #區間縮放,返回值爲縮放到[0, 1]區間的數據 MinMaxScaler().fit_transform(iris.data)
from sklearn.preprocessing import StandardScaler #標準化,返回值爲標準化後的數據 StandardScaler().fit_transform(iris.data)
from sklearn.feature_selection import VarianceThreshold #方差選擇法,返回值爲特徵選擇後的數據 #參數threshold爲方差的閾值 VarianceThreshold(threshold=3).fit_transform(iris.data)
from sklearn.feature_selection import SelectKBest from scipy.stats import pearsonr SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)
from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2#選擇K個最好的特徵,返回選擇特徵後的數據 SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)
from sklearn.feature_selection import SelectFromModel from sklearn.ensemble import GradientBoostingClassifier SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)
from sklearn.decomposition import PCA2 3 #主成分分析法,返回降維後的數據 #參數n_components爲主成分數目 PCA(n_components=2).fit_transform(iris.data)
from sklearn.lda import LDA2 3 #線性判別分析法,返回降維後的數據 #參數n_components爲降維後的維數 LDA(n_components=2).fit_transform(iris.data, iris.target)
參考:機器學習
http://note.youdao.com/notesh...(收藏自公衆號數據挖掘入門與實戰)函數