非線性曲線如圖:python
假設曲線表達式爲:$y=ax^2+bx+c$,若是將 $x^2$ 看做爲 $x_1$,即 $y_1=ax_1+bx+c$,此時就有了兩個特徵,則能夠看做是線性曲線表達式。git
首先生成一組樣本數據:github
import numpy as np import matplotlib.pyplot as plt x = np.random.uniform(-3, 3, size=100) X = x.reshape(-1, 1) y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, size=100)
(x, y) 如圖所示(橫軸爲 x,縱軸爲 y):算法
接着在 $X$ 的基礎上增長一個新的特徵 $x1(x^2)$ 造成一個新的 $X2$:編程
X2 = np.hstack([X, X**2])
再使用線性迴歸算法:數組
from sklearn.linear_model import LinearRegression lin_reg = LinearRegression() lin_reg.fit(X2, y) y_predict = lin_reg.predict(X2)
此時對 $X2$ 的預測值反映到圖中就是第一張圖裏的曲線。app
對於增長新的特徵(如:$x^2$),Scikit Learn 提供了 PolynomialFeatures,使用方式以下:dom
from sklearn.preprocessing import PolynomialFeatures poly = PolynomialFeatures(degree=2) poly.fit(X) X2 = poly.transform(X)
參數 degree
表示最高次冪;獲得的新的 $X2$ 前5行數據以下:機器學習
# X2[:5,:] array([[ 1. , 1.16207716, 1.35042333], [ 1. , -2.62969804, 6.91531181], [ 1. , 0.99966958, 0.99933928], [ 1. , 0.35525362, 0.12620514], [ 1. , -2.48933626, 6.19679503]])
第一列爲 $x^0$,第二列爲 $x$,第三列爲 $x^2$。函數
Scikit Learn 還提供了 Pipeline,將多項式特徵、數據歸一化和線性迴歸組合在了一塊兒,大大方便的編程的過程。使用方式以下:
from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LinearRegression poly_regression = Pipeline([ ("poly", PolynomialFeatures(degree=2)), ("std_scaler", StandardScaler()), ("lin_reg", LinearRegression()) ])
Pipeline()
傳入的是一個列表,包含了執行每個步驟的實例,每個步驟又是一個元組類型,其中第二個表示實例,第一個表示給實例取的名稱。接着就能夠進行 fit()
、predict()
等內容了:
poly_regression.fit(X, y) y_predict = poly_regression.predict(X)
在使用多項式迴歸的過程當中須要考慮一個問題,即欠擬合和過擬合。
若是對前面的樣本單單使用線性迴歸,獲得的模型如圖(這裏省略的代碼實現):
訓練出來的模型很簡單,但它並不能完整的表述數據之間的關係,這就是欠擬合(underfitting)。
若是使用多項式迴歸,代碼以下:
def PolynomialRegression(degree): return Pipeline([ ("poly", PolynomialFeatures(degree=degree)), ("std_scaler", StandardScaler()), ("lin_reg", LinearRegression()) ]) poly100_reg = PolynomialRegression(degree=100) poly100_reg.fit(X, y) y_predict100 = poly100_reg.predict(X)
將 degree
設置爲100,即最高次冪爲 100,訓練出來的模型對訓練數據 X 的預測結果如圖:
可見該模型對訓練數據解釋的很好,可是若是用測試數據來預測一下:
X_plot = np.linspace(-3, 3, 100).reshape(-1, 1) y_plot = poly100_reg.predict(X_plot)
能夠看出對預測數據預測的很是糟糕,這是由於訓練的模型過多的表達了訓練數據中的噪音,從而形成了對預測數據的結果也含有了尋多噪音,這就是過擬合(overfitting)。
上面的過擬合出來的模型對訓練數據解釋的很好,但對測試數據(新的數據)解釋的很是差,也就是模型的泛化能力差。
因此爲了防止模型過擬合,一般將數據分爲訓練數據和測試數據,經過測試數據來檢驗是否過擬合。通常模型準確率與訓練數據和測試數據的關係爲:
圖形中左邊屬於欠擬合,右邊屬於過擬合,而中間對於測試數據模型準確率高的地方就是模型泛化能力好的地方。
除了模型複雜度曲線,還可使用學習曲線來可視化欠擬合和過擬合。
所謂學習曲線,就是隨着訓練樣本的逐漸增多,訓練出的模型的能力的變化。
首先將數據分爲訓練數據和測試數據:
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y)
learning_curve()
函數中使用均方偏差來表示模型的優劣,而且訓練數據(75個)從1個慢慢增大爲75個,記錄對訓練數據和測試數據預測值的均方偏差,用於畫學習曲線。
from sklearn.metrics import mean_squared_error # 均方偏差 def learning_curve(algo, X_train, X_test, y_train, y_test): train_score = [] test_score = [] for i in range(1, 76): algo.fit(X_train[:i], y_train[:i]) y_train_predict = algo.predict(X_train[:i]) train_score.append(mean_squared_error(y_train[:i], y_train_predict)) y_test_predict = algo.predict(X_test) test_score.append(mean_squared_error(y_test, y_test_predict))
先來看看使用線性迴歸的狀況(根據前文已經知道是欠擬合):
learning_curve(LinearRegression(), X_train, X_test, y_train, y_test)
做出的學習曲線如圖:
能夠看出均方偏差最後趨於穩定。
接着來看看使用多項式迴歸而且設定最高次冪爲2的狀況:
poly2_reg = PolynomialRegression(degree=2) learning_curve(poly2_reg, X_train, X_test, y_train, y_test)
做出的學習曲線如圖:
能夠看出均方偏差最後也趨於穩定,可是比過擬合狀況下均方偏差的值要小,表示模型更好。
接着來看看使用多項式迴歸而且設定最高次冪爲20的狀況:
poly20_reg = PolynomialRegression(degree=20) learning_curve(poly20_reg, X_train, X_test, y_train, y_test)
做出的學習曲線如圖:
能夠看出對訓練數據的軍方偏差最後會趨於穩定,但對測試數據則否則,這種狀況就是過擬合的表現。
雖然將數據集劃分爲訓練數據集和測試數據集可以爲判斷模型是否過擬合提供參考,但這樣的劃分方式並不嚴謹,由於模型多是針對測試數據集過擬合的。
更好的方式是將數據集劃分爲訓練數據集、驗證數據集和測試數據集。驗證數據集用於驗證模型的效果,方便調整超參數來改善模型;測試數據集用於衡量最終的模型性能。
可是這種方式也有可能對驗證數據集過擬合,此時可使用交叉驗證(Cross Validation)。
交叉驗證即將數據集劃分爲訓練數據集和測試數據集,並將訓練數據集分紅 k 份,每次將其中一份做爲驗證數據集,剩下的(k-1)份做爲訓練數據集,如此能夠獲得 k 個模型,再將這 k 個模型的均值做爲結果調參。以 kNN 手寫數字識別算法舉例說明:
首先準備數據:
from sklearn import datasets from sklearn.model_selection import train_test_split digits = datasets.load_digits() X = digits.data y = digits.target X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4)
Scikit Learn 中提供了用於交叉驗證的 cross_val_score
,模型將數據分紅三份用於交叉驗證,返回三個模型的估算分數:
from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import cross_val_score knn_clf = KNeighborsClassifier() cross_val_score(knn_clf, X_train, y_train) # 返回 array([0.9640884 , 0.97506925, 0.96901408])
接着進行調參:
best_score, best_p, best_k = 0, 0, 0 for k in range(2, 10): for p in range(1, 5): knn_clf = KNeighborsClassifier(weights="distance", n_neighbors=k, p=p) scores = cross_val_score(knn_clf, X_train, y_train) score = np.mean(scores) if score > best_score: best_score, best_p, best_k = score, p, k print("best score is:", best_score) print("best p is:", best_p) print("best k is:", best_k) # best score is: 0.9795997710242826 # best p is: 3 # best k is: 2
循環中每次比較 cross_val_score
返回數組的均值,最大的對應的 k 和 p 就是最優的超參數。
拿到了想要的超參數就能夠進行模型訓練了:
best_knn_clf = KNeighborsClassifier(weights="distance", n_neighbors=2, p=3) best_knn_clf.fit(X_train, y_train) best_knn_clf.score(X_test, y_test) # 結果0.9902642559109874
Scikit Learn 提供了網格搜索(GridSearchCV)整合了上面交叉驗證和調參的全過程:
from sklearn.model_selection import GridSearchCV param_grid = [ { 'weights': ['distance'], 'n_neighbors': [i for i in range(1, 11)], 'p': [i for i in range(1, 6)] } ] knn_clf = KNeighborsClassifier() grid_search = GridSearchCV(knn_clf, param_grid=param_grid, verbose=1) grid_search.fit(X_train, y_train)
grid_search.best_params_
返回獲得的最優超參數;best_knn_clf = grid_search.best_estimator_
返回最優的模型。
在cross_val_score
和GridSearchCV
中能夠指定參數cv
來設置將訓練數據集分爲幾份(默認爲3)。
對於一個模型而言,模型偏差=誤差(Bias)+方差(Variance)+不可避免的偏差。誤差和方差表示如圖
致使誤差的主要緣由是對問題自己的假設不正確,致使方差的主要緣由是使用的模型太複雜。對於欠擬合,就屬於高誤差;而過擬合,就屬於高方差。
在機器學習算法中,主要的挑戰來自方差,解決的方法主要有:
接下來主要看看模型正則化。
對於高方差的模型能夠用模型正則化(Regularization)處理,限制參數的大小。
以使用梯度降低法的線性迴歸爲例,其目標函數爲:使 $J(\theta) = MSE(y, \hat{y};\theta)$ 儘量小;若是模型過擬合,獲得的 $\theta$ 就可能很是大,所以須要對 $J(\theta)$ 加入限制是的 $\theta$ 儘量小。
有兩種主要方式:嶺迴歸和 LASSO 迴歸。
嶺迴歸(Ridge Regression)就是在目標函數中加入了 $\alpha\frac{1}{2}\sum_{i=1}^n\theta_i^2$,即便 $J(\theta) = MSE(y, \hat{y};\theta)+\alpha\frac{1}{2}\sum_{i=1}^n\theta_i^2$ 儘量小。
Scikit Learn 中提供了 Ridge
類表示嶺迴歸,參數爲 $\alpha$。使用過程以下:
from sklearn.linear_model import Ridge x = np.random.uniform(-3, 3, size=100) X = x.reshape(-1, 1) y = 0.5 * x + 3 + np.random.normal(0, 1, size=100) def PolynomialRegression(degree, alpha): return Pipeline([ ("poly", PolynomialFeatures(degree=degree)), ("std_scaler", StandardScaler()), ("ridge_reg", Ridge(alpha=alpha)) ])
設置 degree
爲20,alpha
爲0.0001 訓練模型:
ridge_reg = PolynomialRegression(20, 0.0001) ridge_reg.fit(X_train, y_train) y_predict = ridge_reg.predict(X_test)
畫出來的圖形爲:
設置 degree
爲20,alpha
爲1 訓練模型:
ridge_reg = PolynomialRegression(20, 1) ridge_reg.fit(X_train, y_train) y_predict = ridge_reg.predict(X_test)
畫出來的圖形爲:
相比之下模型好上了很多。
LASSO 迴歸(Least Absolute Shrinkage and Selection Operator Regression)與嶺迴歸不一樣的是使用 $\alpha\sum_{i=1}^n|\theta_i|$ 對 $\theta$ 進行限制,即便 $J(\theta) = MSE(y, \hat{y};\theta)+\alpha\sum_{i=1}^n|\theta_i|$ 儘量小。
Scikit Learn 中提供了 Lasso
類表示嶺迴歸,參數爲 $\alpha$。使用過程以下:
from sklearn.linear_model import Lasso def LassoRegression(degree, alpha): return Pipeline([ ("poly", PolynomialFeatures(degree=degree)), ("std_scaler", StandardScaler()), ("lasso_reg", Lasso(alpha=alpha)) ])
設置 degree
爲20,alpha
爲0.01 訓練模型:
lasso_reg = PolynomialRegression(20, 0.01) lasso_reg.fit(X_train, y_train) y_predict = lasso_reg.predict(X_test)
畫出來的圖形爲:
設置 degree
爲20,alpha
爲0.1 訓練模型:
lasso_reg = PolynomialRegression(20, 0.1) lasso_reg.fit(X_train, y_train) y_predict = lasso_reg.predict(X_test)
畫出來的圖形爲:
相比之下模型也好上了很多。
LASSO 迴歸相比嶺迴歸趨向於使得一部分 $\theta$ 等於0,所以畫出來的曲線也相對更直一些。
彈性網(Elastic Net)則同時使用了嶺迴歸和LASSO 迴歸,即便用了 $\alpha\frac{1-r}{2}\sum_{i=1}^n\theta_i^2 +r \alpha\sum_{i=1}^n|\theta_i|$ 對 $\theta$ 進行限制。
使用上面的例子就是使 $J(\theta) = MSE(y, \hat{y};\theta)+\alpha\frac{1-r}{2}\sum_{i=1}^n\theta_i^2 +r \alpha\sum_{i=1}^n|\theta_i|$ 儘量小。