多項式迴歸原理及在sklearn中的使用+pipeline

時間 2020-05-17

原文原文鏈接

相對於線性迴歸模型只能解決線性問題，多項式迴歸可以解決非線性迴歸問題。dom

拿最簡單的線性模型來講，其數學表達式能夠表示爲：y=ax+b，它表示的是一條直線，而多項式迴歸則能夠表示成：y=ax²+bx+c,它表示的是二次曲線，實際上，多項式迴歸能夠當作特殊的線性模型，即把x²當作一個特徵，把x當作另外一個特徵，這樣就能夠表示成y=az+bx+c,其中z=x²,這樣多項式迴歸實際上就變成線性迴歸了。函數

下面介紹如何在sklearn中使用多項式迴歸spa

首先導入相應的庫以及創造數據code

1 import numpy as np 2 import matplotlib.pyplot as plt 3 x = np.random.uniform(-3,3,size=100) 4 X = x.reshape(-1,1) 5 y = 0.5 * x**2 + x + 2 + np.random.normal(0,1,100)

數據分佈如圖所示orm

接下來介紹sklearn中的PolynomialFeatures類：blog

因爲多項式迴歸會產生x的高次項，因此須要對x進行處理，先上代碼：ip

1 from sklearn.preprocessing import PolynomialFeatures 2 X = np.arange(1,11).reshape(-1,2) 3 poly = PolynomialFeatures(degree=2) 4 poly.fit(X) 5 X2 = poly.transform(X)

注意：此處的代碼是單獨的，跟上面的代碼沒有關係，咱們先看一下X以下數學

它是一個5行2列的矩陣，再看一下X2：it

它是一個5行6列的矩陣，它的第一列是X的第一列或者第二列的0次方，它的第二列和第三列就是X，第四列是X的第一列的平方，第五列是X的第一列與第二列的乘積，第六列是X的第二列的平方，用數學表達式：X = [X₁,X₂],X2=[1,X_1,,X₂,X₁²,X₁*X₂,X₂²]，在PolynomialFeatures中有一個超參數degree，它表明的就是多項式的最高次數。pip

在處理完X以後，咱們就能夠將獲得的X2以及y送入線性模型去訓練，因爲在sklearn的線性模型是採用梯度降低法(後續會更新)求解的，故在訓練以前須要對數據進行歸一化，爲了方便一條龍服務，咱們使用sklearn中的Pipeline類，上代碼：

1 from sklearn.preprocessing import StandardScaler 2 from sklearn.pipeline import Pipeline 3 poly_reg = Pipeline([ 4     ('poly',PolynomialFeatures(degree=2)), 5     ('std_scaler',StandardScaler()), 6     ('lin_reg',LinearRegression()) 7 ])

說明一下Pipeline如何使用：Pipeline裏面須要一個列表，列表裏元素是一個個元組，每一個元組表明對數據的處理，元組的第一個參數是處理的別名，隨便取，第二個參數是處理的函數，如本例就是第一步構造高次項，第二步歸一化，第三步使用線性迴歸，而後調用的時候sklearn會順序執行這些步驟，這是sklearn的Pipeline的思想，代碼以下：

1 poly_reg.fit(X,y) 2 y_predict = poly_reg.predict(X) 3 plt.scatter(x,y) 4 plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r') 5 plt.show()

訓練，預測並畫出圖示：

固然，degree參數不能設置太大，不然會過擬合。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。