劃分訓練集和測試集¶

咱們把 X 和 y 的樣本組合劃分紅兩部分，一部分是訓練集，一部分是測試集，代碼以下：

能夠看到75%的樣本數據被做爲訓練集，25%的樣本被做爲測試集。

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
print(X_train.shape,y_train.shape,X_test.shape,y_test.shape,type(X_train))

(7176, 4) (7176, 1) (2392, 4) (2392, 1) <class 'pandas.core.frame.DataFrame'>

運行 scikit-learn 的線性模型¶

終於到了臨門一腳了，咱們能夠用scikit-learn的線性模型來擬合咱們的問題了。scikit-learn的線性迴歸算法使用的是最小二乘法來實現的。代碼以下：

from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X_train, y_train)
print(linreg.intercept_)     #在線性模型的屬性裏。
print(linreg.coef_)

[447.06297099]
[[-1.97376045 -0.23229086  0.0693515  -0.15806957]]

也就是說 PE 和其餘 4 個變量的關係以下：

PE=447.06297099−1.97376045∗AT−0.23229086∗V+0.0693515∗AP−0.15806957∗RH

模型評價¶

　　　　咱們須要評估咱們的模型的好壞程度，對於線性迴歸來講，咱們通常用均方差（Mean Squared Error, MSE）或者均方根差 (Root Mean Squared Error, RMSE) 在測試集上的表現來評價模型的好壞。

　　　　咱們看看咱們的模型的 MSE 和 RMSE，代碼以下：

#模型擬合測試集
y_pred = linreg.predict(X_test)
from sklearn import metrics
# 用scikit-learn計算MSE
print("MSE:",metrics.mean_squared_error(y_test, y_pred))
# 用scikit-learn計算RMSE
print("RMSE:",np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

MSE: 20.080401202073904
RMSE: 4.481116066570236

獲得了 MSE 或者 RMSE，若是咱們用其餘方法獲得了不一樣的係數，須要選擇模型時，就用 MSE 小的時候對應的參數。

　　　　好比此次咱們用 AT， V，AP 這 3 個列做爲樣本特徵。不要 RH，輸出仍然是 PE。代碼以下：

X = data[['AT', 'V', 'AP']]
y = data[['PE']]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X_train, y_train)
#模型擬合測試集
y_pred = linreg.predict(X_test)
from sklearn import metrics
# 用scikit-learn計算MSE
print("MSE:",metrics.mean_squared_error(y_test, y_pred))
# 用scikit-learn計算RMSE
print("RMSE:",np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

MSE: 23.208907470136236
RMSE: 4.817562399194871

能夠看出，去掉RH後，模型擬合的沒有加上RH的好，MSE變大了。

交叉驗證¶

咱們能夠經過交叉驗證來持續優化模型，代碼以下，咱們採用10折交叉驗證，即cross_val_predict中的cv參數爲10：

X = data[['AT', 'V', 'AP', 'RH']]
y = data[['PE']]
from sklearn.model_selection import cross_val_predict
predicted = cross_val_predict(linreg, X, y, cv=10)
# 用scikit-learn計算MSE
print("MSE:",metrics.mean_squared_error(y, predicted))
# 用scikit-learn計算RMSE
print("RMSE:",np.sqrt(metrics.mean_squared_error(y, predicted)))

MSE: 20.7955974619431
RMSE: 4.560219014690314

能夠看出，採用交叉驗證模型的 MSE 比第 6 節的大，主要緣由是咱們這裏是對全部折的樣本作測試集對應的預測值的 MSE，而第 6 節僅僅對 25% 的測試集作了 MSE。二者的先決條件並不一樣。

疑惑解答：¶

2018-01-04 14:10 小北潛行
你好~ 真的很是感謝你的文章。理論和實際使用相結合，好理解不少~~ 有個問題，就是不太明白 8. 交叉驗證這一部分的做用上文中 8 使用的數據集和前面計算均方差的數據集不同，因此獲得的數值不同可是若是使用相同的數據集，那和前面計算出來的數值沒有差別那這部分的做用體如今哪裏呢？

[樓主] 2018-01-05 10:52 劉建平 Pinard
@ 小北潛行你好，這是一個簡單的例子，主要是說均方差能夠用來衡量模型的好壞，能夠怎麼用，通常在交叉驗證的時候不用看 MSE。

何時用 MSE 呢？在作模型測試的時候。

針對訓練集和測試集，第一次選擇合適參數 (好比優化方法，正則化參數等)，訓練集交叉驗證出來的模型 A，來預測測試集，能夠計算 MSE-A，第二次選擇合適參數，訓練集交叉驗證出來的模型 B，來預測測試集，能夠計算 MSE-B，經過 MSE-A 和 MSE-B 的大小，能夠衡量模型 A 和 B 的好壞。

2018-03-18 18:50 TinyLaughing
博主，您好！對於第 8 節的 10 折交叉驗證有點不明白。個人理解是 10 折交叉驗證，獲得了 10 個不一樣的模型，每個模型有各自的係數、截距以及 MSE。（這樣理解不知道對不對？）那麼，博主文中計算的 MSE 是 10 個模型的 MSE 的平均值，仍是 10 個模型中最優模型的 MSE（即 10 個 MSE 的最小值）？ [樓主] 2018-03-25 18:51 劉建平 Pinard
@ TinyLaughing 你好，就是 10 個模型中最優模型的 MSE（即 10 個 MSE 的最小值）。由於交叉驗證的目的是找到最好的模型參數，而如何評判呢？對於這個例子就看這 10 折交叉驗證中哪一次的 MSE 最好，那麼對應的模型參數咱們認爲是最優的。

至於你們都很關心的，如何求出交叉驗證的參數和截距：¶

對於你說的需求，直接使用 skearn 單個 API 是沒法獲得的。可行的作法是： 1）用 sklearn.model_selection.KFold 將數據分紅 K 折。 2）本身作一個循環（共 K 次），每次合併其中的 K-1 折的數據作訓練集，另 1 折作測試集，按第 6 節的方法訓練，打印模型參數和 MSE。 3）選擇最小 MSE 對應的模型參數。

畫圖觀察結果¶

這裏畫圖真實值和預測值的變化關係，離中間的直線 y=x 直接越近的點表明預測損失越低。代碼以下：

fig, ax = plt.subplots()
ax.scatter(y, predicted)
ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4) #lw表示線寬
ax.set_xlabel('Measured')
ax.set_ylabel('Predicted')
plt.show()

	AT	V	AP	RH	PE
0	8.34	40.77	1010.84	90.01	480.48
1	23.64	58.49	1011.40	74.20	445.75
2	29.74	56.90	1007.15	41.91	438.76
3	19.07	49.69	1007.22	76.79	453.09
4	11.80	40.66	1017.13	97.20	464.43

	AT	V	AP	RH
0	8.34	40.77	1010.84	90.01
1	23.64	58.49	1011.40	74.20
2	29.74	56.90	1007.15	41.91
3	19.07	49.69	1007.22	76.79
4	11.80	40.66	1017.13	97.20

	PE
0	480.48
1	445.75
2	438.76
3	453.09
4	464.43

用 scikit-learn 和 pandas 學習線性迴歸

用 scikit-learn 和 pandas 學習線性迴歸¶

用 pandas 來讀取數據¶

準備運行算法的數據¶

劃分訓練集和測試集¶

運行 scikit-learn 的線性模型¶

模型評價¶

交叉驗證¶

疑惑解答：¶

至於你們都很關心的，如何求出交叉驗證的參數和截距：¶

畫圖觀察結果¶

用 scikit-learn 和 pandas 學習線性迴歸

用 scikit-learn 和 pandas 學習線性迴歸¶

用 pandas 來讀取數據¶

準備運行算法的數據¶

劃分訓練集和測試集¶

運行 scikit-learn 的線性模型¶

模型評價¶

交叉驗證¶

疑惑解答：¶

至於你們都很關心的，如何求出交叉驗證的 參數和截距：¶

畫圖觀察結果¶

至於你們都很關心的，如何求出交叉驗證的參數和截距：¶