首先咱們須要明確一個概念,咱們討論的線性或者非線性針對的是自變量的係數,而非自變量自己,因此這樣的話無論自變量如何變化,自變量的係數若是符合線性咱們就說這是線性的。因此這裏咱們也就能夠描述一下多項式線性迴歸。python
由此公式咱們能夠看出,自變量只有一個,就是x,只不過x的級數(degree)不一樣而已。數據庫
咱們此次用的數據是公司內部不一樣的promotion level所對應的薪資測試
下面咱們來看一下在Python中是如何實現的spa
import numpy as np import matplotlib.pyplot as plt import pandas as pd dataset = pd.read_csv('Position_Salaries.csv') X = dataset.iloc[:, 1:2].values # 這裏注意:1:2其實只有第一列,與1 的區別是這表示的是一個matrix矩陣,而非單一貫量。 y = dataset.iloc[:, 2].values
接下來,進入正題,開始多項式線性迴歸:code
from sklearn.preprocessing import PolynomialFeatures poly_reg = PolynomialFeatures(degree = 1) #degree 就是自變量須要的維度 X_poly = poly_reg.fit_transform(X) lin_reg_2 = LinearRegression() lin_reg_2.fit(X_poly, y)
這個過程咱們設置了一元一次的自變量:degree=1 意思是自變量只有一次,至關於簡單線性迴歸
咱們在圖像中表示一下:orm
# 圖像中顯示 plt.scatter(X, y, color = 'red') plt.plot(X, lin_reg_2.predict(poly_reg.fit_transform(X)), color = 'blue') plt.title('Truth or Bluff (Polynomial Regression)') plt.xlabel('Position level') plt.ylabel('Salary') plt.show()
此圖像與用簡單線性迴歸表示的圖像是同樣的blog
# 簡單線性迴歸 圖像中顯示 plt.scatter(X, y, color = 'red') plt.plot(X, lin_reg.predict(X), color = 'blue') plt.title('Truth or Bluff (Linear Regression)') plt.xlabel('Position level') plt.ylabel('Salary') plt.show()
下面咱們試着改變一下維度,將degree設置成2,其餘不改變,執行一下代碼看看圖像:rem
咱們能夠發現整個趨勢符合數據的分佈。pandas
咱們將degree改爲3 和 4 看看結果it
咱們能夠發現,當degree=4的時候,基本上已經符合全部點的分佈了
咱們經過拆分橫座標將圖像變得平滑一些:
X_grid = np.arange(min(X), max(X), 0.1) X_grid = X_grid.reshape((len(X_grid), 1)) plt.scatter(X, y, color = 'red') plt.plot(X_grid, lin_reg_2.predict(poly_reg.fit_transform(X_grid)), color = 'blue') plt.title('Truth or Bluff (Polynomial Regression)') plt.xlabel('Position level') plt.ylabel('Salary') plt.show()
下面咱們給出一個測試值來試試結果 (6,10)
lin_reg_2.predict(poly_reg.fit_transform(6)) lin_reg_2.predict(poly_reg.fit_transform(10))
與實際值仍是比較接近的。
一下是R的代碼
dataset = read.csv('Position_Salaries.csv') dataset = dataset[2:3] lin_reg = lm(formula = Salary ~ ., data = dataset) # 將多項式線性迴歸fit數據集 dataset$Level2 = dataset$Level^2 dataset$Level3 = dataset$Level^3 dataset$Level4 = dataset$Level^4 poly_reg = lm(formula = Salary ~ ., data = dataset) library(ggplot2) ggplot() + geom_point(aes(x = dataset$Level, y = dataset$Salary), colour = 'red') + geom_line(aes(x = dataset$Level, y = predict(lin_reg, newdata = dataset)), colour = 'blue') + ggtitle('Truth or Bluff (Linear Regression)') + xlab('Level') + ylab('Salary') # install.packages('ggplot2') library(ggplot2) ggplot() + geom_point(aes(x = dataset$Level, y = dataset$Salary), colour = 'red') + geom_line(aes(x = dataset$Level, y = predict(poly_reg, newdata = dataset)), colour = 'blue') + ggtitle('Truth or Bluff (Polynomial Regression)') + xlab('Level') + ylab('Salary') # install.packages('ggplot2') library(ggplot2) x_grid = seq(min(dataset$Level), max(dataset$Level), 0.1) ggplot() + geom_point(aes(x = dataset$Level, y = dataset$Salary), colour = 'red') + geom_line(aes(x = x_grid, y = predict(poly_reg, newdata = data.frame(Level = x_grid, Level2 = x_grid^2, Level3 = x_grid^3, Level4 = x_grid^4))), colour = 'blue') + ggtitle('Truth or Bluff (Polynomial Regression)') + xlab('Level') + ylab('Salary') # 預測新的數據 predict(lin_reg, data.frame(Level = 6.5)) summaryss(poly_reg)
咱們能夠看到模型的係數之間的關係
後面還有還有決策樹和森林迴歸,這樣線性迴歸就寫完了,我爭取這幾天寫完,前幾天準備申請研究生的writing sample,關於數據庫index作了一些,在合適的時候 我會把文章放出來,謝謝你們~~但願你們多多推薦--E·O·F--