機器學習（三）：線性迴歸（polinomial regression多項式迴歸）

時間 2019-11-10

標籤機器學習線性迴歸 polinomial regression 多項式欄目應用數學简体版

原文原文鏈接

首先咱們須要明確一個概念，咱們討論的線性或者非線性針對的是自變量的係數，而非自變量自己，因此這樣的話無論自變量如何變化，自變量的係數若是符合線性咱們就說這是線性的。因此這裏咱們也就能夠描述一下多項式線性迴歸。python

由此公式咱們能夠看出，自變量只有一個，就是x，只不過x的級數（degree）不一樣而已。數據庫

咱們此次用的數據是公司內部不一樣的promotion level所對應的薪資測試

下面咱們來看一下在Python中是如何實現的spa

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

dataset = pd.read_csv('Position_Salaries.csv')
X = dataset.iloc[:, 1:2].values
# 這裏注意：1:2其實只有第一列，與1 的區別是這表示的是一個matrix矩陣，而非單一貫量。
y = dataset.iloc[:, 2].values

接下來，進入正題，開始多項式線性迴歸：code

from sklearn.preprocessing import PolynomialFeatures
poly_reg = PolynomialFeatures(degree = 1) #degree 就是自變量須要的維度
X_poly = poly_reg.fit_transform(X)
lin_reg_2 = LinearRegression()
lin_reg_2.fit(X_poly, y)

這個過程咱們設置了一元一次的自變量：degree=1 意思是自變量只有一次，至關於簡單線性迴歸
咱們在圖像中表示一下：orm

# 圖像中顯示
plt.scatter(X, y, color = 'red')
plt.plot(X, lin_reg_2.predict(poly_reg.fit_transform(X)), color = 'blue')
plt.title('Truth or Bluff (Polynomial Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

此圖像與用簡單線性迴歸表示的圖像是同樣的blog

# 簡單線性迴歸 圖像中顯示
plt.scatter(X, y, color = 'red')
plt.plot(X, lin_reg.predict(X), color = 'blue')
plt.title('Truth or Bluff (Linear Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

下面咱們試着改變一下維度，將degree設置成2，其餘不改變，執行一下代碼看看圖像：rem

咱們能夠發現整個趨勢符合數據的分佈。pandas

咱們將degree改爲3 和 4 看看結果it

咱們能夠發現，當degree=4的時候，基本上已經符合全部點的分佈了

咱們經過拆分橫座標將圖像變得平滑一些:

X_grid = np.arange(min(X), max(X), 0.1)
X_grid = X_grid.reshape((len(X_grid), 1))
plt.scatter(X, y, color = 'red')
plt.plot(X_grid, lin_reg_2.predict(poly_reg.fit_transform(X_grid)), color = 'blue')
plt.title('Truth or Bluff (Polynomial Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

下面咱們給出一個測試值來試試結果（6,10）

lin_reg_2.predict(poly_reg.fit_transform(6))   
lin_reg_2.predict(poly_reg.fit_transform(10))

與實際值仍是比較接近的。

一下是R的代碼

dataset = read.csv('Position_Salaries.csv')
dataset = dataset[2:3]

lin_reg = lm(formula = Salary ~ .,
             data = dataset)

# 將多項式線性迴歸fit數據集
dataset$Level2 = dataset$Level^2
dataset$Level3 = dataset$Level^3
dataset$Level4 = dataset$Level^4
poly_reg = lm(formula = Salary ~ .,
              data = dataset)

              library(ggplot2)
              ggplot() +
                geom_point(aes(x = dataset$Level, y = dataset$Salary),
                           colour = 'red') +
                geom_line(aes(x = dataset$Level, y = predict(lin_reg, newdata = dataset)),
                          colour = 'blue') +
                ggtitle('Truth or Bluff (Linear Regression)') +
                xlab('Level') +
                ylab('Salary')

# install.packages('ggplot2')
library(ggplot2)
ggplot() +
  geom_point(aes(x = dataset$Level, y = dataset$Salary),
             colour = 'red') +
  geom_line(aes(x = dataset$Level, y = predict(poly_reg, newdata = dataset)),
            colour = 'blue') +
  ggtitle('Truth or Bluff (Polynomial Regression)') +
  xlab('Level') +
  ylab('Salary')

# install.packages('ggplot2')
library(ggplot2)
x_grid = seq(min(dataset$Level), max(dataset$Level), 0.1)
ggplot() +
  geom_point(aes(x = dataset$Level, y = dataset$Salary),
             colour = 'red') +
  geom_line(aes(x = x_grid, y = predict(poly_reg,
                                        newdata = data.frame(Level = x_grid,
                                                             Level2 = x_grid^2,
                                                             Level3 = x_grid^3,
                                                             Level4 = x_grid^4))),
            colour = 'blue') +
  ggtitle('Truth or Bluff (Polynomial Regression)') +
  xlab('Level') +
  ylab('Salary')

# 預測新的數據
predict(lin_reg, data.frame(Level = 6.5))
summaryss(poly_reg)