用scikit-learn和pandas學習線性迴歸

時間 2019-11-07

標籤 scikit learn pandas 學習線性迴歸欄目應用數學简体版

原文原文鏈接

對於想深刻了解線性迴歸的童鞋，這裏給出一個完整的例子，詳細學完這個例子，對用scikit-learn來運行線性迴歸，評估模型不會有什麼問題了。javascript

1、獲取數據，定義問題

　　　　沒有數據，固然無法研究機器學習啦。:) 這裏咱們用UCI大學公開的機器學習數據來跑線性迴歸。css

　　　　數據的介紹在這： http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Planthtml

　　　　數據的下載地址在這： http://archive.ics.uci.edu/ml/machine-learning-databases/00294/java

　　　　裏面是一個循環發電場的數據，共有9568個樣本數據，每一個數據有5列，分別是:AT（溫度）, V（壓力）, AP（溼度）, RH（壓強）, PE（輸出電力)。咱們不用糾結於每項具體的意思。python

　　　　咱們的問題是獲得一個線性的關係，對應PE是樣本輸出，而AT/V/AP/RH這4個是樣本特徵，機器學習的目的就是獲得一個線性迴歸模型，即:git

　　　　\(PE = \theta_0 + \theta_1*AT + \theta_2*V + \theta_3*AP + \theta_4*RH\)github

　　　　而須要學習的，就是\(\theta_0, \theta_1, \theta_2, \theta_3, \theta_4\)這5個參數。算法

2、整理數據

　　　　下載後的數據能夠發現是一個壓縮文件，解壓後能夠看到裏面有一個xlsx文件，咱們先用excel把它打開，接着「另存爲「」csv格式，保存下來，後面咱們就用這個csv來運行線性迴歸。瀏覽器

　　　　打開這個csv能夠發現數據已經整理好，沒有非法數據，所以不須要作預處理。可是這些數據並無歸一化，也就是轉化爲均值0，方差1的格式。也不用咱們搞，後面scikit-learn在線性迴歸時會先幫咱們把歸一化搞定。微信

　　　　好了，有了這個csv格式的數據，咱們就能夠大幹一場了。

3、3. 用pandas來讀取數據

　　　　咱們先打開ipython notebook,新建一個notebook。固然也能夠直接在python的交互式命令行裏面輸入，不過仍是推薦用notebook。下面的例子和輸出我都是在notebook裏面跑的。

　　　　先把要導入的庫聲明瞭：

import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import pandas as pd
from sklearn import datasets, linear_model

　　　　接着咱們就能夠用pandas讀取數據了：

# read_csv裏面的參數是csv在你電腦上的路徑，此處csv文件放在notebook運行目錄下面的CCPP目錄裏
data = pd.read_csv('.\CCPP\ccpp.csv')

　　　　測試下讀取數據是否成功：

#讀取前五行數據，若是是最後五行，用data.tail()
data.head()

　　　　運行結果應該以下，看到下面的數據，說明pandas讀取數據成功：

8.34

40.77

1010.84

90.01

480.48

23.64

58.49

1011.40

74.20

445.75

29.74

56.90

1007.15

41.91

438.76

19.07

49.69

1007.22

76.79

453.09

11.80

40.66

1017.13

97.20

464.43

4、4. 準備運行算法的數據

　　　　咱們看看數據的維度：

data.shape

　　　　結果是(9568, 5)。說明咱們有9568個樣本，每一個樣本有5列。

　　　　如今咱們開始準備樣本特徵X，咱們用AT， V，AP和RH這4個列做爲樣本特徵。

X = data[['AT', 'V', 'AP', 'RH']]
X.head()

　　　　能夠看到X的前五條輸出以下：