【火爐煉AI】機器學習007-用隨機森林構建共享單車需求預測模型

時間 2019-12-19

原文原文鏈接

【火爐煉AI】機器學習007-用隨機森林構建共享單車需求預測模型

(本文所使用的Python庫和版本號: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )git

共享單車是最近幾年才發展起來的一種便民交通工具，基本上是我等屌絲上班，下班，相親，泡妞必備神器。本項目擬使用隨機森林迴歸器構建共享單車需求預測模型，從而查看各類不一樣的條件下，共享單車的需求量。github

1. 準備數據集

本次使用的數據集來源於加利福尼亞大學歐文分校（UCI）大學的公開數據集：https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset，關於本次數據集的各類信息能夠參考該網站，同時也能夠直接從該網站下載和使用數據集。本次共享單車數據集包含有兩個文件，一個是按天來統計的共享單車使用量數據，另外一個是按照小時數來統計的使用量。dom

說句題外話，這個共享單車數據集是在2011年至2012年間收集的，此處的共享單車是採用固定樁形式的單車，相似於中國的永安行，並非咱們目前所看到的滿大街的小黃車，小藍車，摩拜之類。機器學習

下載後，將數據集解壓到D:\PyProjects\DataSet\SharingBikes中。本數據集總共有17389個樣本，每一個樣本有16列，其中，前兩列是樣本序號和日期，能夠不用考慮，最後三列數據是不一樣類型的輸出結果，最後一列是第十四列和第十五列的和，所以本模型中不考慮第十四列和第十五列。工具

本數據集16列對應的信息分別爲：post

以下爲分析數據集的主要代碼，此處我沒有深刻研究數據集各個特徵列之間的關係。學習

# 首先分析數據集
dataset_path='D:\PyProjects\DataSet\SharingBikes/day.csv' # 首先只分析day 數據
# 首先加載數據集
raw_df=pd.read_csv(dataset_path,index_col=0)
# print(raw_df.shape) # (731, 15)
# print(raw_df.head()) # 查看是否正確加載
# print(raw_df.columns)
# 刪除不須要的列，第1列，第12,13列
df=raw_df.drop(['dteday','casual','registered'],axis=1)
# print(df.shape) # (731, 12)
# print(df.head()) # 查看沒有問題
print(df.info()) # 沒有缺失值 第一列爲object,須要進行轉換
# print(df.columns)

# 分隔數據集
dataset=df.as_matrix() # 將pandas轉爲np.ndarray

# 將整個數據集分隔成train set和test set
from sklearn.model_selection import train_test_split
train_set,test_set=train_test_split(dataset,test_size=0.1,random_state=37)
# print(train_set.shape) # (657, 12)
# print(test_set.shape) # (74, 12)
# print(dataset[:3])
複製代碼

-------------------------------------輸---------出--------------------------------測試

<class 'pandas.core.frame.DataFrame'> Int64Index: 731 entries, 1 to 731 Data columns (total 12 columns): season 731 non-null int64 yr 731 non-null int64 mnth 731 non-null int64 holiday 731 non-null int64 weekday 731 non-null int64 workingday 731 non-null int64 weathersit 731 non-null int64 temp 731 non-null float64 atemp 731 non-null float64 hum 731 non-null float64 windspeed 731 non-null float64 cnt 731 non-null int64 dtypes: float64(4), int64(8) memory usage: 74.2 KB None網站

--------------------------------------------完-------------------------------------編碼

########################小**********結###############################

1，從打印的結果能夠看出，這個數據集中沒有缺失值，且每一列的數據特徵都是一致的，故而不須要再額外作這些處理。

2，數據集中season， yr等有7列是int64類型，表明這些數據須要從新轉換爲獨熱編碼格式，好比對於season中，1=春，2=夏，3=秋，4=冬，須要改爲獨熱編碼造成的稀疏矩陣。

#################################################################

2. 構建隨機森林迴歸模型

在第一次嘗試時，我沒有對原始數據進行任何的特徵分析，也沒有對數據集進行修改，直接使用隨機森林迴歸模型進行擬合，看看結果怎麼樣。

# 其次，構建隨機森林迴歸器模型
from sklearn.ensemble import RandomForestRegressor 
rf_regressor=RandomForestRegressor()
# rf_regressor=RandomForestRegressor(n_estimators=1000,max_depth=10,min_samples_split=0.5)

rf_regressor.fit(train_set[:,:-1],train_set[:,-1]) # 訓練模型

# 使用測試集來評價該回歸模型
predict_test_y=rf_regressor.predict(test_set[:,:-1])

import sklearn.metrics as metrics
print('隨機森林迴歸模型的評測結果----->>>')
print('均方偏差MSE：{}'.format(
    round(metrics.mean_squared_error(predict_test_y,test_set[:,-1]),2)))
print('解釋方差分：{}'.format(
    round(metrics.explained_variance_score(predict_test_y,test_set[:,-1]),2)))
print('R平方得分：{}'.format(
    round(metrics.r2_score(predict_test_y,test_set[:,-1]),2)))
複製代碼