(本文所使用的Python庫和版本號: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )html
最近幾十年,房價一直是中國老百姓心中永遠的痛,有人說,中國房價就像女人的無肩帶文胸,一半人在疑惑:是什麼支撐了它?另外一半人在等待:何時掉下去? 而女人,永不可能讓它掉下來。就算快掉下來了,提一提仍是又上去了.....git
雖然咱們不能預測中國房價何時崩盤,可是卻能夠用機器學習來構建房價預測模型,下面咱們使用波士頓房價數據集來創建一個房價評估模型,經過房子所在的地理位置,人口居住特性等因素來綜合評估房價。github
本次模型所使用的數據集來自於波士頓房價數據集官方網站,地址爲:(http://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html)。算法
這個數據集比較小,只有506個樣本,每一個樣本有13個features, 1個label,關於這14個屬性的說明以下圖所示:網絡
因此咱們須要構建模型,使用前面的13個特徵來評估最後的MEDV,即便用13個特徵向量來計算房價,這是典型的多元迴歸問題。雖然能夠從官網上直接下載這個數據集,可是sklearn中已經集成了該數據集,咱們能夠直接調用。以下代碼dom
# 分析數據集
from sklearn import datasets # sklearn自帶的datasets中就有Boston房價數據集
housing_data=datasets.load_boston()
dataset_X=housing_data.data # 獲取影響房價的特徵向量,做爲feaure X
dataset_y=housing_data.target # 獲取對應的房價,做爲label y
# print(dataset_X.shape) # (506, 13) # 一共有506個樣本,每一個樣本有13個features
# print(dataset_y.shape) # (506,)
# print(dataset_X[:5,:]) # 打印看看features的數值類型和大小,貌似已經normalize.
# 將整個數據集劃分爲train set 和test set兩部分
from sklearn.utils import shuffle
dataset_X,dataset_y=shuffle(dataset_X,dataset_y)
# print(dataset_X[:5,:]) # 確認dataset_X 的確發生了shuffle
num_split=int(0.8*len(dataset_X))
train_X,train_y=dataset_X[:num_split],dataset_y[:num_split]
test_X,test_y=dataset_X[num_split:],dataset_y[num_split:]
# print(train_X.shape) # (404, 13)
# print(test_X.shape) # (102, 13)
# 上面的數據集劃分也能夠採用下面的方法:
# from sklearn.model_selection import train_test_split
# dataset_y=dataset_y[:,np.newaxis]
# dataset=np.hstack((dataset_X,dataset_y))
# print(dataset.shape)
# print(dataset[:,:3])
# train_set,test_set=train_test_split(dataset,test_size=0.2,random_state=37)
# print(train_set.shape) # (404, 14)
# print(test_set.shape) # (102, 14)
複製代碼
上述代碼首先調用sklearn.load_boston()來獲取波士頓房價數據集,而後將該數據集劃分爲兩部分,其中train set佔據80%(即404個樣本),test set佔據20%(102個樣本)。在查看數據集中前面五行的結果時,發現整個數據集已經Normalize,故而此處咱們沒有必要進行歸一化。機器學習
決策樹(DecisionTree, DT)是一種常見的用於分類和迴歸的非參數監督學習方法,目標是建立一個模型,經過從數據特性中推導出簡單的決策規則來預測目標變量的值。函數
決策樹模型的優勢在於:1,簡單容易理解,數結構能夠可視化表達。2,須要不多的數據準備,其餘技術一般須要數據標準化,須要建立虛擬變量,並刪除空白值。3,可以處理多輸出問題。4,相比於使用神經網絡的模型,決策樹是白盒模型,結果很容易解釋。學習
決策樹模型的缺點在於:1,決策樹學習可能會生成過於複雜的數結構,不能表明廣泛的規則,即模型容易過擬合,修剪機制,設置葉子節點所需的最小樣本數目或設置數的最大深度是避免決策樹過擬合的必要條件。2,決策樹可能不穩定,由於數據中的小變化可能致使生成徹底不一樣的樹。這個問題能夠經過在一個集合中使用多個決策樹來減輕。3,實際的決策樹學習算法是基於啓發式算法的,例如在每一個節點上進行局部最優決策的貪婪算法。這種算法不能保證返回全局最優決策樹。經過在集合學習中訓練多個樹,能夠減小這種狀況,在這裏,特徵和樣本是隨機抽取的。4,有些概念很難學習,由於決策樹沒法很容易地表達它們,例如XOR、奇偶性或多路複用問題。測試
說了這麼多廢話,直接看代碼吧。。。
# 構建決策樹迴歸模型
from sklearn.tree import DecisionTreeRegressor
decision_regressor=DecisionTreeRegressor(max_depth=4) # 最大深度肯定爲4
decision_regressor.fit(train_X,train_y) # 對決策樹迴歸模型進行訓練
# 使用測試集來評價該決策樹迴歸模型
predict_test_y=decision_regressor.predict(test_X)
import sklearn.metrics as metrics
print('決策樹迴歸模型的評測結果----->>>')
print('均方偏差MSE:{}'.format(
round(metrics.mean_squared_error(predict_test_y,test_y),2)))
print('解釋方差分:{}'.format(
round(metrics.explained_variance_score(predict_test_y,test_y),2)))
複製代碼
-------------------------------------輸---------出--------------------------------
決策樹迴歸模型的評測結果----->>> 均方偏差MSE:13.33 解釋方差分:0.81
--------------------------------------------完-------------------------------------
########################小**********結###############################
1. 決策樹迴歸模型的構建很是簡單,和線性迴歸器的構建相似,使用DecisionTreeRegressor獲取一個迴歸器對象便可,模型的訓練使用fit函數,預測使用predict函數便可。
2. 簡單的決策樹迴歸模型獲得的MSE比較大,解釋方差分結果也不理想,說明這個模型還有很大的優化空間。
#################################################################
通常的,能夠先從數據集上優化,但本項目的數據集是很是成熟的案例,進一步優化的空間不大,因此只能從模型上下手。此處我採用兩種優化方法,第一種是優化決策樹模型中的各類參數,好比優化max_depth,判斷是否能夠改進MSE,第二種方式是使用AdaBoost算法來加強模型的準確性。
# 第一種優化方法:改變max depth來下降MSE,提升解釋方差分
for depth in range(2,12):
decision_regressor_test=DecisionTreeRegressor(max_depth=depth)
decision_regressor_test.fit(train_X,train_y)
predict_test_y2=decision_regressor_test.predict(test_X)
print('depth: {}, MSE: {:.2f}, EVS: {:.2f}'.format(
str(depth), metrics.mean_squared_error(predict_test_y2,test_y),
metrics.explained_variance_score(predict_test_y2,test_y)))
複製代碼
-------------------------------------輸---------出--------------------------------
depth: 2, MSE: 23.83, EVS: 0.62 depth: 3, MSE: 20.98, EVS: 0.68 depth: 4, MSE: 13.33, EVS: 0.81 depth: 5, MSE: 13.00, EVS: 0.83 depth: 6, MSE: 14.36, EVS: 0.83 depth: 7, MSE: 11.73, EVS: 0.86 depth: 8, MSE: 16.18, EVS: 0.83 depth: 9, MSE: 15.74, EVS: 0.83 depth: 10, MSE: 14.67, EVS: 0.83 depth: 11, MSE: 15.02, EVS: 0.84
--------------------------------------------完-------------------------------------
# 第二種優化方法:經過AdaBoost算法來提升模型準確度
from sklearn.ensemble import AdaBoostRegressor
ada_regressor=AdaBoostRegressor(DecisionTreeRegressor(max_depth=7),n_estimators=400)
ada_regressor.fit(train_X,train_y)
# 查看使用AdaBoost算法後模型的MSE 和EVS
predict_test_y=ada_regressor.predict(test_X)
import sklearn.metrics as metrics
print('AdaBoost決策樹迴歸模型的評測結果----->>>')
print('均方偏差MSE:{}'.format(
round(metrics.mean_squared_error(predict_test_y,test_y),2)))
print('解釋方差分:{}'.format(
round(metrics.explained_variance_score(predict_test_y,test_y),2)))
複製代碼
-------------------------------------輸---------出--------------------------------
AdaBoost決策樹迴歸模型的評測結果----->>> 均方偏差MSE:7.87 解釋方差分:0.9
--------------------------------------------完-------------------------------------
########################小**********結###############################
1,兩種優化方法:第一種經過優化max_depth能夠發現,在depth=7時獲得的MSE最小,且解釋方差分最大,故而認定max_depth=7.
2,第二種經過AdaBoost加強算法來優化模型,獲得的MSE(7.87)比depth優化最好的MSE(11.73)要小不少,且解釋方差分也有了較大提升,說明優化效果比較好。
3,AdaBoost(Adaptive boosting)算法是一種自適應的利用其餘系統來加強模型準確性的算法,將不一樣版本的算法結果進行組合,用加權彙總的方式得到最終結果。AdaBoost算法在每一個階段獲取的信息都會反饋到模型中,這樣學習器就能夠在後一階段重點訓練難以分類的樣本。
4,固然,對於本模型,還能夠繼續優化,好比優化決策樹的結構,優化決策樹的其餘參數等。
#################################################################
本項目共有13個特徵,但這13個特徵對於房價的影響確定是不一樣的,好比從直觀上來看,學區房對房價影響確定比較大,因此能夠計算出各類不一樣特徵對模型的影響,進而在特徵比較複雜的狀況下,能夠忽略掉影響比較小的特徵。
以下兩部分代碼能夠將各類特徵的相對重要性繪製到圖中。
# 計算不一樣特徵的相對重要性
def plot_importances(feature_importances, title, feature_names):
'''將feature_importance繪製到圖表中,便於觀察, 並把重要性大於5的特徵打印出來'''
# 將重要性都歸一化爲0-100以內
feature_importances=100.0*(feature_importances/max(feature_importances))
# 將得分從高到低排序
index_sorted=np.flipud(np.argsort(feature_importances))
# 讓X座標軸上的標籤居中顯示
pos=np.arange(index_sorted.shape[0])+0.5
# 畫條形圖
plt.figure()
plt.bar(pos,feature_importances[index_sorted],align='center')
plt.xticks(pos,feature_names[index_sorted])
plt.ylabel('Relative Importance')
plt.title(title)
# 把重要性結果打印出來
print('{} importance list------>>>>>'.format(title))
for importance,name in zip(feature_importances[index_sorted],
feature_names[index_sorted]):
if importance>5:
print('feature:{}, importance: {:.2f}'.format(name,importance))
複製代碼
decision_regressor7=DecisionTreeRegressor(max_depth=7) # 最大深度肯定爲7
decision_regressor7.fit(train_X,train_y) # 對決策樹迴歸模型進行訓練
plot_importances(decision_regressor7.feature_importances_,
'DT regressor',housing_data.feature_names)
plot_importances(ada_regressor.feature_importances_,
'AdaBoost Optimized DT regressor',housing_data.feature_names)
複製代碼
-------------------------------------輸---------出--------------------------------
DT regressor importance list------>>>>> feature:LSTAT, importance: 100.00 feature:RM, importance: 52.24 feature:DIS, importance: 15.97 feature:PTRATIO, importance: 5.00 AdaBoost Optimized DT regressor importance list------>>>>> feature:LSTAT, importance: 100.00 feature:RM, importance: 46.72 feature:DIS, importance: 21.80 feature:TAX, importance: 7.34 feature:AGE, importance: 7.29 feature:CRIM, importance: 6.51 feature:NOX, importance: 5.32 feature:PTRATIO, importance: 5.29
--------------------------------------------完-------------------------------------
########################小**********結###############################
1,經過上面兩幅圖的比較,能夠看出,各類特徵對模型的相對重要性變化很大,兩種模型都發現最重要的特徵是LSTAT(這和書本《Python機器學習經典實例》中不同。
2,但AdaBoost加強算法貌似可以提高其餘小特徵的相對重要性,並且兩種模型中特徵重要性排序也不同。
#################################################################
注:本部分代碼已經所有上傳到(個人github)上,歡迎下載。
參考資料:
1, Python機器學習經典實例,Prateek Joshi著,陶俊傑,陳小莉譯