《數據挖掘導論》實驗課——實驗3、數據挖掘之決策樹

實驗3、數據挖掘之決策樹

1、實驗目的

1. 熟悉掌握決策樹的原理,

2. 熟練掌握決策樹的生成方法與過程

2、實驗工具

1. Anaconda

2. sklearn

3. pydotplus

3、實驗簡介

決策樹是一個非參數的監督式學習方法,主要用於分類和迴歸。算法的目標是經過推斷數據特徵,學習決策規則從而建立一個預測目標變量的模型。html

4、實驗內容

1. 本身建立至少2個向量,每一個向量至少1個屬性和1個類標號,根據向量生成決策樹,並利用該決策樹進行預測。如:

from sklearn import tree X = [[0, 0], [1, 1]] Y = [0, 1] clf = tree.DecisionTreeClassifier() clf = clf.fit(X, Y) clf.predict([[2., 2.]]) clf.predict_proba([[2., 2.]]) #計算屬於每一個類的機率

要求根據要求隨機生成數據,並構建決策樹,並舉例預測。
image.pngpython

2. 對鳶尾花數據構建決策樹,

(1) 調用數據的方法以下:算法

from sklearn.datasets import load_iris iris = load_iris()# 從sklearn 數據集中獲取鳶尾花數據。

(2) 利用sklearn中的決策樹方法對鳶尾花數據創建決策樹
(3) 爲了可以直觀看到建好的決策樹,安裝 pydotplus, 方法以下:函數

pip install pydotplus

pydotplus使用方法工具

import pydotplus #引入pydotplus dot_data = tree.export_graphviz(clf, out_file=None) graph = pydotplus.graph_from_dot_data(dot_data) graph.write_pdf("iris.pdf")#將圖寫成pdf文件

代碼展現

image.png

決策樹效果pdf

image.png

(4)(選作) 不使用sklearn中的決策樹方法,本身編寫決策樹構建程序(建議用python語言),並對鳶尾花數據構建決策樹。學習

5、實驗總結(寫出本次實驗的收穫,遇到的問題等)

經過本次實驗,瞭解了Python中構建決策樹的函數方法,並用鳶尾花數據集的可視化看到了生成的決策樹效果圖。困難在於不太理解決策時具體的構建過程,通過屢次試驗,自動構建的決策樹和本身預測的規律結果是保持一致的,這說明了決策樹的實用性。下一步應該學習理解本身構建出決策樹。

原文出處:https://www.cnblogs.com/wonker/p/11062683.htmlspa

相關文章
相關標籤/搜索