數據挖掘十大算法之決策樹詳解（2）

時間 2019-11-10

標籤數據挖掘十大算法決策樹詳解简体版

原文原文鏈接

在2006年12月召開的 IEEE 數據挖掘國際會議上（ICDM， International Conference on Data Mining），與會的各位專家選出了當時的十大數據挖掘算法（ top 10 data mining algorithms ），能夠參見文獻【1】。本博客已經介紹過的位列十大算法之中的算法包括：html

由於原文較長，我嘗試把它們分散成幾篇。本文是決策樹模型系列中的第二篇，但願你在閱讀本文以前已經對《數據挖掘十大算法之決策樹詳解（1）》中以內容有較深刻理解。決策樹模型是一類算法的集合，在數據挖掘十大算法中，具體的決策樹算法佔有兩席位置，即C4.5和CART算法，本文都會介紹到它們。node

歡迎關注白馬負金羈的博客 http://blog.csdn.net/baimafujinji，爲保證公式、圖表得以正確顯示，強烈建議你從該地址上查看原版博文。本博客主要關注方向包括：數字圖像處理、算法設計與分析、數據結構、機器學習、數據挖掘、統計分析方法、天然語言處理。算法

ID3算法

ID3和C4.5都是由澳大利亞計算機科學家Ross Quinlan開發的決策樹構建算法，其中C4.5是在ID3上發展而來的。下面的算法描述主要出自文獻【3】。數據結構

ID3算法的核心是在決策樹各個結點上應用信息增益準則選擇特徵，遞歸地構建決策樹。具體方法是：從根結點（root node）開始，對結點計算全部可能的特徵的信息增益，選擇信息增益最大的特徵做爲結點的特徵，由該特徵的不一樣取值創建子結點；再對子結點遞歸地調用以上方法，構建決策樹；直到全部特徵的信息增益均很小或沒有特徵能夠選擇爲止。最後獲得一棵決策樹。ID3至關於用極大似然法進行機率模型的選擇。下面咱們給出一個更加正式的ID3算法的描述：機器學習

輸入：訓練數據集函數

若工具
若學習
不然，計算測試
對第大數據

下面咱們來看一個具體的例子，咱們的任務是根據天氣狀況計劃是否要外出打球：

首先來算一下根節點的熵：

E n t r o p y (P l a y B a l l) = E n t r o p y (5, 9) = E n g

G (P l a y B a l l, O u t l o o k) = E (P l a y B a l l) - E (P l a y B a l l, O u t l

C4.5算法

C4.5是2006年國際數據挖掘大會票選出來的十大數據挖掘算法之首，可見它應該是很是powerful的！不只如此，事實上，C4.5的執行也至關的straightforward。

C4.5算法與ID3算法類似，C4.5算法是由ID3算法演進而來的。C4.5在生成的過程當中，用信息增益比來選擇特徵。下面咱們給出一個更加正式的C4.5算法的描述：

輸入：訓練數據集

若是
若是
不然，計算
對結點

How to do it in practice?

易見，C4.5跟ID3的執行步驟很是相似，只是在劃分時所採用的準則不一樣。咱們這裏再也不贅述。可是這裏能夠來看看在實際的數據分析中，該如何操做。咱們所使用的數據是以下所示的一個csv文件，文件內容同本文最初給出的Play Ball例子中的數據是徹底一致的。

http://www.cs.waikato.ac.nz/ml/weka/downloading.html

使用Weka進行數據挖掘是很是容易的，你再也不須要像R語言或者MATLAB那樣編寫代碼或者調用函數。基於GUI界面，在Weka中你只須要點點鼠標便可！首先咱們單擊「Explorer」按鈕來打開操做的主界面，以下圖所示。

在後續的決策樹系列文章中，咱們將繼續深刻探討CART算法等相關話題。

（未完，待續…）

參考文獻

【1】Wu, X., Kumar, V., Quinlan, J.R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A., Liu, B., Philip, S.Y. and Zhou, Z.H., 2008. Top 10 algorithms in data mining. Knowledge and information systems, 14(1), pp.1-37. (http://www.cs.uvm.edu/~icdm/algorithms/10Algorithms-08.pdf）
【2】Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 數據挖掘導論，人民郵電出版社
【3】李航，統計學習方法，清華大學出版社
【4】http://www.saedsayad.com/decision_tree.htm
【5】https://www.cise.ufl.edu/~ddd/cap6635/Fall-97/Short-papers/2.htm

若是你對機器學習和數據挖掘感興趣，你還能夠參考個人高能資源帖：
【6】機器學習與數據挖掘網上資源蒐羅
【7】機器學習與數據挖掘的學習路線圖