機器學習經典分類算法 —— C4.5算法(附python實現代碼)

[toc]html

理論介紹

什麼是分類

  • 分類屬於機器學習中監督學習的一種。模型的學習在被告知每一個訓練樣本屬於哪一個類的「指導」下進行,新數據使用訓練集中獲得的規則進行分類。

分類的步驟

什麼是決策樹

決策樹概括

信息增益

相關理論基礎

計算公式

ID3

注:生成的決策樹有誤,fair對應的應該是yes,excellent對應的應該是nopython

C4.5

python實現

  • GitHub地址
  • 不足之處:目前只能處理離散值,而且尚未添加從文件中讀取數據集的功能。可是基本上算法的大部分都實現了,之後到了具體應用場景時能夠繼續調整後使用。

參考資料

  • 理論部分參考:福州大學數學與計算機科學學院蘇雅茹老師數據挖掘課上使用的課件(一併上傳到Github了,課件內還包括其餘一些經常使用分類算法,例如貝葉斯算法)
  • 代碼部分參考:Python實現C4.5(信息增益率)
  • 若有侵權,請聯繫我刪除
相關文章
相關標籤/搜索