決策樹用於對數據集中的記錄進行分類。算法
假設每條記錄都含有若干條屬性,決策樹根據屬性進行分類。ui
ID3算法.net
如何決定選取哪條屬性來進行劃分? 判斷條件是根據該屬性劃分後數據集的信息熵最小(信息熵越小代表數據越整齊),也就是熵差值最大。blog
假設A屬性共有n個取值,按照A劃分後將得到n個分支,每一個分支裏的子數據集都刪除了A屬性。遞歸
遞歸地對分支裏的數據集實施劃分。最終達到不可分或者全部數據都是相同值爲止。get
這將生成一顆決策樹。利用決策樹的葉子節點進行分類數據分析
c4.5算法class
ID3的擴展,區別:
1.選取劃分屬性時比較的是 熵差值/分裂度
2.c4.5運用了剪枝算法,減小噪點數據形成的過適應擴展
http://blog.csdn.net/xuxurui007/article/details/18045943
http://blog.csdn.net/zjd950131/article/details/8027081方法
根據數據集的屬性和每條記錄的類別,判斷新數據的類型。
計算數據點之間的距離,取最近的K個點中最多的類型做爲新數據點的預測類型。
計算距離的方法distance = sqrt(delta(attributeX)**2 + delta(attributeY)**2 + delta(attributeX)**2 +...)
(待續)