數據分析算法

時間 2019-11-11

標籤數據分析算法简体版

原文原文鏈接

決策樹用於對數據集中的記錄進行分類。算法

假設每條記錄都含有若干條屬性，決策樹根據屬性進行分類。ui

ID3算法.net

如何決定選取哪條屬性來進行劃分？判斷條件是根據該屬性劃分後數據集的信息熵最小（信息熵越小代表數據越整齊）,也就是熵差值最大。blog

假設A屬性共有n個取值，按照A劃分後將得到n個分支，每一個分支裏的子數據集都刪除了A屬性。遞歸

遞歸地對分支裏的數據集實施劃分。最終達到不可分或者全部數據都是相同值爲止。get

這將生成一顆決策樹。利用決策樹的葉子節點進行分類數據分析

c4.5算法class

ID3的擴展，區別：
1.選取劃分屬性時比較的是熵差值/分裂度
2.c4.5運用了剪枝算法，減小噪點數據形成的過適應擴展

根據數據集的屬性和每條記錄的類別，判斷新數據的類型。

計算數據點之間的距離，取最近的K個點中最多的類型做爲新數據點的預測類型。
計算距離的方法distance = sqrt(delta(attributeX)**2 + delta(attributeY)**2 + delta(attributeX)**2 +...)

(待續)

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。