《程序員的第一年》---------- 數據挖掘之數據處理(C#基於熵的離散化算法代碼)

熵(entropy)是最經常使用的離散化度量之一。它由Claude Shannon在信息論和信息增益概念的開創性工做中首次引進。基於熵的離散化是一種監督的、自頂向下的分裂技術。它在計算和肯定分裂點(劃分屬性區間的數據值)時利用類分佈信息。爲了離散數值屬性A,該方法選擇A的具備最小熵的值做爲分裂點,並遞歸地劃分結果區間,獲得分層離散化。這種離散化造成A的概念分層。 設D由屬性集和類標號屬性定義的數據
相關文章
相關標籤/搜索