數據挖掘——最佳劃分度量(1)

前言 有很多度量可以用來確定劃分記錄的最佳方法。選擇最佳劃分的度量通常是根據劃分後子女結點不純性的程度。不純的程度越低,類分佈就會越傾斜。 例子: 類分佈爲(0,1)的結點具有零不純性(是比較好的) 均衡分佈(0.5,0.5)的結點具有最高的不純性 提示:以下是本篇文章正文內容,下面案例可供參考 一、不純性度量的公式 注意:p(i|t)表示給定結點t中屬於i類的比例 ①熵(信息論中使用較多) En
相關文章
相關標籤/搜索