決策樹——信息熵,條件熵,信息增益

1、信息熵 信息熵是度量樣本集的純合度的一種常用的指標,熵值越大,隨機變量的不確定性越高。 比如:   {0,0,01,1,1,1} {1,2,3,4,5,6,7} 在這兩組數據中,上面的數據的不確定性要小,只有兩種可能性,抽中的數字2的概率爲1/2。所以其熵值就低 下面的那組數據的不確定性就要大,每個數字抽中的概率都要小。所以其熵值要高,不確定性就越大。   信息熵公式:            
相關文章
相關標籤/搜索