手撕算法_決策樹

基本概念 特徵選擇 1.信息增益 信息增益以熵爲依據選擇特徵。用熵來度量信息的隨機性或者不確定性,熵值越大,信息的不確定性就越大。 熵的計算公式爲: 以下面的數據爲示例: 樣本標籤共有兩個(是否逾期),則其熵值爲:0.2873 如果選擇特徵「是否擁有房產」,則熵值爲:0.1827 計算方式:每個「是否擁有房產」的分類中分別計算其熵值,最後做和。 熵值變小,說明使用該特徵做決策是好於不用該特徵的。
相關文章
相關標籤/搜索