數據挖掘 筆記(4)

1.特徵選擇 要領:最大可能選擇區分度大的特徵,比如下圖將兩個羣體劃分的較爲明確。 2.熵(Entrophy) 比如有有一個人讓你猜,是男是女,此時猜中的可能性(區分度)很低。 在熵中,這個事件爲1,即非常不確定。 此時給一個distribution的情況,比如90%的菸民是男人,則區分度大大提高。 圖中給出了一個熵的公式: 當熵=1,不確定性最高 若給出事件:不抽菸的20%是男生,80%是女生
相關文章
相關標籤/搜索