集成學習(一)

入門知識點: 熵: 假設集合中的變量X={x1,x2…xn},它對應在集合的概率分別是P={p1,p2…pn}。 信息增益: 第一列爲QQ,第二列爲性別,第三列爲活躍度,最後一列用戶是否流失。我們要解決一個問題:性別和活躍度兩個特徵,哪個對用戶流失影響更大?我們通過計算信息熵可以解決這個問題。 按照分組統計,我們可以得到如下信息: 其中Positive爲正樣本(已流失),Negative爲負樣本(
相關文章
相關標籤/搜索