數據不平衡時分類器性能評價(ROC曲線)

大家在將統計學習方法用於實際應用時,不免會遇到各類間數據不太平衡的情況。比如垃圾郵件的識別、稀有病情的診斷、詐騙電話識別、情感分析等等情況。導致數據不平衡的原因有很多,有可能是因爲不恰當的採樣方法,也可能真實的數據分佈就是如此;然而真實的數據分佈在大多數情況下我們是無從得知的,於是我們只好認爲我們所取得的樣本是「真實」的,再從中進行學習。那麼針對數據不平衡有很多研究點,最近稍微調研了一下,這也算是
相關文章
相關標籤/搜索