數據集類別不平衡問題

類別不平衡問題: 類別不平衡問題指分類任務中不同類別的訓練樣本數目差別很大的情況。一般來說,不平衡樣本會導致訓練模型側重樣本數目較多的類別,而「輕視」樣本數目較少類別,這樣模型在測試數據上的泛化能力就會受到影響。一個例子,訓練集中有99個正例樣本,1個負例樣本。在不考慮樣本不平衡的很多情況下,學習算法會使分類器放棄負例預測,因爲把所有樣本都分爲正便可獲得高達99%的訓練分類準確率。 數據集方面進行
相關文章
相關標籤/搜索