處理不平衡樣本集的採樣方法

在訓練二分類模型時,例如醫療診斷、網絡入侵檢測、信用卡反詐騙等,經常會遇到正負樣本不均衡的問題。對於分類算法,如果直接採用不平衡的樣本集進行訓練學習,會存在一些問題。例如,如果正負樣本比例達到1:99,則分類器簡單地將所有樣本都判定爲負樣本能達到99%的正確率,顯然這並不是我們想要的,我們想讓分類器在正樣本和負樣本上都有足夠的準確率和召回率。 爲什麼很多分類模型在訓練數據不均衡時會出現問題? 本質
相關文章
相關標籤/搜索