從重採樣到數據合成:如何處理機器學習中的不平衡分類問題?

如果你研究過一點機器學習和數據科學,你肯定遇到過不平衡的類分佈(imbalanced class distribution)。這種情況是指:屬於某一類別的觀測樣本的數量顯著少於其它類別。   這個問題在異常檢測是至關重要的的場景中很明顯,例如電力盜竊、銀行的欺詐交易、罕見疾病識別等。在這種情況下,利用傳統機器學習算法開發出的預測模型可能會存在偏差和不準確。   發生這種情況的原因是機器學習算法通常
相關文章
相關標籤/搜索