機器學習分類問題中,數據不均衡時的解決方法

數據不均衡是指數據集中每種類別的數據的數量相差比較大。比如一個數據集S中,a類數據有100個,b類有1個,一般相差一個以上數量級的就算是數據不均衡了,需要進行預處理。 數據不均衡會導致最終的分類結果有偏差。同樣以數據集S作爲說明,如果不作任何處理直接用S作爲訓練數據,那麼用訓練模型對一個新的數據進行測試,得到的結果將有約100/(100+1)即近似爲1的概率被預測爲類別a,而被預測爲b類的概率只有
相關文章
相關標籤/搜索