類別不均衡問題怎麼作

問題引入

類別不均衡問題是機器學習中常見的一個問題了,那麼對於類別不均衡問題該如何處理呢算法

問題解答

防止類別不平衡對學習形成的影響,在構建分類模型以前,須要對分類不平衡性問題進行處理。主要解決方法有:app

一、擴大數據集機器學習

增長包含小類樣本數據的數據,更多的數據能獲得更多的分佈信息。ide

二、對大類數據欠採樣學習

減小大類數據樣本個數,使與小樣本個數接近。 缺點:欠採樣操做時若隨機丟棄大類樣本,可能會丟失重要信息。 表明算法:EasyEnsemble。其思想是利用集成學習機制,將大類劃分爲若干個集合供不一樣的學習器使用。至關於對每一個學習器都進行欠採樣,但對於全局則不會丟失重要信息。大數據

三、對小類數據過採樣spa

過採樣:對小類的數據樣本進行採樣來增長小類的數據樣本個數。.net

表明算法:SMOTE和ADASYN。orm

SMOTE:經過對訓練集中的小類數據進行插值來產生額外的小類樣本數據。blog

新的少數類樣本產生的策略:對每一個少數類樣本a,在a的最近鄰中隨機選一個樣本b,而後在a、b之間的連線上隨機選一點做爲新合成的少數類樣本。 ADASYN:根據學習難度的不一樣,對不一樣的少數類別的樣本使用加權分佈,對於難以學習的少數類的樣本,產生更多的綜合數據。經過減小類不平衡引入的誤差和將分類決策邊界自適應地轉移到困難的樣本兩種手段,改善了數據分佈。

四、使用新評價指標

若是當前評價指標不適用,則應尋找其餘具備說服力的評價指標。好比準確度這個評價指標在類別不均衡的分類任務中並不適用,甚至進行誤導。所以在類別不均衡分類任務中,須要使用更有說服力的評價指標來對分類器進行評價。

五、選擇新算法

不一樣的算法適用於不一樣的任務與數據,應該使用不一樣的算法進行比較。

六、數據代價加權

例如當分類任務是識別小類,那麼能夠對分類器的小類樣本數據增長權值,下降大類樣本的權值,從而使得分類器將重點集中在小類樣自己上。

七、轉化問題思考角度

例如在分類問題時,把小類的樣本做爲異常點,將問題轉化爲異常點檢測或變化趨勢檢測問題。異常點檢測便是對那些罕見事件進行識別。變化趨勢檢測區別於異常點檢測在於其經過檢測不尋常的變化趨勢來識別。

八、將問題細化分析

對問題進行分析與挖掘,將問題劃分紅多個更小的問題,看這些小問題是否更容易解決。

參考:

[1] https://blog.csdn.net/u013829973/article/details/77675147

喜歡就關注一下啦~~~


圖片

相關文章
相關標籤/搜索