樣本類別比例嚴重失衡

在機器學習中咱們常常會遇到一個比較讓人頭疼的問題,就是樣本類別比例失衡,在我第一次參加的Kaggle的比賽中,是一個而分類問題,給定的訓練集樣本中正負樣本的比例大體達到驚人的1:1600。機器學習

經過網上搜集資料,其實針對這樣的狀況解決辦法能夠分爲三種:函數

第一種:學習

   將正向樣本進行重複混入訓練樣本中原理

   由於訓練的指引來自損失函數,損失函數的影響因素分別來自 1錯分爲0  和0錯分爲1 ,當經過重複正向樣本增長比例後,至關於增長了在訓練時對1錯判爲0的權重,也就增長了損失函數的修正性。比賽

第二種:模型

   增長損失函數中正樣錯判的權重:

   原理與第一種作法原理相似

第三種:

   bagging模式:

   具體作法爲,例如正負樣本比例爲1:10 ,將負樣本分爲9份,每一份負樣本與正樣本合併爲一個正負比例爲1:1的訓練樣本,對9個訓練樣本集進行分別的訓練,獲得9個模型,而後用9個模型進行分別的預測並將各自的結果綜合決策出最終的訓練結果。

相關文章
相關標籤/搜索