樣本類別比例嚴重失衡

時間 2019-11-10

標籤樣本類別比例嚴重失衡简体版

原文原文鏈接

在機器學習中咱們常常會遇到一個比較讓人頭疼的問題，就是樣本類別比例失衡,在我第一次參加的Kaggle的比賽中，是一個而分類問題，給定的訓練集樣本中正負樣本的比例大體達到驚人的1：1600。機器學習

經過網上搜集資料，其實針對這樣的狀況解決辦法能夠分爲三種：函數

第一種:學習

　　　將正向樣本進行重複混入訓練樣本中原理

　　　由於訓練的指引來自損失函數，損失函數的影響因素分別來自 1錯分爲0 和0錯分爲1 ，當經過重複正向樣本增長比例後，至關於增長了在訓練時對1錯判爲0的權重，也就增長了損失函數的修正性。比賽

第二種:模型

　　　增長損失函數中正樣錯判的權重：

　　　原理與第一種作法原理相似

第三種：

　　　bagging模式：

　　　具體作法爲，例如正負樣本比例爲1：10 ，將負樣本分爲9份，每一份負樣本與正樣本合併爲一個正負比例爲1：1的訓練樣本，對9個訓練樣本集進行分別的訓練，獲得9個模型，而後用9個模型進行分別的預測並將各自的結果綜合決策出最終的訓練結果。

相關標籤/搜索