非均衡樣本處理的心法

  身處大數據時代,對模型和風控工作者來說無異於福音。但與此同時,數據呈現長尾分佈,不均衡分佈導致訓練困難,效果不佳。具體到風控場景中,負樣本的佔比要遠遠小於正樣本的佔比。考慮一個簡單的例子,假設有10萬個樣本,其中逾期客戶500個,壞樣本佔比0.5%。如果我們直接將數據輸入模型進行訓練,將導致即便全部判斷爲正,準確率也能達到99.5%,在梯度下降過程中,正樣本壓倒性的影響,模型難以收斂到最優點。
相關文章
相關標籤/搜索