機器學習超詳細實踐攻略(21):三板斧幹掉樣本不均衡問題之1——過(欠)採樣

想象一下,假現在天是你做爲數據分析師入職的第一天,老闆交給你一個數據分析任務:經過公司已經有的信用卡用戶和交易信息,預測用戶將來是否會逾期還款。html 這個問題看似簡單,實則隱藏了一個很是大的坑:據粗略估計,全國的信用卡平均不良率只有不到1%,也就是說,銀行貸出100萬,可能只有1萬沒有辦法正常收回,這樣,若是你拿到一個信用卡還款數據集,很大多是這個數據集裏有99%的正樣本,1%的負樣本,在預測
相關文章
相關標籤/搜索