從這篇博文開始,我將總結金融風控中的另一個模型:申請評分卡模型。這篇博文將主要來介紹申請評分卡的一些基本概念。安全
本篇博文將以如下四個主題來進行介紹說明:網絡
交易對手未能履行約定契約中的義務而形成經濟損失的風險,即受信人不能履行還本付息的責任而使授信人的預期收益與實際收益發生偏離的可能性它是金融風險的主要類型。ide
M2:M1的延續,即在未還款的第三個帳單日到第三次帳單的最後繳款日之間性能
信用卡帳單日是指髮卡銀行每個月會按期對你的信用卡帳戶當期發生的各項交易,費用等進行彙總結算,並結計利息,計算你的當期總欠款金額和最小還款額,併爲你郵寄帳單,此日期即爲帳單日。而還款日則是指信用卡髮卡銀行要求持卡人歸還應付款項的最後日期。測試
簡單點說,銀行會對你的當期應還款造成帳單並通知你,帳單造成日即爲帳單日,同時,銀行不會要求你立刻就還款,而是會給你一個緩衝期,一般是20天(具體根據各銀行制定標準),該期限截止日即爲還款到期日。這20天以內全額還款或是選擇信用卡最低還款額方式還款,能夠享受免息待遇,但若是逾期,就會計息了。spa
信貸場景中的評分卡htm
反欺詐評分卡、申請評分卡(Application)、行爲評分卡(Behavior)、催收評分卡(Collection)blog
①反欺詐評分卡、申請評分卡是在貸前准入環節裏面
②申請評分卡用到的大部分是申請者的背景變量,並且這個模型通常也會比較謹慎。
③行爲評分卡表示申請者已經獲准貸款,已經放出貸款之後,根據貸款人的消費習慣,還款狀況等一些信用特徵,就是跟蹤客戶合同開始後的表現,來預估用戶逾期或者是違約機率。
④催收評分卡是對已經逾期或者違約的客戶,對他進行一個催收評分,嚴格來說,有三個模型,還款率模型,帳齡滾動模型,失聯模型。排序
本篇博文主要講的是申請評分卡模型。
蒐集是否觸發壞樣本定義的時間窗口,一般6個月~1年
須要對這張圖進行一個詳細的說明,觀察點不必定是哪一天,能夠是一段時間內,在某個時間區間內全部申請人,只要他們觀察期和表現期相同便可。舉例來講,當一個申請人在2017-7-14號這天來銀行申請貸款,銀行須要用已有的模型對申請人進行一個申請評分,評估他將來一年(表現期)內違約或者是逾期的機率,而後決定是否放貸。那麼這個已有的模型是何時創建的呢?這裏咱們假定觀察期爲三年,由於上面是評估一年因此這裏表現期爲一年,那麼往前推一年爲2016-7-14號左右某個時間區間內做爲觀察點,再往前推三年(即觀察期:2013-7-14到2016-7-14),利用這三年全部觀察點內申請人一些信息創建模型的觀察變量(即特徵),而後再日後推一年(即表現期:2016-7-14到2017-7-14),全部在觀察點內的申請人在這一年時間內的表現狀況來定義違約。而後來訓練出一個模型。對2017-7-14號的申請人進行評分。因此申請評分卡模型有着自然的滯後性,須要不斷的對其模型進行監控。
立項
數據準備與預處理
銀行自有數據和第三方數據
模型構建
假設模型訓練集的觀察點(即客戶的申請時間段)爲2016-01到2016-03,那麼這個模型的觀察期(這裏咱們假定爲三年)爲2013-01到2016-01,模型的表現期(這裏咱們假定爲一年)爲2016-03到2017-03。
模型評估
對照上面的模型構建的時間來,咱們來創建測試集,假定其測試集觀察點(即客戶的申請時間段)爲(2017-04),同理可得觀察期,和表現期真實的違約或者逾期與否。這時把模型放在這個測試集上進行測試看看效果如何。這裏須要注意訓練集和測試集上用戶在表現期的表現如何都是基於一個已經發生的時間段上。
模型評估的幾個標準在下面會詳細說到。
模型部署
新舊模型替換,評分卡的實時性要求沒那麼高,在銀行一般一個月更新一次模型。有些諮詢機構可能一天更新一次評分卡模型。
模型監控
跟蹤模型各項性能是否發生弱化。
邏輯迴歸
優勢: 簡單,穩定,可解釋,技術成熟,易於監測和部署
缺點:準確度不高
決策樹
優勢: 對數據質量要求低,易解釋
缺點:準確度不高
其餘元模型
組合模型
優勢: 準確度高,不易過擬合
缺點:不易解釋;部署困難;計算量大
衡量分數預測能力的指標 ,須要一個完整的表現期。看看這個模型能不能把壞樣本很好的區分處理。其取值位於-1~1之間。具備滯後性。
若是咱們今天用AR來監控模型的好壞,那麼只能是監控模型在一年(這裏假定表現期爲一年)以前的數據上表現的好壞。
先把樣本按分數由低到高排序,X軸是總樣本的累積比例,Y軸是壞樣本佔總的壞樣本的累積比例。AR就是等於模型在隨機模型之上的面積除以理想模型在隨機模型之上的面積。計算中能夠用梯形近似逼近曲線下面積來計算,AR越高說明模型區分效果越好。
下圖公式中Xk,Yk表明分數的第K個分位點對應的累積總樣本及相應的壞樣本的比例。設總的壞樣本的比例爲Bo,令(Xk,Yk)=(0,0)
衡量分數區分能力的指標。
把樣本按分數由低到高排序,X軸是總樣本累積比例,Y是累積好,壞樣本分別佔總的好,壞樣本的比例。兩條曲線在Y軸方向上的相差最大值即KS。KS越大說明模型的區分能力越好。
Bad k和Good k分別表示爲分數累積到第k個分位點的壞樣本個數和好樣本個數,KS計算公式:
衡量分數穩定性的指標
按分數對人羣進行分組,令Ri是如今樣本中第i組佔總樣本的百分比,Bi是一段時間後第i個分組佔總樣本的百分比。PSI取值越小說明分數的分佈隨時間變化越小。
正確有效的評分卡模型中,低分數的實際逾期率應該嚴格大於高分段的實際逾期率。咱們將分數從低到高劃分爲10組,每組的實際逾期率記作r1,r2,r3,…,r10。對全部的(ri,rj)的組合,若是有ri< rj且i< j,或者ri> rj且i> j,則記作一個discordant pair,不然記作concordant pair。其計算公式以下:
Kendall’s Tau越接近1或者等於1,說明逾期率在分數上的單調降低性越明顯,反之說明分數變化與逾期率的變化的一致性得不到保證。
遷移矩陣是衡量分數矩陣的指標,對相同的人羣,觀察在相鄰兩次監控日期(一週)分數的遷移變化。遷移矩陣中元素Mjk表明上次監控日期分數在第j組中的人羣在當前遷移到第k組的機率。實際計算中可把分數平均分紅10組,計算這10組之間的遷移矩陣。
傳統金融機構+非金融機構
傳統金融機構: 傳統金融業務的互聯網創新以及電商化創新、APP軟件等
我的信息 : 學歷 性別 收入
負債信息 : 在本金融機構或者其餘金融機構負債狀況
消費能力 : 商品購買紀錄,出境遊,奢侈品消費
歷史信用記錄 : 歷史逾期行爲
新興數據 : 人際社交 網絡足跡 出行 我的財務
在分類問題中,每種類別的出現機率未必均衡
信用風險:正經常使用戶遠多於逾期/違約用戶
流失風險: 留存客戶多於流失客戶
下降對少類樣本的靈敏性
過採樣
欠採樣
SMOTE(合成少數過採樣技術)
https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149(博主錄製,2K超清分辨率)