信用評分卡9_申請評分卡介紹

時間 2019-12-06

標籤信用評分申請介紹简体版

原文原文鏈接

python信用評分卡（附代碼，博主錄製）

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=sharepython

從這篇博文開始，我將總結金融風控中的另一個模型：申請評分卡模型。這篇博文將主要來介紹申請評分卡的一些基本概念。安全

本篇博文將以如下四個主題來進行介紹說明：網絡

信用風險和評分卡模型的基本概念
申請評分卡在互聯網金融業的重要性和特性
貸款申請環節的數據介紹和描述
非平衡樣本問題的定義和解決方法

信用風險和評分卡模型的基本概念

什麼是信用風險

交易對手未能履行約定契約中的義務而形成經濟損失的風險,即受信人不能履行還本付息的責任而使授信人的預期收益與實際收益發生偏離的可能性它是金融風險的主要類型。ide

壞樣本的定義

M3 & M3+ 逾期
債務重組
我的破產
銀行主動關戶或註銷
其餘相關違法行爲

M0,M1,M2的定義

M0:最後繳款日的次日到下一個帳單日
M1:M0時段的延續,即在未還款的第二個帳單日到第二次帳單的最後繳款日之間
M2:M1的延續,即在未還款的第三個帳單日到第三次帳單的最後繳款日之間性能

信用卡帳單日是指髮卡銀行每個月會按期對你的信用卡帳戶當期發生的各項交易，費用等進行彙總結算，並結計利息，計算你的當期總欠款金額和最小還款額，併爲你郵寄帳單，此日期即爲帳單日。而還款日則是指信用卡髮卡銀行要求持卡人歸還應付款項的最後日期。測試

簡單點說，銀行會對你的當期應還款造成帳單並通知你，帳單造成日即爲帳單日，同時，銀行不會要求你立刻就還款，而是會給你一個緩衝期，一般是20天（具體根據各銀行制定標準），該期限截止日即爲還款到期日。這20天以內全額還款或是選擇信用卡最低還款額方式還款，能夠享受免息待遇，但若是逾期，就會計息了。spa

什麼是評分卡

信貸場景中的評分卡htm

以分數的形式來衡量風險概率的一種手段
是對將來一段時間內違約/逾期/失聯機率的預測
有一個明確的(正)區間
一般分數越高越安全
數據驅動（蒐集數據，對數據研究，創建模型）
反欺詐評分卡、申請評分卡(Application)、行爲評分卡(Behavior)、催收評分卡(Collection)blog

①反欺詐評分卡、申請評分卡是在貸前准入環節裏面
②申請評分卡用到的大部分是申請者的背景變量，並且這個模型通常也會比較謹慎。
③行爲評分卡表示申請者已經獲准貸款，已經放出貸款之後，根據貸款人的消費習慣，還款狀況等一些信用特徵，就是跟蹤客戶合同開始後的表現，來預估用戶逾期或者是違約機率。
④催收評分卡是對已經逾期或者違約的客戶，對他進行一個催收評分，嚴格來說，有三個模型，還款率模型，帳齡滾動模型，失聯模型。排序

本篇博文主要講的是申請評分卡模型。

觀察期與表現期

觀察期

蒐集變量、特徵的時間窗口,一般3年之內
帶時間切片的變量（好比過去半年還款狀況；過去每月最大還款額等帶時間切片的特徵）

表現期

蒐集是否觸發壞樣本定義的時間窗口,一般6個月~1年

　　須要對這張圖進行一個詳細的說明，觀察點不必定是哪一天，能夠是一段時間內，在某個時間區間內全部申請人，只要他們觀察期和表現期相同便可。舉例來講，當一個申請人在2017-7-14號這天來銀行申請貸款，銀行須要用已有的模型對申請人進行一個申請評分，評估他將來一年（表現期）內違約或者是逾期的機率，而後決定是否放貸。那麼這個已有的模型是何時創建的呢？這裏咱們假定觀察期爲三年，由於上面是評估一年因此這裏表現期爲一年，那麼往前推一年爲2016-7-14號左右某個時間區間內做爲觀察點，再往前推三年（即觀察期：2013-7-14到2016-7-14），利用這三年全部觀察點內申請人一些信息創建模型的觀察變量（即特徵），而後再日後推一年（即表現期：2016-7-14到2017-7-14），全部在觀察點內的申請人在這一年時間內的表現狀況來定義違約。而後來訓練出一個模型。對2017-7-14號的申請人進行評分。因此申請評分卡模型有着自然的滯後性，須要不斷的對其模型進行監控。

評分卡模型開發步驟

立項
數據準備與預處理
銀行自有數據和第三方數據
模型構建
假設模型訓練集的觀察點（即客戶的申請時間段）爲2016-01到2016-03,那麼這個模型的觀察期（這裏咱們假定爲三年）爲2013-01到2016-01,模型的表現期（這裏咱們假定爲一年）爲2016-03到2017-03。
模型評估
對照上面的模型構建的時間來，咱們來創建測試集，假定其測試集觀察點（即客戶的申請時間段）爲（2017-04),同理可得觀察期，和表現期真實的違約或者逾期與否。這時把模型放在這個測試集上進行測試看看效果如何。這裏須要注意訓練集和測試集上用戶在表現期的表現如何都是基於一個已經發生的時間段上。
模型評估的幾個標準在下面會詳細說到。
驗證/審計
實施人跟上面不同，文檔撰寫等
　
模型部署
新舊模型替換，評分卡的實時性要求沒那麼高，在銀行一般一個月更新一次模型。有些諮詢機構可能一天更新一次評分卡模型。
模型監控
跟蹤模型各項性能是否發生弱化。

評分卡開發的經常使用模型

邏輯迴歸

優勢: 簡單,穩定,可解釋,技術成熟,易於監測和部署
缺點:準確度不高
決策樹

優勢: 對數據質量要求低,易解釋
缺點:準確度不高
其餘元模型
組合模型

優勢: 準確度高,不易過擬合
缺點:不易解釋;部署困難;計算量大

模型監控的指標

AR(Accuracy Ratio)

衡量分數預測能力的指標 ,須要一個完整的表現期。看看這個模型能不能把壞樣本很好的區分處理。其取值位於-1~1之間。具備滯後性。
　　　　　　　　　　　　　　　　　　　　　　　　　　　　
若是咱們今天用AR來監控模型的好壞，那麼只能是監控模型在一年（這裏假定表現期爲一年）以前的數據上表現的好壞。

先把樣本按分數由低到高排序，Ｘ軸是總樣本的累積比例，Ｙ軸是壞樣本佔總的壞樣本的累積比例。AR就是等於模型在隨機模型之上的面積除以理想模型在隨機模型之上的面積。計算中能夠用梯形近似逼近曲線下面積來計算，AR越高說明模型區分效果越好。

下圖公式中Xk,Yk表明分數的第Ｋ個分位點對應的累積總樣本及相應的壞樣本的比例。設總的壞樣本的比例爲Bo，令（Ｘk,Yｋ)=(0,0)

KS(Kolmogorov-Smirnov)

衡量分數區分能力的指標。

把樣本按分數由低到高排序，Ｘ軸是總樣本累積比例，Ｙ是累積好，壞樣本分別佔總的好，壞樣本的比例。兩條曲線在Ｙ軸方向上的相差最大值即KS。KS越大說明模型的區分能力越好。

Bad k和Good k分別表示爲分數累積到第ｋ個分位點的壞樣本個數和好樣本個數，KS計算公式：

PSI( Population Stablility Index)

衡量分數穩定性的指標

按分數對人羣進行分組，令Ｒi是如今樣本中第ｉ組佔總樣本的百分比，Bi是一段時間後第ｉ個分組佔總樣本的百分比。PSI取值越小說明分數的分佈隨時間變化越小。

Kendall’s Tau

正確有效的評分卡模型中，低分數的實際逾期率應該嚴格大於高分段的實際逾期率。咱們將分數從低到高劃分爲１０組，每組的實際逾期率記作r1,r2,r3,…,r10。對全部的(ri,rj)的組合，若是有ri< rj且i< j，或者ri> rj且i> j，則記作一個discordant pair，不然記作concordant pair。其計算公式以下：

Kendall’s Tau越接近１或者等於１，說明逾期率在分數上的單調降低性越明顯，反之說明分數變化與逾期率的變化的一致性得不到保證。