信用評分卡9_申請評分卡介紹

python信用評分卡(附代碼,博主錄製)

 

 

從這篇博文開始,我將總結金融風控中的另一個模型:申請評分卡模型。這篇博文將主要來介紹申請評分卡的一些基本概念。安全

本篇博文將以如下四個主題來進行介紹說明:網絡

  • 信用風險和評分卡模型的基本概念
  • 申請評分卡在互聯網金融業的重要性和特性
  • 貸款申請環節的數據介紹和描述
  • 非平衡樣本問題的定義和解決方法

信用風險和評分卡模型的基本概念

什麼是信用風險

交易對手未能履行約定契約中的義務而形成經濟損失的風險,即受信人不能履行還本付息的責任而使授信人的預期收益與實際收益發生偏離的可能性它是金融風險的主要類型。ide

壞樣本的定義

  • M3 & M3+ 逾期
  • 債務重組
  • 我的破產
  • 銀行主動關戶或註銷
  • 其餘相關違法行爲

M0,M1,M2的定義

  • M0:最後繳款日的次日到下一個帳單日
  • M1:M0時段的延續,即在未還款的第二個帳單日到第二次帳單的最後繳款日之間
  • M2:M1的延續,即在未還款的第三個帳單日到第三次帳單的最後繳款日之間性能

    信用卡帳單日是指髮卡銀行每個月會按期對你的信用卡帳戶當期發生的各項交易,費用等進行彙總結算,並結計利息,計算你的當期總欠款金額和最小還款額,併爲你郵寄帳單,此日期即爲帳單日。而還款日則是指信用卡髮卡銀行要求持卡人歸還應付款項的最後日期。測試

    簡單點說,銀行會對你的當期應還款造成帳單並通知你,帳單造成日即爲帳單日,同時,銀行不會要求你立刻就還款,而是會給你一個緩衝期,一般是20天(具體根據各銀行制定標準),該期限截止日即爲還款到期日。這20天以內全額還款或是選擇信用卡最低還款額方式還款,能夠享受免息待遇,但若是逾期,就會計息了。spa

什麼是評分卡

信貸場景中的評分卡htm

  • 以分數的形式來衡量風險概率的一種手段
  • 是對將來一段時間內違約/逾期/失聯機率的預測
  • 有一個明確的(正)區間
  • 一般分數越高越安全
  • 數據驅動(蒐集數據,對數據研究,創建模型)
  • 反欺詐評分卡、申請評分卡(Application)、行爲評分卡(Behavior)、催收評分卡(Collection)blog

    ①反欺詐評分卡、申請評分卡是在貸前准入環節裏面 
    ②申請評分卡用到的大部分是申請者的背景變量,並且這個模型通常也會比較謹慎。 
    ③行爲評分卡表示申請者已經獲准貸款,已經放出貸款之後,根據貸款人的消費習慣,還款狀況等一些信用特徵,就是跟蹤客戶合同開始後的表現,來預估用戶逾期或者是違約機率。 
    ④催收評分卡是對已經逾期或者違約的客戶,對他進行一個催收評分,嚴格來說,有三個模型,還款率模型,帳齡滾動模型,失聯模型。排序

本篇博文主要講的是申請評分卡模型。

觀察期與表現期

觀察期

  • 蒐集變量、特徵的時間窗口,一般3年之內
  • 帶時間切片的變量(好比過去半年還款狀況;過去每月最大還款額等帶時間切片的特徵)

表現期

蒐集是否觸發壞樣本定義的時間窗口,一般6個月~1年 
這裏寫圖片描述

  須要對這張圖進行一個詳細的說明,觀察點不必定是哪一天,能夠是一段時間內,在某個時間區間內全部申請人,只要他們觀察期和表現期相同便可。舉例來講,當一個申請人在2017-7-14號這天來銀行申請貸款,銀行須要用已有的模型對申請人進行一個申請評分,評估他將來一年(表現期)內違約或者是逾期的機率,而後決定是否放貸。那麼這個已有的模型是何時創建的呢?這裏咱們假定觀察期爲三年,由於上面是評估一年因此這裏表現期爲一年,那麼往前推一年爲2016-7-14號左右某個時間區間內做爲觀察點,再往前推三年(即觀察期:2013-7-14到2016-7-14),利用這三年全部觀察點內申請人一些信息創建模型的觀察變量(即特徵),而後再日後推一年(即表現期:2016-7-14到2017-7-14),全部在觀察點內的申請人在這一年時間內的表現狀況來定義違約。而後來訓練出一個模型。對2017-7-14號的申請人進行評分。因此申請評分卡模型有着自然的滯後性,須要不斷的對其模型進行監控。

評分卡模型開發步驟

  1. 立項

  2. 數據準備與預處理 
    銀行自有數據和第三方數據

  3. 模型構建 
    假設模型訓練集的觀察點(即客戶的申請時間段)爲2016-01到2016-03,那麼這個模型的觀察期(這裏咱們假定爲三年)爲2013-01到2016-01,模型的表現期(這裏咱們假定爲一年)爲2016-03到2017-03。

  4. 模型評估 
    對照上面的模型構建的時間來,咱們來創建測試集,假定其測試集觀察點(即客戶的申請時間段)爲(2017-04),同理可得觀察期,和表現期真實的違約或者逾期與否。這時把模型放在這個測試集上進行測試看看效果如何。這裏須要注意訓練集和測試集上用戶在表現期的表現如何都是基於一個已經發生的時間段上。 
    模型評估的幾個標準在下面會詳細說到。

  5. 驗證/審計 
    實施人跟上面不同,文檔撰寫等 
     
  6. 模型部署 
    新舊模型替換,評分卡的實時性要求沒那麼高,在銀行一般一個月更新一次模型。有些諮詢機構可能一天更新一次評分卡模型。

  7. 模型監控 
    跟蹤模型各項性能是否發生弱化。

評分卡開發的經常使用模型

  • 邏輯迴歸

    優勢: 簡單,穩定,可解釋,技術成熟,易於監測和部署 
    缺點:準確度不高

  • 決策樹

    優勢: 對數據質量要求低,易解釋 
    缺點:準確度不高

  • 其餘元模型

  • 組合模型

    優勢: 準確度高,不易過擬合 
    缺點:不易解釋;部署困難;計算量大 
                                     

模型監控的指標

AR(Accuracy Ratio)

衡量分數預測能力的指標 ,須要一個完整的表現期。看看這個模型能不能把壞樣本很好的區分處理。其取值位於-1~1之間。具備滯後性。 
                             
若是咱們今天用AR來監控模型的好壞,那麼只能是監控模型在一年(這裏假定表現期爲一年)以前的數據上表現的好壞。

先把樣本按分數由低到高排序,X軸是總樣本的累積比例,Y軸是壞樣本佔總的壞樣本的累積比例。AR就是等於模型在隨機模型之上的面積除以理想模型在隨機模型之上的面積。計算中能夠用梯形近似逼近曲線下面積來計算,AR越高說明模型區分效果越好。

這裏寫圖片描述

下圖公式中Xk,Yk表明分數的第K個分位點對應的累積總樣本及相應的壞樣本的比例。設總的壞樣本的比例爲Bo,令(Xk,Yk)=(0,0)

這裏寫圖片描述 
                                  

KS(Kolmogorov-Smirnov)

衡量分數區分能力的指標。 
這裏寫圖片描述 
把樣本按分數由低到高排序,X軸是總樣本累積比例,Y是累積好,壞樣本分別佔總的好,壞樣本的比例。兩條曲線在Y軸方向上的相差最大值即KS。KS越大說明模型的區分能力越好。

Bad k和Good k分別表示爲分數累積到第k個分位點的壞樣本個數和好樣本個數,KS計算公式: 
這裏寫圖片描述

PSI( Population Stablility Index)

衡量分數穩定性的指標

按分數對人羣進行分組,令Ri是如今樣本中第i組佔總樣本的百分比,Bi是一段時間後第i個分組佔總樣本的百分比。PSI取值越小說明分數的分佈隨時間變化越小。

這裏寫圖片描述 
    

Kendall’s Tau

正確有效的評分卡模型中,低分數的實際逾期率應該嚴格大於高分段的實際逾期率。咱們將分數從低到高劃分爲10組,每組的實際逾期率記作r1,r2,r3,…,r10。對全部的(ri,rj)的組合,若是有ri< rj且i< j,或者ri> rj且i> j,則記作一個discordant pair,不然記作concordant pair。其計算公式以下:

這裏寫圖片描述

Kendall’s Tau越接近1或者等於1,說明逾期率在分數上的單調降低性越明顯,反之說明分數變化與逾期率的變化的一致性得不到保證。

Migration Matrix

遷移矩陣是衡量分數矩陣的指標,對相同的人羣,觀察在相鄰兩次監控日期(一週)分數的遷移變化。遷移矩陣中元素Mjk表明上次監控日期分數在第j組中的人羣在當前遷移到第k組的機率。實際計算中可把分數平均分紅10組,計算這10組之間的遷移矩陣。

這裏寫圖片描述

申請評分卡的重要性和特性

互聯網金融特性與產品

  • 傳統金融機構+非金融機構

  • 傳統金融機構: 傳統金融業務的互聯網創新以及電商化創新、APP軟件等

  • 非金融機構:利用互聯網技術進行金融運做的電商企業 
    (P2P)模式的網絡借貸平臺 
    衆籌模式的網絡投資平臺 
    挖財類(模式)的手機理財APP(理財寶類) 
    第三方支付平臺等。

爲何要開發申請評分卡

  • 風險控制
  • 營銷
  • 資本管理

評分卡的特性

  • 穩定性
  • 區分性
  • 預測能力
  • 和逾期機率等價(即評分和逾期率呈相關性)

貸款申請環節的數據介紹和描述

這裏寫圖片描述

申請評分卡經常使用的特徵

我的信息 : 學歷 性別 收入 
負債信息 : 在本金融機構或者其餘金融機構負債狀況 
消費能力 : 商品購買紀錄,出境遊,奢侈品消費 
歷史信用記錄 : 歷史逾期行爲 
新興數據 : 人際社交 網絡足跡 出行 我的財務

非平衡樣本問題的定義和解決方法

非平衡樣本的定義

在分類問題中,每種類別的出現機率未必均衡 
信用風險:正經常使用戶遠多於逾期/違約用戶 
流失風險: 留存客戶多於流失客戶

非平衡樣本的隱患

下降對少類樣本的靈敏性

非平衡樣本的解決方案

過採樣

  • 優勢: 簡單,對數據質量要求不高
  • 缺點: 過擬合

欠採樣

  • 優勢: 簡單,對數據質量要求不高
  • 缺點: 丟失重要信息

SMOTE(合成少數過採樣技術)

    • 優勢: 不易過擬合,保留信息
    • 缺點: 不能對有缺失值和類別變量作處理

https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149(博主錄製,2K超清分辨率)

相關文章
相關標籤/搜索