還沒有整理【風控】互聯網金融-構建評分卡模型部分知識點

  1. 模型部署方式:將模型轉爲PMML文件或者框架、服務器方式作接口調用。
  2. 特色是:筆數多,單筆金額小,數據維度豐富
  3. 信用評分作準入,行爲評分作調額,貸中管理,或者提早催收
  4. 催收評分卡,能夠預測M1轉到M2的機率,M2轉到M3的機率,催收回款率等
  5. 觀察期與特徵變量選擇:必定要選擇貸前就能獲取的特徵,通常圍繞客戶的還款能力、還款意願、穩定性和多頭借貸展開,還要兼顧本身的產品客羣定位、用戶體驗、數據成本。好比產品是農戶貸,那麼社保、公積金、網銀工資流水就是不須要獲取的特徵。若是產品目標是電商小商戶,則電商數據就是很是有用的特徵。
  6. 表現期與好壞客戶定義:表現期是指放款日期至放款後逾期率開始穩定的時間段。好壞客戶根據各信貸產品的應用場景不一樣而定,能夠經過遷徙率設定(預期五天到M1,M1到M2,…一段時期的遷徙比例來決定y的0 and 1)
  7. 現金貸表現期通常一個月;消金3-6個月;信用卡是12個月
  8. 邏輯迴歸模型服從的前提假設:

    ①自變量不能相關,即排除自相關性,還有共線性;②變量必定要顯著。③變量要獨立同分布。服務器

    因此咱們要進行共線性篩查,顯著性篩查,相關性篩查,才能選擇出入模變量。框架

   9. 邏輯迴歸建立評分卡模型核心步驟:編碼

    a)       變量分箱,能夠排除異常值的影響,分法有等寬、等頻、人工指定分箱、C4.5決策樹、卡方分箱。接口

    b)      WOE編碼。做用:排除量綱影響。計算方式是每箱好樣本比例與壞樣本比例的比值的天然對數。部署

    c)       IV值,又稱爲信息濃度。計算公式是每箱好樣本比例與壞樣本比例的差值,再乘以對應的WOE值,通常選擇IV>=0.02的變量。產品

    d)      共線性、相關性、顯著性檢驗。自動化

    e)       計算每一個變量對應切分點的分數。Score=A+B*ln(odds),y=logist(p)=ln(p/(1-p))=b+aX=b+coewoe電商

  10. 建模樣本:負樣本佔總樣本比例5%以上就行,最好是10%以上。監控

  11. 變量分爲連續變量與分類變量的依據是: 連續變量的水平種類在10種以上,分類變量的水平種類在10種如下。變量

  12. 字符型分類變量轉整型 爲何模型容易調用?        

  13. 字符型分類變量轉爲數值型方式:啞變量,WOE編碼,壞樣本率。

  14. 自動化分箱(最優分箱):KS分箱,卡方分箱,決策樹分箱。手動分箱:WOE(ln(odds))。對樣本集最優,但會忽略可解釋性。

  15. 評分卡計算分數公式

  16. 評分卡模型創建完成,須要檢驗準確性和穩定性,還要監控

  17. 分箱,數據處理,特徵衍生,有效性,分數穩定性,變量穩定性,模型調優可能比不上業務上的邏輯變量。

相關文章
相關標籤/搜索