評分卡的優點:
- 可解釋性的對策
- 穩定性的要求及其對策
- 及時監控的要求
- 審覈要求:分數分組、分區間
- 量化損失的要求,肯定利息成本
特徵工程的優化方向:
- 命名的規則化:因在特徵變量的命名中包含:數據來源、 數據分佈類型(連續型,離散型 )、 數據類型(字符、數字),以便作自動化
- 同源特徵的自動化: 自動作 乘/除/ log 等操做,生成新衍生。
- 特徵的分 bin:自動化計算最優分 bin (ChiMerge 算法)、 自動生成對應的分 bin 代碼邏輯(在命名規則的前提下)
- 對於 B/C 卡: 提供逾期類的細節時序特徵的自動化生成: Rencent / Frequent / Count 等特徵的自動生成
- (重點:支持後期監控,建模前的分時段進行特徵分佈檢測)GBDT的思想使其具備自然優點能夠發現多種有區分性的特徵以及特徵組合。業界中,Facebook使用其來自動發現有效的特徵、特徵組合,來做爲LR模型中的特徵,以提升 CTR預估(Click-Through Rate Prediction)的準確性(詳見參考文獻五、6);GBDT在淘寶的搜索及預測業務上也發揮了重要做用(詳見參考文獻7)。
- 爲了保留用戶的逾期類的細節特徵,能夠加上時間維度,轉換成二維數據,使用 autoencoder 將數據轉換到新空間,再轉換成一維,方便入 LR,也能夠以此與人工設計的統計類特徵作對比。
特徵選擇優化方向:
模型訓練的優化方向:
模型集成:
監控的優化方向:
- psi 計算
- 打分異常問題自動計算定位
- 採用 auto_encoder + logistic 建模, 此時,須要監控的就是 auto_encoder 的各個維度, 能夠作到提早發現異動, 但如何定位具體致使問題的緣由所在,依然較爲困難。
- 模型的分界面可視化:mlxtend
上線實施的優化方向:
- 優化實施過程:根據將訓練好的模型參數、分 bin 邏輯、woe 自動化輸出,生成實施過程須要的 分 bin 邏輯代碼、 woe 轉換代碼
- 優化實施打分與離線打分的核對流程:
-
- 實施打分表 與 離線打分表的結構統一,方便使用兩份數據的對應字段進行 分 bin 和 woe 的數值比對,確認離線與實施代碼的邏輯一致性。
- 提供自動覈對與統計的代碼
- 數據預處理:
-
- Z-score
- Min-max (對於神經網絡類存在激活函數 Saturation 問題的,建議標準化到:0.1~0.9區間,Depending on the task objetives. For example; for neural networks is recommended normalization Min max for activation functions. To avoid saturation Basheer & Najmeer (2000) recommend the range 0.1 and 0.9. Another possibility is to use the Box Cox transformation + constant to avoid the problem of the zeros)
- Std-norm
- 數據驗證:
-
- 各時間階段 ylabel 的分佈
- 各種統計量
- 分 bin標準
-
- 好壞比(對數概率? Logit? woe) 差15
- 最多 8 個分 bin
- 最少分組含有2%的樣本,其中很多於30的壞用戶樣本
- Bad_rate 單調遞減
- Bad rate 儘可能等差
- 類別型的特徵轉換
-
- LabelEncoder
- OneHotEncoder(dummies)
- Woe
- 單顆樹的葉子節點編號
- 數值類變量分組 或 類別型變量的離散化優化方法:
-
- Gini
- 卡方
- 信息熵增益 (決策樹的葉子節點編號,再合併分組,再肯定目標數值?)
- WOE (非線性轉換,與強烈暗示性的數值)
- 篩選:
-
- Varclus 分組,
- 特徵選擇:
-
- 單變量特徵選擇:
-
- 迴歸類:f_regression , mutual_info_regression
- 分類: chi2 , f_classif , mutual_info_classif
- 遞歸特徵降維:sklearn 的 RFE方法
- http://scikit-learn.org/stable/modules/feature_selection.html
- 類似度
- unique column
- 特徵取值極度不平衡: 99:1
- 全自動分箱 與 邏輯生成:
-
- 全自動分 bin:參考分 bin 標準
- 模型參數:
-
- imbalance
- 拒絕推斷對於模型的提高
-
- 建模初期選用的是 「有偏樣本」 , 只選擇了在公司業務系統中有表現的用戶,實際上,還有以前並未經過系統的樣本也是申請者之一,他們屬於樣本整體,但卻被篩選掉了。
- 正確標準的作法是: 使用:對被拒絕用戶進行推斷演繹技術,即: 使用有偏的有變現用戶進行初版建模,完成後,使用該模型對’‘被拒絕用戶’’進行預測, 而後 將預測的機率做爲其權重, 從新加入訓練樣本中,從新分 bin 和建模,這樣才能用上原始的真正分佈。
- 金融領域建模使用 ks 或者 auc的緣由是什麼
-
- ks 與 auc 能夠量化區間的損失或者說壞帳率在承受範圍內, 並能夠以此計算出放貸的基礎利率
- 正負樣本的不均衡使得像 accuracy 這類指標不適用。
評分卡 邏輯迴歸中的模型指標解釋說明 :
- 卡方: 越接近1越好
- Adj. R-squared:
- F統計量: 大於 3.86
- Prob 統計量:
- logs 似然
- AIC :
- BIC :
- T 統計量:每一個變量的絕對值都應大於 1.96
- P 值 > |t|:都應小於0.05
參考:
- SPSS分析技術:線性迴歸分析(Evernote 有保存) https://zhuanlan.zhihu.com/p/25507503
- 迴歸模型的一些判斷方法 (Evernote 有保存) https://blog.csdn.net/joeland209/article/details/69367318
OLS Regression Results
==============================================================================
Dep. Variable: LTS R-squared: 0.531
Model: OLS Adj. R-squared: 0.453
Method: Least Squares F-statistic: 6.806
Date: Fri, 27 Apr 2018 Prob (F-statistic): 0.00291
Time: 15:30:53 Log-Likelihood: 85.700
No. Observations: 22 AIC: -163.4
Df Residuals: 18 BIC: -159.0
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [95.0% Conf. Int.]
------------------------------------------------------------------------------
const -0.9666 0.449 -2.155 0.045 -1.909 -0.024
fpd90 -5.6018 2.940 -1.905 0.073 -11.778 0.575
log_sub 5.5858 2.933 1.905 0.073 -0.576 11.747
log2_add -5.6248 2.950 -1.907 0.073 -11.823 0.573
log_add -5.6177 2.947 -1.906 0.073 -11.809 0.574
log10_add -5.6087 2.943 -1.906 0.073 -11.792 0.574
sqrt_add -0.6421 0.647 -0.992 0.334 -2.002 0.718
log2_sub 5.5787 2.930 1.904 0.073 -0.576 11.734
log10_sub 5.5948 2.937 1.905 0.073 -0.575 11.765
sqrt_sub 10.5615 5.269 2.005 0.060 -0.507 21.630
==============================================================================
Omnibus: 0.110 Durbin-Watson: 1.900
Prob(Omnibus): 0.946 Jarque-Bera (JB): 0.047
Skew: 0.047 Prob(JB): 0.977
Kurtosis: 2.795 Cond. No. 1.05e+19
==============================================================================
參考:
嵌套交叉驗證Nested versus non-nested cross-validation:
LR 不會偏移分離超平面向大類: this is an imbalanced dataset, you could do under sampling for majority case as the results are always going to be biased towards majority (exception Logistic Regression) use SMOTE, ROSE, k-medoids for the same. Or you could do random under sampling :
https://www.kaggle.com/arathee2/achieving-100-accuracy