①自變量不能相關,即排除自相關性,還有共線性;②變量必定要顯著。③變量要獨立同分布。服務器
因此咱們要進行共線性篩查,顯著性篩查,相關性篩查,才能選擇出入模變量。框架
9. 邏輯迴歸建立評分卡模型核心步驟:編碼
a) 變量分箱,能夠排除異常值的影響,分法有等寬、等頻、人工指定分箱、C4.5決策樹、卡方分箱。接口
b) WOE編碼。做用:排除量綱影響。計算方式是每箱好樣本比例與壞樣本比例的比值的天然對數。部署
c) IV值,又稱爲信息濃度。計算公式是每箱好樣本比例與壞樣本比例的差值,再乘以對應的WOE值,通常選擇IV>=0.02的變量。產品
d) 共線性、相關性、顯著性檢驗。自動化
e) 計算每一個變量對應切分點的分數。Score=A+B*ln(odds),y=logist(p)=ln(p/(1-p))=b+aX=b+coewoe電商
10. 建模樣本:負樣本佔總樣本比例5%以上就行,最好是10%以上。監控
11. 變量分爲連續變量與分類變量的依據是: 連續變量的水平種類在10種以上,分類變量的水平種類在10種如下。變量
12. 字符型分類變量轉整型 爲何模型容易調用?
13. 字符型分類變量轉爲數值型方式:啞變量,WOE編碼,壞樣本率。
14. 自動化分箱(最優分箱):KS分箱,卡方分箱,決策樹分箱。手動分箱:WOE(ln(odds))。對樣本集最優,但會忽略可解釋性。
15. 評分卡計算分數公式
16. 評分卡模型創建完成,須要檢驗準確性和穩定性,還要監控
17. 分箱,數據處理,特徵衍生,有效性,分數穩定性,變量穩定性,模型調優可能比不上業務上的邏輯變量。