企業信用評分卡建模模型實戰（應用場景-企業債融資併購上市）

時間 2021-03-07

標籤 python 算法數據庫編程網絡 dom 機器學習 ide 函數工具欄目 Python 简体版

原文原文鏈接

企業信用評級在全球金融領域有普遍應用。它涉及到公司管理，企業債發行，企業融資，企業上市，企業併購，我的炒股和購買公司債券等多個場景。
企業債發行
企業主體信用評級越高，意味着該企業抗風險能力、盈利能力越強，發債融資成本越低。做爲企業董事會，管理者，決策者應該瞭解企業主要財務指標，瞭解自身企業評級。
企業發債時都須要評級。國內評級這塊主要分爲AAA、AA+、AA、AA-、A+。企業評級太低會限制某些工具的發行額度、交易場所可質押性等等
若是是評級過低，企業發行債券沒人買。目前廣大投資者的投資門檻是AA。
企業上市
企業上市融資時也須要信用評級。目前國內只有優質企業才能上市融資，上市牌照是很難拿的。
若是財務指標和資質不達標，則不能上市。
企業併購
企業併購是企業之間的兼併和收購行爲。若是收購方不能很好了解對方企業評級，買來的企業多是包裝過的垃圾企業。
失敗企業併購會讓企業背上巨大債務負擔。
我的炒股
我的炒股投資者若是不懂企業評級，也難以買到優質股，容易被人忽悠買到垃圾股。建議不會數據科學的人趁早離開股市和金融投資，不然可能欠下鉅額債務。
若是我的經過學習機器學習模型，能夠識別有價值企業，股票，債券，財富升值機率顯著高於不懂模型的人。python

企業信用評級模型如何搭建？企業如何才能經過信用評級? 標準普爾、穆迪，惠譽國際，中誠信等知名評級機構的評級規則如何破解？算法

歡迎各位同窗學習python信用評分卡建模視頻系列教程（附代碼，博主錄製）：數據庫

https://edu.51cto.com/sd/edde1
編程

公司管理者應該學習企業信用評級網絡

企業主體信用評級越高，意味着該企業抗風險能力、盈利能力越強，發債融資成本越低。做爲企業董事會，管理者，決策者應該瞭解企業主要財務指標，瞭解自身企業評級。dom

企業發債時都須要評級。
國內評級這塊主要分爲AAA、AA+、AA、AA-、A+。機器學習

企業評級太低會限制某些工具的發行額度、交易場所可質押性等等
若是是評級過低，企業發行債券沒人買。目前廣大投資者的投資門檻是AAide

企業上市融資時也須要信用評級。目前國內只有優質企業才能上市融資，上市牌照是很難拿的。
若是財務指標和資質不達標，則不能上市。函數

我的炒股投資者若是不懂企業評級，也難以買到優質股，容易被人忽悠買到垃圾股。工具

課程中涉及到部分城投公司

課程中涉及到部分城投公司企業併購是企業之間的兼併和收購行爲。
若是收購方不能很好了解對方企業評級，買來的企業多是包裝過的垃圾企業。
失敗企業併購會讓企業背上巨大債務負擔。

江蘇城投企業建模數據部分展現

課程中Python企業評級模型的AUC高於0.94，f1分數高達0.8，模型綜合性能卓越

國內外知名評級公司包括：標準普爾、穆迪，惠譽國際，中誠信等公司。這些知名評級機構業務繁多，主要是經過自動化模型評級爲主，人工審覈爲輔。

既然評級公司用模型評級，咱們也能夠用模型來逆向破解評級公司的規則。

機器學習模型能夠逆向破解評級機構規則，讓企業參加評級時把重要時間和精力放在評級機構關注指標上，顯著提升高評級經過率。

課程目錄

章節1前言
課時1課程概述（必看）
課時2python金融風控評分卡模型和數據分析微專業課介紹（必看）
課時3歡迎項目合做

章節2python編程環境搭建
課時4風控建模語言，python，R，SAS優劣對比
課時5Anaconda快速入門指南
課時6Anaconda下載安裝
課時7canopy下載和安裝
課時8Anaconda Navigator導航器
課時9Anaconda安裝不一樣版本python

章節3python安裝包
課時10python第三方包安裝(pip和conda install)
課時11Python非官方擴展包下載地址
課時12pip install --user --upgrade package升級包
課時13pip install失敗報錯五種解決方案

章節4Jupiter Notebook概述
課時14爲何使用jupyter notebook及如何安裝
課時15如何用jupyter notebook打開指定文件夾內容？
課時16jupyter基本文本編輯操做
課時17jupyter生成在線PPT彙報文檔
課時18jupyter notebook用matplotlib不顯示圖片解決方案

章節5 python編程基礎知識
課時14 Python文件基本操做
課時15 變量_表達式_運算符_值
課時16 字符串string
課時17 列表list
課時18 程序的基本構架（條件，循環）
課時19 數據類型_函數_面向對象編程
課時20 python2和3的區別
課時21 編程技巧和學習方法

章節6 python機器學習基礎
課時22 UCI機器學習經常使用數據庫介紹
課時23 機器學習書籍推薦
課時24 如何選擇算法
課時25 機器學習語法速查表
課時26 python數據科學經常使用的庫
課時27 python數據科學入門介紹(選修)

章節7 德國信用評分數據下載和介紹
課時28 35德國信用評分數據下載和介紹

章節8 信用評分卡開發流程（上）
課時29 評分卡開發流程概述
課時30 第一步：數據收集
課時31 第二步：數據準備
課時32 變量可視化分析
課時33 樣本量須要多少？
課時34 壞客戶定義
課時35 第三步：變量篩選
課時36 變量重要性評估_iv和信息增益混合方法
課時37 衍生變量05:01
課時38 第四步：變量分箱01:38

章節9 信用評分卡開發流程（下）
課時39 第五步：創建邏輯迴歸模型
課時40 odds賠率
課時41 woe計算
課時42 變量係數
課時43 A和B計算
課時44 Excel手動計算壞客戶機率
課時45 Python腳本計算壞客戶機率
課時46 客戶評分
課時47 評分卡誕生-變量分數計算
課時48 拒絕演繹reject inference
課時49 第六步：模型驗證
課時50 第七步：模型部署
課時51 常見模型部署問題

章節10 模型開發基礎知識python腳本講解
課時61數據讀取read_excel和read_csv
課時62數據劃分train_test_split
課時63LogisticRegression()模型構建和訓練fit()
課時64模型預測predict和predict_proba區別
課時65模型驗證的python腳本講解
課時66pickle保存模型包

章節11 Python信用評分卡-邏輯迴歸腳本
課時52 Python信用評分卡腳本運行演示
課時53 描述性統計腳本_缺失率和共線性分析
課時54 woe腳本(kmean分箱)
課時55 iv計算獨家腳本
課時56 Excel手動推導變量woe和iv值
課時57 評分卡腳本1（sklearn）
課時58 評分卡腳本2（statsmodel）
課時59 生成評分卡腳本
課時60 模型驗證腳本

章節12 PSI(population stability index)穩定指標
課時61 拿破崙遠征歐洲失敗/華爾街股災真兇-PSI模型穩定指標揭祕
課時62 excel推導PSI的計算公式
課時63 PSI計算公式原理_獨家祕密
課時64 PSI的python腳本講解

章節13 難點1_壞客戶定義
課時65 壞客戶定義錯誤，全盤皆輸
課時66 不一樣場景壞客戶定義不同，壞客戶定義具備反覆性
課時67 壞客戶佔比不能過低
課時68 vintage源於葡萄酒釀造
課時69 vintage用於授信策略優化

章節14 難點2_woe分箱
課時70 ln對數函數
課時71 excel手動計算woe值
課時72 python計算woe腳本
課時73 Iv計算推導
課時74 woe正負符號意義
課時75 WOE計算就這麼簡單？你想多了
課時76 Kmean算法原理
課時77 python kmean實現粗分箱腳本
課時78 自動化比較變量不一樣分箱的iv值
課時79 woe分箱第三方包腳本

章節15 難點3_邏輯迴歸是最佳算法嗎？
課時80 邏輯迴歸是最優算法嗎？No
課時81 xgboost_支持腳本下載
課時82 隨機森林randomForest_支持腳本下載
課時83 支持向量SVM_支持腳本下載
課時84 神經網絡neural network_支持腳本下載
課時85 多算法比較重要性_模型競賽，百萬獎金任你拿

章節16 難點4_變量缺失數據處理
課時86 imputer-缺失數據處理
課時87 xgboost簡單處理缺失數據
課時88 catboost處理缺失數據最簡單

章節17 難點5.模型驗證
課時89 模型須要驗證碼？
課時90 商業銀行資本管理辦法(試行)
課時91 模型驗證_信用風險內部評級體系監管要求
課時92 模型驗證主要指標概述
課時93 交叉驗證cross validation
課時94 groupby分類統計函數
課時95 KS_模型區分能力指標
課時96 混淆矩陣（accuracy,precision，recall，f1 score）
新增課時模型排序能力-lift提高圖

章節18 難點6.邏輯迴歸調參
課時97 菜鳥也能輕鬆調參
課時98 調參1_Penalty正則化選擇參數
課時99 調參2_classWeight類別權重
課時100 調參3_solver優化算法選擇參數
課時101 調參4_n_jobs
課時102 L-BFGS算法演化歷史
課時103 次要參數一覽

章節19難點7_非平衡樣本數據imbalanced data
課時123非平衡數據是什麼？對模型有什麼壞處？
課時124解決非平衡數據方法（欠採樣，過採樣，SMOTE）
課時125SMOTE非平衡數據處理python腳本講解

章節20 風控管理和詐騙中介（選修）
課時104 網絡信貸發展史
課時105 詐騙中介
課時106 風控管理
課時107 告別套路貸，高利貸，選擇正確貸款方式

章節21 2018-2019消費金融市場行情
課時108 揭祕：近年消費金融火爆發展根本緣由
課時109 持牌照消費金融公司盈利排行榜
課時110 消費金融，風控技術是瓶頸
課時111 誰能笑到最後：2018-2019消費金融公司註冊資本
課時112 蘿蔔加大棒：中央政策監管趨勢獨家預測
課時113 信用是金融交易的基石_P2P倒閉潮祕密

章節22 2018-2019年全球宏觀經濟
課時114 專家不會告訴你的祕密：美圓和黃金真實關係
課時115 宏觀經濟主要指標：債務率和失業率
課時116 2019年中國宏觀經濟分析_贈人民銀行發佈2018n年中國金融穩定報告
課時117 2019年G20國家宏觀經濟信息彙總_供下載
課時118 全球系統金融風險
課時119 基尼係數_貧富差別指標
課時120 GDP_利率_通貨膨脹
課時121 失業率_債務率
課時122 貿易差額_中美貿易戰根本緣由
課時123 信用評級_阿根廷金融危機獨家解讀

章節23 企業信用評分卡模型實戰（python，基於真實江蘇城投公司數據）
課時148描述性統計和缺失值處理
課時149woe第三方包分箱原理和主要語法
課時150python腳本woe分箱總體演示
課時151用woe數據生成模型包
課時152AUC大於0.9-模型驗證效果很是好
課時153踢除高相關性變量後建模，模型性能有何變化？
課時154最小分箱數量調參測試
課時155逆向工程-破解評級機構祕密
課時156AAA評級企業
課時157AA＋評級企業
課時158AA評級企業
課時159國內評級機構業務統計數據
課時160中誠信國際信用評級有限公司股權穿越圖

章節24附錄
課時121風控逾期指標字典
課時122金融風控術語中英文字典

評分卡開發流程

本課程通俗易懂，深度解析評分卡模型的各個細節，猶如庖丁解牛，各個擊破。

課程會橫向講解評分卡模型是如何一步一步搭建的。

數學原理

課程還會講述邏輯迴歸的信用評分卡搭建背後的算法原理，數學公式。

取數

課程教會學員如何取數，什麼是vintage？什麼是樣本窗口期？

變量篩選

課程教授如何篩選變量，如何構建衍生變量。

課程提供python腳本和數據下載

課程提供視頻中展現腳本和建模數據，並按期更新優化。學員能夠下載後跟着視頻一塊兒演練。

模型運行後輸出詳細信息，包括變量的統計分析。

評分卡生成（score card）

python腳本能夠生成一個評分卡模塊（score card），詳細保存每一個變量有哪些分箱，每一個分箱如何計分。這方便業務方和領導參考決策。

拒絕推斷reject reference

課程講述了拒絕推斷reject reference重要概念

模型驗證

課程還講述模型驗證的概念，建模數據須要分爲train訓練數據，test測試數據，oot更遠時間段驗證數據。此教程是市面上最全面講述評分卡教程。

(模型驗證的部分指標展現)

（模型驗證方法論）

模型部署和監控

此教程還概述模型部署和監控知識。模型部署是存在衆多問題的，模型具備操做風險，常常會遇到模型線上線下數據不一致狀況，變量映射錯誤，數據傳輸丟包，腳本漏寫等等各類複雜狀況。

從模型訓練，模型打包，模型驗證，模型部署，模型監控，從新訓練模型，最終造成了一個模型開發週期閉環。

（模型開發週期流程圖）

python部分建模腳本展現

randomForest.py

# -*- coding: utf-8 -*-
"""
博主python金融風控評分卡模型和數據分析微專業課：https://edu.51cto.com/sd/f2e9b
隨機森林不須要預處理數據
"""
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
  
trees=1000
#讀取文件
readFileName="data.xlsx"
#讀取excel
df=pd.read_excel(readFileName)
list_columns=list(df.columns[:-1])
X=df.ix[:,:-1]
y=df.ix[:,-1]
names=X.columns
x_train,x_test,y_train,y_test=train_test_split(X,y,random_state=0)
#n_estimators表示樹的個數，測試中100顆樹足夠
forest=RandomForestClassifier(n_estimators=trees,random_state=0)
forest.fit(x_train,y_train)
print("random forest with %d trees:"%trees) 
print("accuracy on the training subset:{:.3f}".format(forest.score(x_train,y_train)))
print("accuracy on the test subset:{:.3f}".format(forest.score(x_test,y_test)))
print('Feature importances:{}'.format(forest.feature_importances_))
n_features=X.shape[1]
plt.barh(range(n_features),forest.feature_importances_,align='center')
plt.yticks(np.arange(n_features),names)
plt.title("random forest with %d trees:"%trees)
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
plt.show()

決策樹可視化

神經網絡可視化

更多相關知識，請報名系列課《python金融風控評分卡模型和數據分析微專業課》

https://edu.51cto.com/sd/f2e9b