https://blog.csdn.net/zhuzhubiji/article/details/16841819 轉載git
1.古典信用風險計量模型
主觀判斷分析方法、財務比率評分方法、多變量信用風險判別方法(其中最有效,包括線性機率模型、Logit模型、Porbit模型、判別分析模型)
評級方法:將信用情況分紅不一樣等級,分別使用不一樣的信用政策。
評分方法:對影響信用的不一樣因素肯定不一樣的分值和權重,彙總計算出對應的信用評分。做爲給予企業信用額度或貸款額度的依據。Z評分模型、ZETA評分模型。
專家方法:專家打分,對決定信用情況的主要因素進行評分。5C法。算法
2.現代信用風險度量模型
莫頓Merton將期權訂價理論運用到違約證券訂價的研究,推出了違約債券的訂價公式。
違約證券估價理論模型都是基於BSM(Black ScholesMerton)的股票期權訂價模型,稱爲結構化模型。
簡約模型:不用公司資產價值數據,而用市場中易於獲得的公司違約率、公司信用等級變更以及債券信用利差等市場數據。馬爾可夫模型、可爾可夫模型、雙因素模型安全
信用風險模型大體分三類:
1.信用轉移方法:如J.P. Morgan提出的CreditMetrics模型,研究給定時間水平上信用質量變化的規律。
2.期權訂價方法:又稱結構化方法,本質是勇氣也將來價值的內生的不肯定性解釋企業債務的違約風險。如KMV公司的KMV模型。
3.保險精算方法:如瑞士信貸銀行金融產品部CSFP的Credit Risk+模型;麥肯錫公司Mckinsey的CreditPortfolio View模型。微信
信用風險計量模型的基本技術路線是,利用借款者的特徵指標和宏觀經濟變量,收集這些特徵指標和宏觀變量的歷史數據,並將其應用於預測違約借款人與履約借款人。預測模型旨在評估未知借款者未來是否還款的信用價值,將潛在借款者的特徵值輸入模型,從模型中輸出信用價值評估,從而可對潛在借款人進行信用評估。dom
通常的評級方法能夠分爲專家經驗判斷法、參數模型和非參數模型。所謂的專家經驗判斷,就是相關專家根據主觀經驗進行打分,後兩種方法都是根據模型進行客觀的計算。而對於參數模型與非參數模型的區分:用代數方程、微分方程、微分方程組以及傳遞函數等描述的模型都是參數模型。創建參數模型就在於肯定已知模型結構中的各個參數,經過理論分析老是得出參數模型;非參數模型是直接或間接地從實際系統的實驗分析中獲得的響應,例如經過實驗記錄到的系統脈衝響應或階躍響應就是非參數模型。ide
下面的例子給你們通俗易懂的解釋一下。函數
例子:項目組小翟最近喜歡上了一個姑娘,可是很是苦惱姑娘是否是喜歡本身。小翟來諮詢他的人生導師-小張姐姐,小張姐姐根據本身的經驗判斷姑娘不會喜歡他,小翟很是傷心,這就是專家經驗判斷法。工具
以後,小翟又來諮詢數據分析高手-小金哥哥,小金哥哥經過分析小翟和姑娘的生辰八字,列出了迴歸方程,判斷姑娘會有37.28%機率喜歡上小翟,小翟很是傷心,這就是參數模型。性能
最後,小翟又來諮詢數學專業高材生-小沈姐姐,小沈姐姐收集了幾十對在一塊兒的情侶又收集了幾十對沒有在一塊兒的情侶,經過決策樹的算法,判斷小翟和姑娘的數據更偏向於沒有在一塊兒的情侶,小翟很是傷心,這就是非參數模型。
專家經驗判斷
專家經驗判斷是根據信貸專家多年從業經驗進行定性判斷。
層次分析法(簡稱AHP)是美國運籌學家Saaty教授於20世紀70年代初提出的,其特色是把複雜問題中的各類因素經過劃分爲相互聯繫的有序層次,使之條理化。做爲規劃、決策和評價的工具,AHP自問世以來,已在各個領域獲得迅速普及和推廣,取得了大量的研究成果。層次分析法主要用於肯定綜合評價的權重係數,所用數學工具主要是矩陣的運算。信用風險的測算是一個複雜的、多層次的評價過程,每一個指標要素之間的關係是相互依存、相互做用的,它們是一個總體。
層次分析法計算過程以下:
1、每兩個指標的相對重要性判斷
2、構造判斷矩陣
3、計算權重
,矩陣A即爲權重向量。
4、一致性檢驗
根據下式計算一致性指標CI
查找平均隨機一致性指標RI.
根據下式計算一致性比例CR。
當CR<0.10,認爲判斷矩陣的一致性是能夠接受的,不然對判斷矩陣進行適當的修改,最終達到一致性要求。
Logistic迴歸用於分類的應用比較普遍,利用Logistic迴歸模型能夠將因變量與自變量之間關係的求解轉變爲求解被解釋變量發生類別的相應機率。Logistic迴歸模型的思想來自於線性迴歸,是一種非線性機率迴歸,多元線性迴歸用來預測由多個連續解釋變量構成的函數模型的被解釋變量數值的大小,而Logistic迴歸是用來預測由一個或多個解釋變量構成的分類函數中屬於其中一類的機率。
Logistic邏輯迴歸分析的假設前提爲:
(1) 數據來自隨機樣本;
(2)自變量之間不存在多重共線性關係。
Logistic函數的形式爲:
那麼在迴歸模型基礎上計算得出的發生的機率和之間存在以下的迴歸關係:
邏輯迴歸模型是解決0-1迴歸問題行之有效的方法,模型的曲線爲S型,最大值趨近1,最小值趨近0。經過設定臨界值做爲事件發生與否的標準,若是事件發生的機率大於臨界值,則斷定事件發生;反之,斷定事件不發生。和判別分析方法不一樣,Logistic迴歸模型在理論上並不存在「最優」的分割點,分割點的選取取決於模型使用者的具體目的。
實現方式
通常邏輯迴歸數據量不是特別大,spss操做起來簡單易懂,同時SAS\Python均可以實現。
SAS基礎代碼:
proc logistic data=數據名 desending;model 因變量=自變量; run;
判別分析
紐約大學斯特恩商學院教授愛德華·阿特曼(Edward Altman)在1968年就對美國破產和非破產生產企業進行觀察,採用了22個財務比率通過數理統計篩選創建了著名的5變量Z-score模型。Z-score模型是以多變量的統計方法爲基礎,以破產企業爲樣本,經過大量的實驗,對企業的運行情況、破產與否進行分析、判別的系統。Z-score模型在美國、澳大利亞、巴西、加拿大、英國、法國、德國、愛爾蘭、日本和荷蘭獲得了普遍的應用。
X1=(流動資產-流動負債)/資產總額;
X2=(未分配利潤+盈餘公積金)/資產總額;
X3=(稅前利潤十財務費用)/資產總額;
x4=(每股市價流通股數+每股淨資產非流通股數)/負債總額;
X5=主營業務收入/資產總額
判斷準則:Z<1.8,破產區;1.8≤Z<2.99,灰色區;2.99<Z,安全區
1973年,美國芝加哥大學教授 Fischer Black&Myron Scholes提出了著名的B-S訂價模型,用於肯定歐式股票期權價格,在學術界和實務界引發了強烈反響;同年,Robert C. Merton獨立地提出了一個更爲通常化的模型,布萊克-舒爾斯-默頓期權訂價模型(下文簡稱B-S-M模型),並由此導出衍生證券訂價的通常方法。舒爾斯和莫頓由此得到了1997年的諾貝爾經濟學獎。如今,布萊克—斯科爾斯—莫頓訂價公式已被期貨市場參與者普遍接受,是金融工程中全部訂價理論的基石。
經典BSM模型:
信用資產的違約行爲表現爲借款人到期不能償還貸款的本金利息。莫頓理論假設一旦借款人的資產市值在一年內低於其現有負債價值,則借款人將發生違約。若是咱們能得到資產波動的相關性,藉助以資產爲基礎的違約,就能夠得到違約的相關性。而資產波動的相關性,在資本市場上是能夠觀察到的,並有完整的數據積累。當借款人的資產市場價值小於一個閥值(負債)時,借款人發生違約。
根據BSM模型,能夠將貸款看作一種期權,一旦市值小於其負債就看作執行期權,產生違約。期權執行的機率=N(d2),即違約機率
對沒有目標變量的數據集根據數據的類似性給出 「天然的」分組,類內對象類似性儘可能大,類間對象類似性儘可能小。根據結果類的分離性,聚類分爲重疊聚類與互斥聚類。
首先定義能度量樣品(或變量)間類似程度(親疏關係)的統計量,在此基礎上求出各樣品(或變量)間類似程度的度量值;而後按類似程度的大小,把樣品(或變量)逐一歸類,關係密切的彙集到一個小的分類單位,關係疏遠的聚合到一個大的分類單位,直到全部的樣品(或變量)都聚合完畢,把不一樣的類型一一劃分出來,造成一個由小到大的分類系統。
聚類分析能夠由SPSS點擊實現,也能夠由SAS函數實現。聚類分析SAS代碼:
proc varclus data=數據集 outtree=tree;
var 變量;
run;
proc tree data =tree;run;
決策樹(Decision Tree)是一種簡單可是普遍使用的分類器。經過訓練數據構建決策樹,能夠高效的對未知的數據進行分類。決策數有兩大優勢:1)決策樹模型能夠讀性好,具備描述性,有助於人工分析;2)效率高,決策樹只須要一次構建,反覆使用,每一次預測的最大計算次數不超過決策樹的深度。
決策樹在SPSS裏有成型的算法,直接單擊使用便可。SAS中的Proc split或Proc hpsplit函數能夠直接調用。R語言中的rpart()函數也能夠直接調用生成決策樹。
決策樹有不少優勢,好比:易於理解、易於解釋、可視化、無需大量數據準備。使用決策樹(預測數據)的成本是訓練決策時所用數據的對數量級。
但這些模型每每不直接使用,決策樹一些常見的缺陷是:
構建的樹過於複雜,沒法很好地在數據上實現泛化、數據的微小變更可能致使生成的樹徹底不一樣,所以決策樹不夠穩定、決策樹學習算法在實踐中一般基於啓發式算法,如貪婪算法,在每個結點做出局部最優決策。此類算法沒法確保返回全局最優決策樹。、若是某些類別佔據主導地位,則決策樹學習器構建的決策樹會有誤差。所以推薦作法是在數據集與決策樹擬合以前先使數據集保持均衡。
因爲決策樹容易對數據產生過擬合,所以分支更少(即減小區域 R_1, … ,R_J)的小樹雖然誤差略微高一點,但其產生的方差更低,可解釋性更強。減小決策樹的方差能夠經過袋裝(bagging)和隨機扥林方法來實現,因爲隨機森林在效果上好於袋裝,下面只介紹隨機森林函數。
顧名思義,森林是由不少顆樹構成,隨機森林也是由不少個決策樹構成。隨機森林經過隨機擾動而令全部的樹去相關,在構建每一棵樹時,每個結點分割前都是採用隨機樣本預測器。隨機森林能夠考慮使用大量預測器,不只由於這種方法減小了誤差,同時局部特徵預測器在樹型結構中充當重要的決策。
隨機森林可使用巨量的預測器,甚至預測器的數量比觀察樣本的數量還多。採用隨機森林方法最顯著的優點是它能得到更多的信息以減小擬合數值和估計分割的誤差。
隨機森林可由R語言中的randomforest()函數實現。函數默認生成500顆樹,而且默認每一個節點抽取個變量。
支持向量機分類器的基本原理是經過一個非線性變換將一個線性不可分的空間映射到另外一個高維的線性可分的空間,並創建一個分類器,這個分類器具備極小的 VC 維數。該分類器僅由大量樣本中的極少數支持向量肯定,而且具備最大的邊界寬度。支持向量機算法的好處在於不是直接計算複雜的非線性變換,而是經過計算非線性變換的點積,於是大大簡化了計算量。經過把核函數引入到一些學習算法中來,能夠很方便地把線性算法轉換爲非線性算法,將其與支持向量機一塊兒稱爲基於核函數的方法。
從信用評級問題的特色來看,適合採用SVM進行處理。SVM的特色之一是簡單、推廣能力強和易於解釋。銀行信用評級歷史數據的一個特色是分佈零散,各個信用等級的樣本數據量差異很大,並且可能存在較多的有缺陷的樣本。若是使用通常的模式識別模型,因爲各個類別樣本數據量不對稱,訓練過程當中分類器分類效果會向樣本量大的類別傾斜。然而對商業銀行來講,一些高風險類別的對象,其數量雖然少,可是將其識別出來倒是相當重要的。
另外一方面,借款人的歷史數據中存在缺陷是很正常的,甚至會有虛假信息,這些樣本應該被剔除掉。若是使用所有樣本訓練分類器的話,這些樣本的存在可能會對分類器性能產生極大影響。但在SVM模型中,只有支持向量纔對優化起做用,而支持向量的數量是很是有限的。所以,能夠在使用SVM模型獲得結果後。由專家對支持向量集進行研究。既能夠獲得對結果的深刻認識,又能夠對支持向量樣本進行審查,若是其中包含了有嚴重缺陷的樣本的話能夠剔除出去從新訓練。
SVM模型的另外一個特色是泛化能力強,SVM模型的複雜度能夠由支持向量的數量來描述,而這又很容易控制。所以,SVM模型不會出現過擬合問題,模型的穩定性至關好,能很好知足銀行對信用評級系統的穩定性要求。
支持向量機能夠經過R語言中kernlab包的ksvm()函數和e1071包中的svm()函數實現。
最簡單最初級的分類器是將所有的訓練數據所對應的類別都記錄下來,當測試對象的屬性和某個訓練對象的屬性徹底匹配時,即可以對其進行分類。
KNN是經過測量不一樣特徵值之間的距離進行分類。它的的思路是:若是一個樣本在特徵空間中的k個最類似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。K一般是不大於20的整數。KNN算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
R語言裏的kknn包能夠實現最鄰近算法——使用kknn()函數。
貝葉斯分類器的分類原理是經過某對象的先驗機率,利用貝葉斯公式計算出其後驗機率,即該對象屬於某一類的機率,選擇具備最大後驗機率的類做爲該對象所屬的類。也就是說,貝葉斯分類器是最小錯誤率意義上的優化。
經典貝葉斯公式:
python風控建模實戰lendingClub(博主錄製,catboost,lightgbm建模,2K超清分辨率)
https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149
微信掃二維碼,免費學習更多python資源