金融分控——1.賽題理解

賽題以金融風控中的我的信貸爲背景,要求選手根據貸款申請人的數據信息預測其是否有違約的可能(或者說是借出去以後是否會成爲壞帳 charged off)。這是一個典型的分類問題。
項目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
比賽地址:https://tianchi.aliyun.com/competition/entrance/531830/introductiongit

1.學習目標

理解賽題數據和目標、清楚評分體系。github

2.瞭解賽題

2.1 賽題概況

比賽要求參賽選手根據給定的數據集,創建模型,預測金融風險。web

2.2數據概況

通常而言,在比賽中的數據的特徵都會有介紹(除了匿名特徵之外)。Tip:匿名特徵,就是未告知數據列所屬的性質的特徵列。
train.csv算法

  • id 爲貸款清單分配的惟一信用證標識(能夠挖掘有用信息,好比是否有表示地區標識的內容在裏面,便於後面在neo4j數據庫中使用社區發現算法、louvain算法)
  • loanAmnt 貸款金額
  • term 貸款期限(year)
  • interestRate 貸款利率
  • installment 分期付款金額
  • grade 貸款等級(neo4j有用特徵)
  • subGrade 貸款等級之子級
  • employmentTitle 就業職稱
  • employmentLength 就業年限(年)
  • homeOwnership 借款人在登記時提供的房屋全部權情況 (這是一個很是重要的特徵,有的話就表示經濟實力還錯,若是爲null則不能簡單第將樣本去除,而是要考慮其餘的處理方式)
  • annualIncome 年收入
  • verificationStatus 驗證狀態
  • issueDate 貸款發放的月份
  • purpose 借款人在貸款申請時的貸款用途類別(能夠考慮使用特徵交互的手段,例如在《量化金融信用和欺詐防範》課程中第一個大做業中的教育這個特徵的處理方式)
  • postCode 借款人在貸款申請中提供的郵政編碼的前3位數字(典型的社區發現算法的特徵,有用)
  • regionCode 地區編碼
  • dti 債務收入比
  • delinquency_2years 借款人過去2年信用檔案中逾期30天以上的違約事件數
  • ficoRangeLow 借款人在貸款發放時的fico所屬的下限範圍(fico評分是美國多種信用評分中最經典的。包括35%還款歷史,30%已借金額,15% 信貸歷史,10%新貸款申請,10%貸款種類。)
  • ficoRangeHigh 借款人在貸款發放時的fico所屬的上限範圍
  • openAcc 借款人信用檔案中未結信用額度的數量(表示負債多少)
  • pubRec 貶損公共記錄的數量
  • pubRecBankruptcies 公開記錄清除的數量
  • revolBal 信貸週轉餘額合計
  • revolUtil 循環額度利用率,或借款人使用的相對於全部可用循環信貸的信貸金額
  • totalAcc 借款人信用檔案中當前的信用額度總數
  • initialListStatus 貸款的初始列表狀態
  • applicationType 代表貸款是我的申請仍是與兩個共同借款人的聯合申請
  • earliesCreditLine 借款人最先報告的信用額度開立的月份
  • title 借款人提供的貸款名稱
  • policyCode 公開可用的策略_代碼=1新產品不公開可用的策略_代碼=2
  • n系列匿名特徵 匿名特徵n0-n14,爲一些貸款人行爲計數特徵的處理

2.3預測指標

競賽採用auc做爲評價指標。AUC(area under curve)被定義爲roc曲線上與座標軸圍成的面積。(個人理解,就是表示數據排序後的結果的好壞)
固然還有其餘指標。混淆矩陣、準確率acc,查準率precision,召回率recall,f1 score,P-R曲線,ROC曲線。
(固然還有表示特徵有效性的ks係數,iv係數,以及特徵穩定性的psi係數)數據庫

3.知識圖譜的應用

主要是實體和關係app

  • 金融反欺詐圖譜:點->實體,邊->實體關係
  • 實體:設備號、電話、郵件、身份證、銀行卡、信用卡、ip等
  • 實體關係:設備-電話,身份證,銀行卡;電話-電話、地點;身份證-地址、信用卡、電話等。
  • neo4j數據庫,用於知識圖譜的技術實現