2020年數學建模國賽C題Demo【準確率只有61%,僅供參考】
MPai下載連接:www.mpaidata.com機器學習
關注公衆號:【萬靈數據】能夠看不少不少建模資料噢ide
附件數據下載:https://mpaidata.lanzoui.com/iC1kAgk03ba學習
講解視頻:https://www.bilibili.com/video/BV1154y1C7ZC?from=search&seid=8443983732512492584ui
改進策略:編碼
1,調整模型參數(效果微小)spa
2,擴充特徵指標(效果中等)設計
3,擴充樣本數量(效果卓越)視頻
思路以下:blog
該題目可以使用評分卡(量化)+機器學習解決遞歸
可使用MPai數據科學平臺 量化分析-AHP或熵權法 與監督機器學習-分類解決
C題 中小微企業的信貸決策
在實際中,因爲中小微企業規模相對較小,也缺乏抵押資產,所以銀行一般是依據信貸政策、企業的交易票據信息和上下游企業的影響力,向實力強、供求關係穩定的企業提供貸款,並能夠對信譽高、信貸風險小的企業給予利率優惠。銀行首先根據中小微企業的實力、信譽對其信貸風險作出評估,而後依據信貸風險等因素來肯定是否放貸及貸款額度、利率和期限等信貸策略。
某銀行對肯定要放貸企業的貸款額度爲萬元;年利率爲4%~15%;貸款期限爲1年。附件1~3分別給出了123家有信貸記錄企業的相關數據、302家無信貸記錄企業的相關數據和貸款利率與客戶流失率關係的2019年統計數據。該銀行請大家團隊根據實際和附件中的數據信息,經過創建數學模型研究對中小微企業的信貸策略,主要解決下列問題:
(1) 對附件1中123家企業的信貸風險進行量化分析,給出該銀行在年度信貸總額固定時對這些企業的信貸策略。
問題能夠簡單理解爲,對123家企業的信貸風險進行量化(將定類數據轉化爲定量數據),而後給出怎麼對這些企業進行評級與分配信用貸款。
咱們能夠看到上圖,這是銀行已經對這些企業打的信用評級與確認出來的是否違約,咱們須要作的就是把目前所能拿到的數據轉化一個定量的數據用於評價信貸風險,而後根據這個比例來按進行分配貸款。
到這裏,你們應該知道要解決什麼問題了,那怎麼去作這件事情呢?
這裏我給你們提出一種解決方案:
Step1:對數據進行缺失值和異常值處理;
(可經過MPai數據科學平臺【特徵工程—數據清洗—缺失值處理】、【特徵工程—數據清洗—異常值處理】)
Step2:對【是否違約】創建特徵工程,以特徵工程爲X,以【是否違約】爲Y, 創建一個信譽評級分類模型,特徵工程的裏的字段能夠是,【信譽評級】,
(1,須要轉化爲數值標籤,可經過MPai數據科學平臺【特徵工程—數據清洗—數據標籤轉化】
2,onehot編碼,可經過MPai數據科學平臺【特徵工程—數據清洗—獨熱編碼】處理)
對於【進項發票信息】,能夠構造特徵【金額】,【稅額】,【價稅合計】,【發票狀態】這些明面上的指標,也能夠是【對企業代號進行分組,拿到的總金額、平均金額、中位數金額】,【對企業代號進行分組,拿到的總稅額、平均稅額、中位數稅額】,【對企業代號進行分組,拿到的總價稅合計、平均價稅合計、中位數價稅合計】,同時還能夠是【對開票日期(日周月年)進行分組,拿到開票的頻數(日周月年)】,【累計開票數】,【累計有效發票個數】,【累計無效開票次數】
對於【銷項發票信息】,同理與上
同時我麼也能夠根據企業名稱來進行聚類,例如科技公司,地產公司,能夠通用詞向量聚類,也能夠經過關鍵詞進行聚類,這樣又多了一個指標,【公司類別】
之後還有【(日周月年)均淨收入,淨支出】(收入發票減支出發票)
總之,儘量擴充特徵工程,就我上面列出來的就有共計50特徵,固然,咱們仍是能夠儘量地多擴充,先無論這些特徵是否存在共線性。
Step3:接着,咱們須要對樣本數據進行均衡處理,由於咱們肉眼能夠看到【是否違約】存在極大的樣本不均衡,這些直接訓練一個分類模型會致使模型過擬合,例如我有一百個樣本,99個樣本是1,那麼即便我瞎分類,所有判爲1,準確率也是99%,樣本均衡能夠經過上採樣或者下采樣
(可經過MPai數據科學平臺【特徵工程—樣本均衡處理】)
Step4:因爲構造的特徵太多了,咱們須要對特徵進行篩選,這裏咱們須要減小特徵,能夠選擇諸如主成分分析等降維技術進行數據降維,也可使用遞歸消除特徵法等篩選方法來進行特徵篩選,
(1,可經過MPai數據科學平臺【特徵工程—數據降維處理】,
2,可經過MPai數據科學平臺【特徵工程—特徵篩選處理】)
Step5:準備工做就緒,咱們能夠把他丟進一個分類模型進行序列,推薦邏輯迴歸或者XGBOOST與隨機森林,須要對數據進行切分訓練,評價指標能夠選擇F1,能夠進行各類自由調參,保證模型的最優
查看模型輸出(這裏只看機率),咱們能夠獲得每一個模型的【是否違約_否】的機率,這個機率就能夠做爲信貸風險的量化得分,而後咱們這裏能夠進行歸一化,而後按比例分配貸款。
以上方法簡單粗暴,若是想要更突出的小夥伴可使用評分卡或者AHP模型,這裏舉例AHP模型,信貸風險的評價指標能夠分爲三個內容:信譽評級,是否違約,企業流水或收入支出比,咱們能夠設計2個分類模型(是否違約),一個迴歸模型(企業流水或收入支出比),採用AHP構建判斷矩陣(用德爾菲法肯定輸入,能夠不用),而後加權來得出來信貸風險的量化得分
(1,可經過MPai數據科學平臺【監督機器學習—分類】,
2,可經過MPai數據科學平臺【量化分析—層次分析法】)
(2) 在問題1的基礎上,對附件2中302家企業的信貸風險進行量化分析,並給出該銀行在年度信貸總額爲1億元時對這些企業的信貸策略。
問題1解決了,問題二不就是從新構建特徵工程X,而後把X丟進問題一訓練好的模型,能夠獲得量化結果,按比例便可分配。
這裏注意一點,因爲附件2沒有【信譽評級】,那麼在問題1種,咱們不能把【信譽評級】放入特徵工程。
(3) 企業的生產經營和經濟效益可能會受到一些突發因素影響,並且突發因素每每對不一樣行業、不一樣類別的企業會有不一樣的影響。綜合考慮附件2中各企業的信貸風險和可能的突發因素(例如:新冠病毒疫情)對各企業的影響,給出該銀行在年度信貸總額爲1億元時的信貸調整策略。
這裏要求給出信貸調整策略,緣由是突發因素會對不一樣行業、不一樣類別的企業會有不一樣的影響,例如對互聯網行業,新冠病毒疫情是促進的,可是對於旅遊業,新冠病毒疫情則致使了其大蕭條,所以這裏須要分不一樣行業來進行調整:
基於企業名的關鍵詞同過問題1的方法能夠獲得行業的區分,能夠經過AHP或者熵值法(須要自行爬取數據)等量化模型對不一樣行業構建判斷矩陣,獲得他們的權重比,而後加權在問題2的信貸風險量化得分上,即爲一個比較有理,簡單的解決方案。