本文來自網易雲社區。算法
在金融行業中,客戶關係管理、風險計量與管理、精準營銷、交易執行、安全與反欺詐等所需的業務分析都須要大數據分析與挖掘,而這些正是實現迅速和科學決策的核心基礎。大數據時代背景驅動的金融行業轉型主要體如今實現嚴格有效的監管、機構精細化管理、業務創新提升競爭力等三大方面。而大數據技術正是實現這些目標的紮實基礎。數據庫
大數據不只爲金融機構掌握客戶全方位信息提供了可能,經過大數據技術分析和挖掘客戶的交易和消費歷史掌握客戶的消費行爲與習慣,並準確地預測客戶傾向,有針對性地提供推薦和服務,可以提高客戶滿意度。另外一方面,大數據技術能經過跟蹤新聞、微博等典型的非結構化、半結構化數據捕捉政治、經濟等方面的變化對市場的影響。這些非結構化數據、半結構化數據通過處理後可以轉化成結構化數據,並參與到自動交易的決策輔助中來。安全
數據挖掘的三大任務是分類、聚類、關聯規則,因爲不一樣的數據形式同這三個方面的結合又產生了一些交叉領域。網絡
2007 年的IEEE 國際數據挖掘大會(ICDM)經過調查認定了10 種受到普遍承認的算法:C4.五、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、Naive、Bayes 和CART。常見的分類任務算法有:決策樹、logistic迴歸、神經網絡、支持向量機、多目標線性規劃等。框架
Logistic 迴歸分析是一種二分類的多元迴歸方法,是判斷某件事情是否發生的傳統工具,在各個領域都取得了較爲普遍的應用。運維
人工神經網絡具備自學習和自適應能力,可經過預先提供的一批相互對應的輸入—輸出數據,分析掌握二者間的規律進行應用和預測。最流行的神經網絡算法是20 世紀80 年代提出的向後傳播算法。工具
支持向量機(SVM)和多目標線性規劃(MCLP)都是基於最優化數據挖掘的方法。SVM 是由Corinna Cortes在解決小樣本、非線性及高維模式識別中表現出不少特定優點,可以推廣到各類分類問題。目前最優化數據挖掘方法已經在我的信用評分、客戶流失管理、金融衍生品結算風險管理等金融大數據挖掘項目中成功應用。學習
聚類算法主要有層次化聚類算法、劃分式聚類算法、基於密度和網格的聚類算法。K-means 方法將n 個對象根據它們的屬性分爲K 個簇。大數據
關聯規則最爲有名的應用是「啤酒尿布」的購物籃應用案例。而在金融領域中,借鑑這樣的思想實現捆綁營銷並不是難事。關聯規則算法中最流行的Apriori 算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基於兩階段頻集思想的遞推算法,可以找到全部支持度大於最小支持度的項集,即頻繁項集。優化
其實,數據挖掘的方法和技術就能夠用於大數據時代企業決策模式的從新制定。其中最重要的方法之一是「跨行業數據挖掘過程標準」(CRISP-DM)。它是一個通用的數據挖掘框架,已廣泛被許多數據分析的軟件公司採用。在大數據背景下CRISP-DM 一樣適用,只不過處理的是更大、更復雜的大數據。
人民銀行我的信用評分模型就是大數據挖掘技術在風險管理中的典型應用。該信用評分模型系統稱爲中國評分(ChinaScore)。它由我國信貸結構的七組評分模型組成,目前在各大商業銀行運行良好。該評分系統利用全國各大金融機構的全部我的信貸帳戶的住房貸款、汽車貸款、信用卡等的歷史信息(人數超過6000 萬,數據積累超過3 年),運用先進的數據挖掘和統計分析技術,經過對消費者的人口特徵、信用歷史記錄、行爲記錄、交易記錄等大量數據進行系統的分析,挖掘出蘊含在數據中的行爲模式。
工商銀行則運用大數據技術進行客戶流失分析和管理。客戶流失分析的目的是經過現有客戶使用產品的狀況及各類信息,預測客戶在以後一段時期是否會流失,從而爲其提供針對性的服務,實施挽留措施。在客戶流失分析中,客戶的特徵主要由活期存款、按期存款、中間業務、貸款業務、貸記卡業務、國際貸記卡業務和客戶基本資料等7類信息描述。其中包括客戶使用各業務的產品特性、交易行爲描述和客戶自身的年齡性別等。
隨着金融大數據特徵在大數據時代的日益明顯,監管上和業務上的需求也愈來愈複雜,不管是對科研界仍是實業界都提出了新的要求和挑戰。
在銀行業,大數據時代再次挑戰了銀行的數據駕馭能力。除了傳統的結構化數據,來自物聯網、互聯網的非結構化數據將完全顛覆銀行收集各種數據的理念和現有的方法。而在處理數據方面,非結構化數據,例如客戶錄音數據等等難以用傳統的方法描述,度量、計算、處理難度都大。
在證券業,國內絕大部分的證券公司仍以關注宏觀經濟、行業動態、基本數據、交易性數據等結構化數據爲主進行分析。大數據時代,社交網絡這一大類數據源成爲價值隱藏的另外一大寶庫。文本挖掘提取等處理非結構化數據的方法讓輿情分析結合現有的數據研究上市公司的走勢成爲可能。在客戶分析上的探索,證券業要遠落後於銀行業,發展滯後。是否能夠將產品的生命週期與客戶的生命週期相結合,獲取更多的數據來做爲分析的基礎?投資者購買什麼樣的證券產品是否除了客觀個性特徵外可以反映主觀的風險容忍度和風險承擔意願?是否可以根據這樣的劃分設計定製化的產品?我相信這些都將是大數據時代爲證券業帶來的新的增加點。
在保險業,過去是「樣本精算」,大數據時代變成了「全量數據」。保險的本質內涵是理解風險並控制風險,在這一點上,大數據將顛覆整個保險業的商業模式。傳統保險經營關注的風險維度,不足以反映世界的複雜性。以車險爲例,目前的訂價因素僅僅考慮了性別、年齡和職業,然而顯然這樣的認識遠不能刻畫一我的開車的風險。所以僅靠「樣本精算」採用的大數定律遠遠不夠,如何利用客戶其餘信息,包括網絡以及政府公開的數據等這幾個大數據的重要來源,達到個性化風險控制和訂價是值得深思的問題。
目前數據挖掘在各行各業應用普遍,尤爲在金融、保險、電子商務和電信方面獲得了很好的效果,下面簡單闡述一下在金融行業數據挖掘的應用。
(1)風險控制(貸款償還預測和客戶信用評價)
有不少因素會對貨款償還效能和客戶信用等級計算產生不一樣程度的影響。數據挖掘的方法,如特徵選擇和屬性相關性計算,有助於識別重要的因素和非相關因素。例如,與貨款償還風險相關的因素,包括貨款率、貸款期限、負債率、償還與收入(payment—to—income)比率、客戶收入水平、受教育程度、居住地區、信用歷史等等。而其中償還與收入比率是主導因素,受教育水平和負債率則不是。銀行能夠據此調整貨款發放政策,以便將貨款發放給那些曾被拒絕但根據關鍵因素分析,其基本信息顯示是相對低風險的申請者。
(2)交叉銷售(業務關聯分析)
經過關聯分析可找出數據庫中隱藏的關聯網,銀行存儲了大量的客戶交易信息,可對客戶的收入水平、消費習慣、購買物品等指標進行挖掘分析,找出客戶的潛在需求;並對各個理財產品進行交叉分析,找出關聯性較強的產品,從而對客戶進行有針對性的關聯營銷,提升銀行業績。
(3)客戶市場細分
根據銀行大量的客戶資料以及客戶存儲款狀況,利用有效的聚類或者協同過濾,將客戶有效地劃分爲不一樣的組,使得具備相同存儲和貸款行爲的客戶分爲一組,從而能夠對每一組總結各自每一個組的特色,對每一個組開展有針對性活動。
此外,針對不一樣的客戶類型(例如大客戶類型,潛在價值高,可是忠誠度很難保持)設計出量體裁衣的產品組合、溝通方式,以及客戶服務,從而達到提升客戶忠誠度、實現關聯銷售、最優化訂價、產品直銷、產品再設計,以及渠道管理的目的。而這些目標的實現,導致客戶管理整體成本下降,客戶關係得以改善,最終成功實現零售業務塊利潤率的提升。
(4)客戶價值分析
根據「二八原則」,找出重點客戶,即對銀行創造80%價值的20%客戶實施最優質的服務,經過對客戶金融產品的使用頻率以及持續性等指標判斷客戶的忠誠度。
(5)客戶流失預警
根據客戶屬性特徵、存儲款、貸款、金融產品使用等數據,運用數據挖掘技術,找到流失客戶的共同特徵,從而針對具備類似特徵的客戶還未流失前,進行有針對性的彌補或者營銷活動,從而起到避免客戶流失到其餘公司的做用,起到穩定本企業客戶的做用。
(6)新客戶開發以及新產品推廣
經過探索性的數據挖掘方法,如自動探測聚類和購物籃分析,能夠用來找出客戶數據庫中的特徵,預測對於銀行營銷活動的響應率。那些被定爲有利的特徵能夠與新的非客戶羣進行匹配,以增長營銷活動的效果。
數據挖掘還可從銀行數據庫存儲的客戶信息中,能夠根據事先設定的標準找到符合條件的客戶羣,也能夠把客戶進行聚類分析讓其天然分羣,經過對客戶的服務收入、風險、成本等相關因素的分析、預測和優化,找到新的可贏利目標客戶。
(7)貸款償還預測
貸款償還預測對銀行業務至關重要的。貸款償還風險相關的因素包括貸款率,貸款期限,負債率(月負債總額與月收入總額之比),償還與收入比率(payment-to-income),客戶收入水平,受教育水平,居住信息,信用歷史等等,經過數據挖掘預測手段,能夠提前預測哪些用戶有可能償還違約,哪些用戶曾經貸款被拒可是預測結果倒是低風險。
(8)客戶評分
評分技術是銀行業普遍使用的一項技術,包括風險評分、行爲評分、收益率評分、徵信局評分以及客戶評分等。評分技術是將客戶的海量信息數據運用有效的數據挖掘和處理手段,對各類目標給出量化評分的一種手段,以徵信局評分爲例。要達到創建徵信局評分的目標,首先要創建起集中的數據倉庫,其中涵蓋了申請人的各類特徵,銀行提供的全部產品,包括存款、貸款、信用卡、保險、年金、退休計劃、證券承銷,以及銀行提供的其餘產品,甚至包括水電煤氣、電話費、租金的繳納狀況等。
(9)反洗錢活動
金融交易活動是洗錢犯罪行爲的一個重要環節,經過分析金融機構的客戶信息和交易數據,運用合適的數據挖掘方法,介乎客戶背景,識別出可疑金融交易記錄,最後根據貝葉斯斷定原理,綜合各個層次的可疑信息,獲得交易記錄的總體可疑度,最終爲反洗錢監測提供快速準確的參考。
(10)其餘決策支持
好比營銷活動預演,理財產品收益以及效果評估,多維分析報告等等。
海量用戶數據對於將來金融應用業務將很是關鍵,有大量的社交、支付、理財數據經過雲計算還有專業的分析挖掘,可以爲金融機構大幅的下降運營成本,還有服務成本,並提高風控的能力。
利益相關:網易猛獁大數據平臺做爲一站式的應用開發和數據管理平臺,經過大數據開發套件,將數據開發、任務運維、自助分析、數據管理、項目管理等工做經過工做流的方式有效的串聯起來,提供敏捷易用的用戶操做界面,下降了大數據分析的使用門檻,顯著的提升了數據開發工程師和數據分析師的工做效率。猛獁大數據平臺在電商、音樂、雲課堂學習、企業工業製造等領域已普遍應用,基於持續的需求驅動,經過多行業的業務驗證,同時豐富全面的組件,提供完善的平臺能力,知足不一樣類型的業務需求。
在對數據的分析處理過程當中,數據的安全重要性不言而喻。猛獁平臺底層使用Kerberos認證,實現了數據的安全性和隔離性。除了認證系統,利用Ranger實現了細粒度的權限控制,保證了各個租戶只能查看受權訪問的表、庫和字段。不只如此,平臺還提供審計功能,經過對用戶平臺行爲進行記錄、分析和彙報,用來幫助對事故追根溯源,提升了平臺的安全性。點擊可免費試用