Data Science For Banking & Insurancepython
若是不能正常訪問,請點擊備份獲取。算法
互聯網巨頭和金融技術創業時代的求生和發展編程
在數個世紀的進程中,銀行和保險行業開發出的程序、產品和基礎設施,塑造了整我的類的經濟史。安全
可是如今,他們正面臨着消亡的威脅,而挑戰者們出如今世界舞臺上只是幾十年的事,甚至其中幾個就出如今短短几年前。儘管如此,卻正是這些後來者正在從新制定金融服務的行業規則。這些挑戰者包括像 Google、亞馬遜、Facebook、蘋果、百度和阿里巴巴這樣的互聯網時代巨頭;也包括像 Credit Karma、Lending Club、Square、Lemonade、TransferWise 和 GoFundMe 這樣靈活的創業公司;甚至,經過物聯網,還可能包括看起來徹底不可能成爲競爭對手的消費品和工業產品製造商。網絡
銀行和保險公司能夠經過加快數字化進程這條途徑進行反擊,並採用新手所在行業的工具日益完善——即數據科學、大數據和算法。與此同時,他們還應該最大限度地利用其獨特的資產,包括諸如擁有在數學和統計方面頗受歡迎的專家、許多數據科學探索中嚴重缺少的深度專題知識、一個龐大的源源不斷的客戶數據資源池,以及由分支機構和營業廳組成實體網絡,這在追求有意義、多渠道和多感知的客戶體驗時可提供人員上的優點。框架
然而,可否成功取決於傳統銀行和保險公司對這些新挑戰者的迴應速度,迴應體如今對其具備競爭力的資產進行巧妙利用以及組織合適的人員、數據、工具和流程從而完成任務。機器學習
在 1995 年一場具備預見性的演講中,當時即將出任美國銀行 CEO 的 Hugh L. McColl Jr.,激勵銀行監管機構的成員要適應新生的互聯網時代,不然將會走向滅亡:編程語言
「正如每一個學生都知道的那樣,恐龍在冰河時代沒有幸存下來……不是由於恐龍沒法進化。只是它們沒有時間進化。與恐龍不一樣,銀行家能夠預見將來的變化。在這件事上,咱們有所選擇。這是恐龍所未曾有的。」函數
——Hugh L. McColl Jr工具
包括銀行和保險公司在內的金融服務行業,大部分都注意到了這條警告,並在接下來的 20 年裏開始適應從傳統系統和紙張流程到新數字時代的轉變。
這是一個艱難的過程,但也逐漸開始得到回報,包括運行效率、新的便捷性以及對客戶的價值。然而,2007-2008 年的全球金融危機減慢了這一數字化轉型,由於金融機構須要從新分配資源以恢復損失並適應更嚴格的監管環境。
GAFA 巨頭進入金融服務行業
現在,在 2016 年,銀行和保險行業基本上已從經濟危機中恢復過來,它們發現本身正在面臨互聯網時代誕生的新的挑戰。首先,也是最重要的,數字時代的巨頭,如西方市場的谷歌、蘋果、Facebook 和亞馬遜(即 GAFA),以及東方市場來自中國的超級公司百度、阿里巴巴、騰訊和小米(即 BATX),開始直接進入銀行和保險市場。
特別是,GAFA 及其海外的同行已經開始逐步試水,提供服務包括在線和移動支付、匯款、我的借貸、帳戶和儲蓄管理、點對點貸款(衆籌)、保險和貨幣交易。
然而截止到目前,對 GAFA 而言結果卻喜憂參半,由於 BATX 玩家在市場滲透方面佔據了領先地位。美國的大型科技企業已經表示出堅決的承諾,會增長其在金融服務領域的業務。這能夠在 Financial Innovation Now 這樣的倡議中看出,一個包括亞馬遜、蘋果、谷歌、Intuit 和 PayPal 的技術領袖聯盟,正致力於「使消費者和企業管理錢款和進行交易的方式更加現代化「,並倡導可以更好地支持」金融服務領域的新市場創新者「的監管政策。
它們也在這塊新興市場投資金融技術(fintech)創業公司。這些創業公司,像其支持者 GAFA 巨頭同樣,會選擇交易量大的金融服務切入,併爲在線和移動世界量身打造這些服務。
FINTECH 的崛起
隨着投資資本在 2015 年達到 223 億美圓(較 2014 年增加75%),fintech 正在加大力度大範圍地開展銀行服務,包括虛擬銀行、 我的和小額商業貸款、 財務諮詢和融資中介、信用評級、貨幣交易和匯款、股權衆籌、支付處理等。
雖然這些 fintech 公司開始是(如今仍然是)傳統銀行的顛覆性挑戰者,但銀行已開始經過合做、收購和投資的方式進行反擊(2010 年銀行機構佔 Fintech 總投資資本的 38%,並在 2015 年增加到 44%)。
對於保險市場而言,又是另一番景象。Google 和 Amazon 對保險的直接介入很是有限,另外目前市場出現的對 Fintech(或「insurtech」)的投資相對較低,儘管這種局面正在改變而且創新性保險公司的數量在不斷增長。
例如,目前有不少端到端型業務保險公司,好比 Friendsurance、Lemonade、InsPeer 和 InShared。其中,Friendsurance 是最先創立也是發展得最好的一家,它創建在社交媒體大數據基礎設施之上,用戶可以創建一個既真實又虛擬的朋友圈來分攤小額索賠和免賠額的成本,而大額索賠業務則由傳統保險公司覆蓋。另外一個發展中的初創企業 Teambrella,經過使用比特幣競價來達成端到端服務,從而使保險「公平透明」。它的運行機制爲:「團隊」中的每一個成員將資金存入特殊的我的比特幣錢包中,只在提交申請的成員和 3/8 的半隨機選擇成員共同簽署後,才能完成相互報銷。
其餘創新性的保險服務包括特定項目或事件的保險,以及按需保險。例如,Trōv 提供了一款稱之爲「智能保險」的業務,容許人們在任什麼時候間對任何事物進行投保,並且保險期限任意——這徹底由移動應用程序實現。具體來講,應用程序會收集有關客戶財產的數據,併爲單個項目所覆蓋範圍提供經機器學習增強的風險訂價,該保險能夠設置任意保險期(低至秒)和保險費(低至便士),最終由聊天機器人處理索賠。據 Trōv 的 CEO 及創始人 Scott Walchek 所說,其結果是一種極致的客戶體驗:
「現在的保險受冗餘的流程和表格所拖累,一般須要與人直接交談。 經過將整個流程轉移到咱們正在研製的手機上,使得其變得和在亞馬遜下單時的一次單擊同樣簡單。不只如此,報銷和退換貨索賠能夠像短信收發同樣簡單,在幾分鐘內便可完成,而不須要數天或數週。「
—— Scott Walchek, Trōv 的 CEO 及創始人
儘管存在這種保險技術革新浪潮,但能夠說,保險行業面臨的更爲直接的挑戰正在物聯網中逐漸造成,並且其也正在侵佔銀行業務。
信息互聯網:在你和你的客戶之間
在物聯網(IoT)中存在着數十億個傳感器,計算機處理器和通信設備正在被嵌入或附着到每一種可想到的常見「物體」 ——人體(經過可穿戴產品)、手機、網球鞋、水管、葡萄藤、牛、烤麪包機、路燈等等,它們會在移動網絡和互聯網上共享數據。到 2020 年將會有高達 300 億已鏈接的智能設備爲人類提供服務(不包括最廣泛的「智能」設備:智能手機),這無疑是一場革命。
儘管收集到的數據類型及其用途是普遍和高度多樣化的,不過其功能角色主要仍是遠距離監控、分析及控制(好比自動駕駛汽車和家庭病人護理)。
目前,像製造、醫療、零售和安全等行業在物聯網市場處於領先地位,而金融服務也已經準備好迎接由物聯網革命帶來的轉型。例如,製造消費品和工業產品的公司正在試圖爲其智能且聯網的產品搭載服務,這能夠幫助他們進行實時監控和控制。
這些服務包括預測建議,如遠程診斷、維修以及主動維護,而在很是規領域利潤也有增加,像保險(產品自己或其監控的環境,如做物或生產線)以及目前級別相對低一點的,根據設備使用狀況的數據提供貸款、租賃或採購。例如,遠程信息處理技術使得勞斯萊斯、通用電氣和普惠公司等製造商可以繞過傳統的融資、租賃流程和提供商,按飛行小時(並綁定主動維護服務)將飛機發動機租給航空公司。
意識到物聯網的市場機會,GAFA 也開始在這個領域積極投資。Google 的資本主要流入四個垂直領域,包括智能家居、可穿戴設備(如智能手錶)、汽車(聯網的汽車)和機器人。而在其中一個垂直領域,Google 就出資超過 30 億美圓收購了一家公司——智能溫控器製造商 Nest Labs 。新興一代的汽車、房屋和人壽保險產品,基於對行爲數據的實時監控、收集和分析,而智能家居、可穿戴設備和智能汽車市場則都是其基礎環節。
目前還不能肯定 Google 會經過這些領域直接進入保險市場,仍是簡單的經過豐富的新數據流獲利,包括在保險公司和消費者之間扮演中介的角色,正如其如今與 Nest 的保險合做夥伴之間的關係。
目前,蘋果也開始以中介模式來運做,例如與 Evrythng 合做進入房屋保險行業,後者是智能家居產品的 IoT 平臺製造商。此類辦法對亞馬遜彷佛也是可行的,其「Dash」按鈕從一觸即下達命令的設備演變成用於管理智能家居功能的控制器。
然而,保險公司並非只與 GAFA 及其合做夥伴或所收購公司合做。他們也直接與 Water Hero 和 Gem 等初創設備製造商進行合做。這兩家公司生產的設備可以持續監測家用水管和水流。
當檢測到異常時,它們會即時警報,而 Water Hero 還支持自動關閉水流。大約三分之一的家庭索賠與漏水有關,這種技術的吸引力對保險公司是顯而易見的。
不過問題仍然存在,誰將擁有客戶關係? 爲接近客戶,這場競賽正在進行,同時也對銀行業造成挑戰。迄今爲止,用到物聯網的銀行業務,大部分都要涉及使用智能手機技術進行認證和定位,以及內部或運營的用途如監控庫存和營業廳或分支機構,也是如此。然而,目前仍是在由 Fintech 公司引導大部分銀行開發以智能手機爲中心的 IoT 技術,以支持創新的面向客戶的移動銀行和支付交易體驗,這些正在去中介化但還沒有取代銀行。
若是銀行和保險公司想要保護自身免受物聯網帶來的去中介化或對核心服務的直接侵入,他們須要更好地利用物聯網技術來推進創新,而且須要適應在物聯網和非物聯網領域給予新競爭對手優點的工具:大數據和算法。
做爲互聯網時代誕生的純數字玩家,GAFA 和 Fintech 公司的經濟資本都是基於大數據應用經過智能算法獲取巨大優點。
對於 GAFA,他們收集了大量數據,並將算法應用於這些數據,以針對個體級別生成實時內容、服務、建議和廣告,這個近乎神奇的「單人市場」促進造成了當今強勢且苛刻的客戶。一個很好的例子就是,亞馬遜使用大數據挖掘和預測分析來提供個性化的購買建議。
Fintech 公司也作了一樣的工做,使用大量不符合 GAFA 的數據,但包括從 GAFA 和非 GAFA 大數據生產者(如政府機構和睦象服務)獲取的數據集。並且,像 GAFA 同樣,Fintech 公司經過創新性地使用大數據技術、數字/移動優先策略、基於算法的數據挖掘和預測分析,實現了引人注目的個性化體驗。
使用非傳統數據實現非凡結果
例如,處於融資環節的 Fintech 初創公司(以及 BATX 公司)正在使用算法和非傳統數據來源(例如社交媒體活動和手機使用狀況),來更加快速準確地評估身份、欺詐風險和信用價值,以及自動化承保和貸款發放流程。
除了可以更加便捷、更加經濟、更加準確地爲客戶提供服務,這種多樣化的大數據加上高級算法的方式也在幫助這些公司擴大市場。他們經過爲年輕或還沒有被開發的人羣提供服務來實現這一目的,這些人幾乎沒有信用記錄,而其人數總量全球估值在 25 億以上。
經過還沒有被開發的人羣提升市場份額
正如對 fintech 經過大數據和算法(「大數據和線上評分:Fintech 及其餘領域」)進行創新的描述,尋求貸款的人能夠安裝 InVenture 的移動應用程序,而後跟蹤他們如何使用手機,而該使用狀況會提供一個有效的新型風險評估方法。
例如,根據 InVenture 收集和分析的歷史數據,發送太多短信或常常性的電池電量低多是申請人信用有風險的一個跡象,而晚上打電話較多或使用賭博網站的人卻每每(使人驚訝地)更值得信賴。
經過機器學習得到突破性的效率
在第一步將基於紙張的申請流程數字化以後,機器學習組件也被開發出來用以自動化承保的工做流程。這些組件包括一個模糊邏輯規則引擎用於對承保人準則進行編碼、一種演進算法用於隨着準則和數據的發展優化引擎的性能,以及一種天然語言解析器用於限制承保人審查所需的自由文本量。該系統在 19% 的應用程序上實現了徹底自動化承保,並提供了預處理,能夠幫助承包人從人力審查中抽身出來將重點放在應用程序最可以獲益的地方。它還支持開發基於 Web 的客戶自助服務應用程序。
Genworth 成功地在其早期投入到基於算法的承保中,部分緣由是系統設計人員在一系列中間步驟中實施瞭解決方案,以便精算師和承保人能夠用新的方法構建必要的「溫馨度」。這是一個很好的榜樣。這對任何基於算法的自動化系統都是有幫助的,可爲專業人員提供他們須要的時間和工具,從而瞭解並得到對其工做原理以及決策方式的信心。無論如何,至少顯而易見的是,儘快擁抱對算法和大數據源的應用勢在必行。
除了改變,別無選擇
若是傳統的銀行和保險公司不可以快速採起行動,那麼他們將會面臨失去擴大市場的機會的風險,這是毋庸置疑的。更糟糕的是,這些風險,往小了說,會使其淪爲「金融服務新市場開拓者」的交易基礎設施,往大了說,將令他們遍體鱗傷而經受死亡的威脅,由於其盈利的業務線會逐漸被蠶食。
這些公司須要當即作出改變,Fintech 風險資本家 Mircea Mihaescu 在他的 BankNXT 中的一篇文章 「算法的新時代」中對此有力地進行了說明。在這篇文章中,他認爲,儘管銀行看待和使用數據的方式有所改變而且這一改變正在慢慢顯現,在 fintech 創新的核心環節他們依然須要在擁抱「新的算法實現的技術」時採起更快的行動。他指出,算法驅動的方法對傳統挑戰的優點彷佛是顯而易見的,可是不多有人使用它們:
「使用算法作貸款業務,優點顯而易見,並且沒有銀行在作,只有初創公司。對交易數據進行深刻學習,優點顯而易見,目前不多有銀行在作這些,可是不少初創公司都在作。從 IT 日誌中提取模型以檢測內部欺詐,優點顯而易見,而現在只有初創公司在作。將客戶實體與實體支付數據相關聯,優點顯而易見,而現在只有初創公司在作。對交易數據進行實時支出分析,優點顯而易見,而現在只有初創公司作得不錯。使用區塊鏈技術來完成「不須要可信任的第三方」的交易,優點顯而易見的,而現在只有初創公司在作。」
不管 Mihaescu 所言是否 100% 準確,毫無疑問的是傳統銀行和保險公司在開發大數據和算法方面已落後於 GAFA 和 Fintech 同行,但並不算太晚,若是可以縮小算法差距,他們將會開發出徹底獨特的資產,並配備強大的競爭戰略。
銀行和保險機構的獨特資產
傳統的銀行和保險公司在算法新時代中競爭,既有優點又有劣勢。缺點包括根深蒂固的遺留技術和業務流程,實體分支和營業廳的過分開銷,以及目前的不平等監管負擔。
此外,對 GAFA 而言,金融服務公司永遠不可能與技術巨頭的數十億用戶或客戶羣基礎和隨之產生的資源相抗衡,也不能達到其在人們的數字生活中無所不在程度(據估計,人們花費一半以上線上時間在使用 GAFA 提供的服務,而今天的智能手機,不管是 iOS 仍是 Android,更是沒法達到)。然而,傳統銀行和保險公司也具備獨特的競爭優點,即:
來自(大部分還沒有開發的)客戶數據中的價值信息。
做爲補充實體網點 ,以及人性化的數字通道,實現獨特的多渠道體驗。
消費者對於維護我的資料的信任程度更高。
擁有包含大量專家的人才庫,這些專傢俱有普遍領域的專業知識和高級數量技能。
優點 #1:客戶數據中還沒有開發的儲備
大量儲存的平常交易的客戶數據是此優點的隱藏價值,有了數據挖掘和預測分析的幫助,在更好地理解、預測和交付客戶須要的內容這方面,它能夠提供獨特的益處,同時幫助更好地解決風險、欺詐和市場不肯定性。
優點#2:普遍的分支機構/營業廳網絡
第二個優點,實體分支機構或營業廳網絡彷佛只是間接成本,但隨着金融服務日益數字化,它能夠在開發有意義的客戶關係中發揮相當重要的做用。正如線上巨頭所認識到的,僅數字化的關係有其侷限性:具備粘結性的客戶體驗須要創建在同時具有實體的和數字化的接觸點上。
若是傳統銀行和保險公司對其網絡實現最充分的利用以創建客戶關係,那麼傳統的銀行和保險公司就會體現出優點。例如,美國銀行和 M&T 銀行這些公司的區域經理正在目睹一場真正的演變,由於他們的實體分支正在轉變爲客戶的諮詢中心,其中 M&T 的一個區域經理注意到那些正在進行中的服務活動,其組成從 80% 交易和 20% 專家意見過渡到了 20% 的交易和 80% 的專家意見。
數字巨頭正在尋找實體鏈接
像亞馬遜和 Google 這樣的數字巨頭正在加入蘋果的行列,開始發展零售店,以培養與他們的產品、用戶和品牌的物理聯繫:
蘋果正在擴大其在中國、印度和拉丁美洲的時尚商店基礎,同時經過下一代設計來翻新美國的商店。
亞馬遜計劃將其在美國購物中心的快閃商店的基礎積極地擴大到 100 家,據報道預計會在將來 10 年內,在美國開設多達 2000 家亞馬遜新品牌雜貨店,而這要創建在進行中的 20 個試點成功的基礎上。
Google 正在試水實體商店,其在紐約開了一家新的快閃商店。
具備豐富線上銀行經驗的 ING 正在以咖啡館的模式補充其僅數字化的 ING Direct 服務,咖啡館像辦公室同樣提供服務,配有溫馨的沙發、價格適中的咖啡、免費無線網絡、免費會議室和其餘設施(但不提供傳統分支機構的服務,不然將會觸犯社區再投資法)。
優點 #3: 更堅固的客戶信任度
傳統金融服務公司現有的實體網點還能夠用來鞏固重要的第三大優點:信任。雖然最終的危機確實動搖了消費者的信心,但我的對傳統金融機構依然十分信任。根據 IBM 調查,70% 的受訪者表示,相對於非銀行競爭者,他們更信任傳統銀行。而當他們在另外一項調查中被問及就保護他們的我的信息和隱私一事更信任哪一個機構時,消費者的選擇中傳統金融機構比新的在線提供商排名更加靠前。
優點 #4:具有數量技能的人才和行業專家
傳統金融服務公司在人才方面具備更大的優點,他們擁有長期受聘的專家,這些專傢俱有高級數學和統計技能,爲其提供了一個由至關數量的熟悉行業的專家組成的員工隊伍,這些人可以接受培訓,從而面對 GAFA 和 fintech 的主戰場優點與其進行競爭:對大數據和算法的靈活應用,在數字化中創造出極致的客戶體驗,以及在愈來愈多的實體範圍。換句話說,銀行和保險公司在掌握數據科學方面處於有利地位。
適宜地利用 GAFA/FINTECH 的數據科學優點
數據科學是什麼?數據科學是一門須要協做的學科,它使算法時代成爲可能。具體來講,它是人員、數據、工具和流程的結合,GAFA 和 Fintech 用其將統計和數學技能、信息技術(特別是大數據技術)和行業主題專家轉化爲可行的看法和業務創新。
金融服務中的數據科學
具體來講,數據科學使這些公司可以利用數據挖掘和預測建模來提供個性化提議、下降風險、創造顛覆性的新產品、擴大市場、最大限度地減小運營費用、自動化傳統的手動流程等等。這些對傳統銀行和保險公司也將是很是有益的業務鞏固,而其中一些公司已經在使用數據科學來着手進行實現。讓咱們來看一下這方面的具體例子,而後咱們將詳細介紹企業如何在數據科學中得到最大的競爭能力。
挑戰
爲了實現對充足儲備的需求可以與具備競爭力的價格相平衡,保險費一般使用諸如駕駛員或車輛歷史這類歷史性數據以及與年齡和性別等因素相關的統計機率來肯定風險。
這是一個很是有效的策略,但它實際上是風險的一份靜態記錄,沒法在事先報告的事件基礎上將我的司機的行爲做爲因素來考量,在準確並持續評估我的風險並提供真正個性化的產品方面限制了保險公司的能力。
解決方案
IoT 技術(或遠程信息處理)如今可以經過這些行爲提供可見性
經過車載設備傳輸的大量實時的、保險相關數據,如關於位置、速度、加速度、制動等數據,也許在不久的未來還會包括 DUI 或交通法規遵照狀況。Allianz 正是一家利用了該新型可見性優點的傳統保險公司。Allianz 提供的汽車保險單容許經過綁定了裝有 GPS 的電子狗的移動應用進行數據跟蹤,用戶只須要簡單地將電子狗插入汽車的 USB 端口。公司使用數據開發創新的個性化訂價模式,如根據駕駛狀況付費(PHYD,pay-how-you-drive )和靈活的選項,如按英里付費計劃。
結果
Allianz 使用這些新數據流開發出新的 PHYD 策略,使其可以以較低的保費回報優質司機(28 歲及如下的車主佔據高達 40%),並更好地瞭解客戶,減小欺詐,鼓勵積極的駕駛行爲(減小事故和索賠)。此外,新數據使 Allianz 可以擴展服務,如道路救援、被竊車輛跟蹤和找回,以及緊急或事故救援,這些都是基於事故的實時檢測和響應服務實現的自動啓動。因爲這些創新,Allianz 2015 年總收入達到了 1252 億歐元新高,比 2014 年上漲 2.4%,2015 年營業利潤增加 3.2%,達到了 107 億歐元。
挑戰
像不少行業的不少公司同樣,美國銀行一直在努力尋找有效的方式來預防身後的風險,也就是說肯定那些可能投向競爭對手的客戶,並進行干預從而挽留他們。該公司求助於其數據科學團隊,以探索阻止這種狀況發生的新策略。
解決方案
數據科學家使用交易歷史,針對有抵押貸款的客戶和有轉移風險的持卡人開發新的行爲模型。而後,科學家們與同事一塊兒,開發基於這些模型的推薦系統,能夠在客戶下一次與銀行聯繫時挽留有風險的客戶,不管是經過線上、營業廳仍是呼叫中心。
結果
雖然該轉型的關鍵績效指標不具備普適性,但美國銀行依然對項目結果和其餘數據科學計劃感到很是滿意,包括在加強其風險管理能力方面對算法和大數據的應用,報告代表前者使他們減小了貸款默認計算時間約 95%。 所以,美國銀行經過統一的分析小組並以矩陣彙報關係對應多個業務功能和單元的方式,來擴展和增強其數據科學能力。
基於量子的解決方案如何改變銀行和保險業
—— 做者 John Kelly,QxBranch 首席分析師
數據科學與金融:一個有挑戰性的關係
數據科學正在完全改變銀行和金融機構。機器學習做爲分析數據的主要方法,它的出如今能力以及實施尖端解決方案所需的技能基礎和管理結構方面體現出了相對快速的提高。金融公司正在尋求外部幫助來識別和利用新的機會。
大部分數據的敏感性、監管要求、大量的高分辨率信息以及系統的關鍵性,使得該領域成爲最具挑戰性的領域之一。在 QxBranch,咱們的團隊自豪地提供了先進的解決方案,可以無縫地應對這種複雜性。
大數據如何幫助銀行更好地瞭解客戶
正如你所預期的那樣,金融行業在風險管理、交易和經濟分析方面受益於高級分析。高級分析還爲欺詐、惡意或其餘非法交易的監控行爲提供了極大的價值。與其餘行業同樣,應用於客戶的高級數據分析能夠經過產品(信用卡、家庭購買、投資等)展現詳細的洞察力,包括定義和分析銀行客戶、闡明行爲、瞭解他們的行程。這有助於銀行根據客戶的需求定製產品,提供更好的服務和優化客戶壽命值和保留期。
用機器學習瞭解風險
QxBranch 看到將高級數據分析應用於保險產品的巨大潛力,這是保險公司的主要活動領域。高級模型特別適用於動態演變的風險區域,即隨着時間的推移模型不必定按照相同的原則作出行爲,好比網絡保險。 咱們使用一個簡單的端到端分析框架 Dataiku 來開發一些最複雜的解決方案。
量子解決方案:下一個腳步
QxBranch 是開發量子計算軟件的領導者。量子計算機會在將來幾十年對經濟的各個領域進行革新,其中許多初期的應用程序都將基於機器學習。QxBranch 與金融行業(和其餘垂直行業)的領先公司合做,描述技術如何影響其業務和競爭格局。Dataiku 將無縫集成到量子軟件中。量子計算須要在預處理過的、清潔的數據上運行。對於這樣的計算,咱們採用 Dataiku 來攝取、清理和準備手頭的數據。以後,咱們輸入一個調用量子函數的自定義 python 模塊。計算過程在量子計算機上運行,而機率結果會被從新注入 Dataiku 進行分析和可視化。
注:QxBranch 是一家在全球運營的高級數據分析公司,在系統工程方面運用專業知識,爲投資銀行、對衝基金和保險公司針對聚焦數據的問題開發複雜、強大的解決方案。
挑戰
一個大型零售銀行集團認爲,其用來定位銷售和進行市場營銷活動的對現有客戶的細分仍有改善的餘地,但分析師彷佛已經使用銀行的 CRM 系統盡最大可能完善了客戶細分。
解決方案
該公司決定嘗試相似於美國銀行部署的策略來幫助解決其身後的風險:挖掘大型交易數據檔案,以開發新的客戶行爲模式。具體來講,保險公司將交易數據和 CRM 數據結合在一塊兒,並利用挖掘算法來顯現以前未檢測到的行爲與配置文件的相關性。
結果
鑑於這些相關性的結果,新的細分市場如今正在被營銷和銷售用於指導報價和促銷活動,轉化率提升了三倍。使人高興的是,該公司如今已經向他們的數據科學家指派了任務,分析網絡日誌和其餘在線行爲指標,從而優化數字和全方位的客戶體驗。
挑戰
一家較大的保險公司認爲確認重大事件(如嬰兒出生、結婚或離婚、購車、出售房屋等)什麼時候發生具備很大的挑戰性,若是可以確認,就能及時根據這些事件爲客戶和潛在客戶提供合適的產品。
解決方案
該公司的數據科學團隊結合了 CRM 數據、合同數據、博客和社交媒體數據,並對綜合數據進行了分析,以開發出可以預測這些事件什麼時候發生或將要發生的預測模型,並將消息傳送給銷售和營銷部門。
結果
該項目根據生活事件提升了對客戶的檢測和定位能力,從而實現了能夠實時自動觸發的以事件爲主題的新活動的開發。該公司正在擴大其數據科學項目,包括根據我的客戶行爲檢測欺詐性索賠和開發新的個性化產品和服務。
挑戰
一家補充保險的大型提供商但願找到更有效的方式,來檢測潛在的針對眼科護理的欺詐性索賠,據他們估計這類索賠使他們每一年花費 15 萬歐元。他們只有足夠的資源對被認定是潛在欺詐索賠的 10% 進行跟蹤,因此他們想找到一種方法來確保最高可能的機率,即建議作調查的索賠確實是那些看起來最具欺詐性質的。
解決方案
保險公司的數據科學團隊將處方、患者和護理人員的內部數據結合在一塊兒,並針對此綜合數據測試了大量欺詐檢測算法。在找到一個證實可靠的模型後,他們基於該模型創建了一個實時 API,以便根據索賠具備的可能的合法性指導索賠管理系統內的索賠自動決策。
結果
該公司報告說,識別潛在欺詐行爲的新系統已被證實在欺詐檢測方面比傳統方式有效三倍,而且經過實時數據流持續對模型進行改進,他們預期會有更好的表現。
銀行和保險數據項目中待解決的 3 個挑戰
—— 做者 Julien Cabot,BlueDME 公司 CEO
自 2011 年以來,我有機會參加了 Data Lab 在銀行和保險行業的一些項目。這些年的經驗告訴我,爲了取得成功,必需先解決三個重大挑戰,而對一個 Data Lab 項目的簡單準備能夠先放一邊。
訪問和資格認證是成功的關鍵因素,由於沒有數據,全部的辦法都起不到做用,不管這種方法多麼巧妙。此外,項目中 60% 到 70% 的努力與數據的資格和準備相關,而必要的任務卻沒有增長什麼價值。鑑於數據科學家的小時成本,有效性和生產力在收集、研究和準備數據的過程當中是相當重要的。任何有助於加速這一階段的工具和方法,很快都會被證實是值得的。
將數據科學工做的結果加入到操做流程中的能力,不管對於預先計算的指標仍是對於實時可用的預測模型,都是相當重要的。實際上,分析研究致使數據和「數學對象」以預測模型的方式發生新的轉變,操做信息系統仍然可以對其進行集成。然而,每每要看研究產出的真實價值。
衡量數據科學項目的投資回報率很重要。因爲項目的探索性質,對每一個項目的單位投資回報的確切估算是特別複雜的。採用普遍項目的方法,可使產生重要投資回報率的項目可以爲僅得到相對有限結果的實驗提供資金,就像私募股權投資策略同樣。
IDEA 1:爲專業團隊準備一個數據搜索引擎
專門針對精算師專業團隊準備一個數據搜索引擎,對於負責統計研究的人員以及與 Data Lake 和 Data Lab 合做的風險團隊會從中受益。它有助於實現內部和外部數據目錄、以可以適應不一樣任務的方式對這些數據的探索、以及在銀行保險領域對最有用數據的共享。Blue DME 的數據交換平臺的基本概念是一種協做方法的發展,由 Data Lab 豐富了功能,目的是在兩個專業領域之間應用 Data Lake 數據。
IDEA 2:經過 WEB 服務重新生代的預測模型中進行展現
得益於 Dataiku DSS v3 等數據科學領域的現代解決方案,經過 Web 服務進行展現的效率和效果正在提高。這些展現來自預測模型的新產物,如隨機森林、漸變加強,等等。手動配置邏輯迴歸的日子即將結束。對二進制預測模型的直接展現提高了這些先進模型的性能,同時最重要的一點是使其獲得了簡化。
IDEA 3:成功的內部和外部貨幣化的邏輯
ROI 的計算由預測模型提供的結果生成,其受限於內部優化,而預測模型則與以前的環境相關。基於數據開發新服務的想法正在變得愈來愈重要,從而使新的高利潤收入成爲可能。
注:在銀行和保險行業,Data Lab 項目一般是一個更大的進程的第一步,它將組織轉變爲「數據驅動型業務」模式,遠遠超過客戶意識或風險。
正如所看到的
儘管 Mircea Mihaescu 是對的,在對大數據和算法的利用上,傳統銀行和保險公司落後於對手 GAFA 和 Fintech,不過有不少領導者已經開始採起相應的措施來消除算法差距,他們經常經過利用他們最有價值的資產之一來實現,即他們深度的客戶數據歷史檔案。
他們也在充分利用其專業基礎以及行業專家,前者須要良好的數學和統計知識,然後者可以相對容易地使用大數據工具和技術進行高級分析,他們是像 Prudential 的副總裁兼精算師 Christine Hofbeck 這樣的人,Christine Hofbeck 將她的精算技巧引入預測分析。正如她所說,只須要一點點努力,而機遇倒是廣闊的:「價格優化。壽命值和保留模型。價格彈性。風險選擇優化。預測承保。註冊優化。目標營銷。瞭解投保人行爲的驅動因素。購買傾向。失效和流失分析。綁定的可能性。瞭解基於客戶行爲的市場變化。市場細分。中介細分。尋找人羣中隱藏的需求,開發盈利產品...我能夠繼續列舉,機會是無止境的。「
踏上正確的道路,充分把握這些機會,只需將人、數據、工具和流程放到一塊兒造成的正確組合。
理想的數據科學家應該擁有先進的數學或統計知識、堅實的計算機編程技能、大數據處理及存儲工具和技術的知識,以及他們工做領域的專業知識。
擁有這種多樣化技能、知識和經驗的專業人士數量很少,遠低於市場需求。 正如麥肯錫公司所預測的那樣,到 2018 年,只美國就會有 490,000 名數據科學家需求,而候選人卻少於 200,000 人。雖然許多大學已經經過新的數據科學計劃來增強填補這一空白,但長期性的短缺仍是會持續一段時間。
這種短缺致使一些公司採起幫助現有人才的策略,如 Christine Hofbeck,以此來發展數據科學能力。例如,思科系統與兩所大學合做,在數據科學領域創建遠程學習教育和認證計劃,目前已有超過 200 名員工接受過數據科學家培訓和認證。
除了簡單地幫助知足對數據科學人才的需求外,這種內部方法還提供了額外的好處,即爲即將參加工做的數據科學家配備了必要的企業知識和學科專業知識。幸運的是,正如思科的例子所示,如今有不少資源能夠幫助企業經過內部策略得到成功。包括:
經過大學提供的大量線上的、業餘時間的和按需的數據科學培訓課程。
由專業服務公司和軟件提供商提供現場培訓。
數據科學啓動訓練營。
專業協會的發展項目,如事故精算學會最近在數據科學和預測分析方面爲精算師增長了認證。
識別候選人
如前所述,大多數銀行和保險公司已經具有擁有數學和統計學專業知識的分析師和科學家,包括許多碩士或博士人員。這些專業人士包括精算師、索賠分析師、風險分析師、保險商、經濟學家、股票分析師、市場分析師和許多其餘能夠輕鬆利用數學和統計知識、定量技能來理解和操做新類型機器學習算法的分析師,這些人可以相對輕鬆地使用 Python 或 R 語言擴展其現有的編程技能(VBA、 SQL、SAS/JMP 等),這能夠幫助他們執行這些算法。
創建在覈心數學和統計技能上
例如,對於信用評分中的廣義線性建模(GLM)、使用機器學習算法來加強 GLM 結果、甚至使用 R 和支持向量機器或神經網絡算法做爲替代方法而言,用 Excel 和 VBA 的差異不大,儘管人員之間的差異相對較大,如運行封裝算法卻不真正理解其內涵的人與能夠在一個算法中解密數學和統計運算並根據須要對其進行優化或調整的人,他們深厚的行業經驗背景也有較大差異。
開發大數據須要的 IT 技能
除了這些核心定量技能外,大多數銀行和保險分析師都對信息系統有所瞭解,並常常從各類來源獲取和準備數據,儘管他們可能不熟悉大數據管理技術。但須要再次強調的是,他們能夠學習,並且幸運的是,大數據技術已經成熟到具備通用信息系統技能的人都可以將其掌握。具體來講,與第一代大數據技術相比,目前大多數大型數據系統都具備可以使鏈接、轉換、查詢和可視化數據更加簡單接口和工具。
儘管獲取這些新的或擴展的技能也許相對容易,參與者應該對終身學習有一個天然的傾向,由於若是數據科學有一個常量,那麼它會是不斷變化的,正如它的發展速度所證實的那樣,持續演進的大數據管理技術、編程語言和算法策略都融入到了數據科學。
對於迎接這一挑戰並致力於這一學科的專業人士而言,回報有不少,包括專業地區分本身的能力、吸引高額薪酬、推進職業發展。還能夠減輕其與手工過程和計算相關的大量工做,釋放他們去培養更多的好奇心、創造力和判斷力。
儘管銀行和保險公司在其擁有的歷史客戶數據方面,較行業新進入者具備潛在的優點,他們仍須要適當的工具來從數據中收集可行的看法,並可以利用外部數據對其進行豐富。正如 Fintech 公司所代表的那樣,來自社交媒體和多媒體、智能手機、電腦、IoT 等消費和工業設備的數字化的「數據排放」,可供銀行和保險公司使用,而且在某些狀況下已經被用做行爲洞察的豐富來源。
超越常規來源
例如,若是你正在開發用於家庭保險索賠的欺詐分析工具,則可能須要集成索賠管理系統的內部數據、文檔管理系統和帶有外部數據(如天氣、信用和財務信息)的第三方聲明,以驗證索賠人的身份和可靠性以及在特定時間發生特定事件的可能性(同時,也是在爲使用智能家居系統的遠程信息數據和區塊鏈認證交易數據來解決大部分當前的索賠歧義作準備)。
得到開放數據的優點
儘管一些有用的外部數據的現有來源其獲取代價昂貴,可是之前大量不可用的外部數據如今可用做公開的公共部門數據使用。
例如,美英兩國政府和歐盟最近推出了「開放數據」門戶網站,以使大量的政府統計數據可以被利用,包括健康、教育、工人安全和能源數據。從普遍的來源對第三方數據進行更好地訪問、內部獨一無二的歷史數據、適當的人才,使得保險公司和銀行家可以穩健地得到和 GAFA 同樣的優點,這些優點體如今基於事件的背景提出新的問題(這些問題有關客戶以及更深刻地瞭解他們的需求、要求和習慣)並利用這些洞察力爲特定的客戶羣體甚至單獨的「單人市場」更好地打造體驗和產品。
然而,確保所使用的數據及其使用方式是合法和道德的,而且其質量足以產生可靠的分析結果是很是重要的。對於諸如此類的問題,必須有正確的技術和流程。
如今,你有了合適的數據源和合適的人員,而接下來重要的是讓你的數據科學團隊配備合適的工具和流程從而獲取成功。爲實現此目的並最大限度地提升數據科學投資的回報,有如下四個重要步驟:
加速和確保基本工做流程。
採用平臺方法,並進行明智地選擇。
創建良好的分管理措施。
站在數據科學產品和 KPI 的角度思考。
要取得成功,數據科學家的三個基本工做流程須要是精簡的、自動化的和靈活的。數據科學家應該可以輕鬆地從任何數據源鏈接和準備數據,從而使用喜歡的語言並應用最適合其需求的算法類型執行建模和預測,以及輕鬆生成可供不一樣的內部和外部系統所用的可行的結果。
數據準備和豐富
數據收集和準備階段是勞動力最密集的階段,平均消耗一名數據科學家 60-80% 的時間。所以,選擇一個工具能夠實現自動化或者至少加快與數據準備相關聯的提取、轉換和加載(ETL)工做流是相當重要的。
工具應具有如下功能:
非遠程的、基於嚮導的鏈接器,可用於各類數據源。
可視化處理器,用於代碼自由的數據審查和清潔。
可以像 Excel 同樣輕鬆地過濾和搜索數據。
可以輕鬆執行大規模轉換,包括用於常規轉換的內置處理器和用於定製處理的宏。
隨着數據的發展,輕鬆適應變化的能力。
最後一項功能是相當重要的,由於高級分析世界中的數據永遠不會是靜態的,而不能解決這種變化的技術和方法將一直無濟於事。
建模與預測在數據準備階段,開放性、自動化和靈活性對於支持建模和預測階段的工做流程相當重要。所以,一個有效的工具須要提供如下功能:
逐步的可視化的指導,以加快模型建設。
對普通機器學習庫的本地支持,具備專門的 API 訪問權限。
能夠直接使用 Python 和 R 等通用語言編寫代碼。
評估性能、比較結果和優化模型的視覺反饋。
白盒透明度及報告,以幫助分析師瞭解各類互動以及選擇帶來的影響。
執行和部署因爲數據科學的最終目標是產生可操做的可用結果,因此最後一個工做流程階段應該:
自動化產品生產流程,包括數據可視化和可以使用的基於標準的 API。
可讓數據科學家將整個工做流程(包括數據和模型)打包成單個可部署和可複製的包。
在捕獲的工做流程中支持版本控制和回滾。
要想可以回滾到之前的版本,或者容易地生成可部署和可重複的包,而在從數據收集到建模再到生產的全部項目階段卻不使用一個單一的數據科學平臺,這幾乎是不可能實現的。
最大化效率
採用單一平臺而不是使用專門的工具,除了回滾和部署外,還有許多其餘好處。一個重要的好處是消除時間浪費,包括在各類數據源、系統和工具之間切換所花費的時間,以及科學家在項目之間切換時(這很常見)遇上以前工做的速度所損失的時間。
支持協做
平臺策略還使團隊可以協同工做,例如數據工程師收集和準備數據、分析師運行模型、或者初級數據科學家一邊工做一邊向更有經驗的同事學習。這是必不可少的,由於數據科學團隊一般是多樣化的,每一個成員都有獨特的優點和劣勢。
知識獲取
平臺戰略還提供了一種「生命週期」方法,使得可以構建一個可行的與知識產權資產有關的基礎知識庫,相似於產品生命週期管理(PLM,Product Lifecycle Management)平臺在製造過程當中發展的方式,以免從設計理念到製造到最終商品處置的過程因爲捕獲、存儲、從新使用知識而重複造輪子。
開放是關鍵
然而,除非平臺是開發的,不然這個方法將最終證實在快速發展的數據科學世界中會受到限制。開放性及不肯定的供應商和技術意味着,儘管基礎的數據源、編程語言、大數據存儲和管理技術以及算法不可避免地會發生變化,爲數據科學家提供的用於收集、分析和可視化數據的框架將保持不變。
平臺方法的另外一個優勢是,它更容易實現強大的「分析管理」。在 PLM 中,好的管理對於確保結果的有效性和建立「安全數據空間」相當重要,其中隱私、保密性和安全性獲得嚴格保護。數據科學的管理對於生產高品質、可複製的分析項目很重要,而這也是許多行業所面臨的困難。
然而,銀行和保險公司在制定組織結構、管理框架和規則方面擁有長期和嚴密的經驗,能夠爲他們在擴大和維持其數據科學計劃帶來的初始競爭優點方面帶來好處。然而,不管採起怎樣的具體技術框架或管理策略,銀行和保險公司都應該致力於創建本身的內部數據分析能力、資產和知識產權,而不依靠第三方提供商,儘管最初的工具、流程、人員轉型數據能夠由合做夥伴進行協調和啓用。這些合做夥伴能夠協助奠基數據訪問、協做和知識資產化的基礎,並協助部署所需的工具和基礎設施,以確保可持續的數據科學能力。
最後,企業須要努力設計項目,尋求解決明確的業務問題,即便有些資源被用於純粹的數據挖掘。這能夠幫助避免數據科學計劃中的主要缺陷之一:在太多的實驗項目中陷入困境,探索性的建模永遠不會引入到可用的數據科學「產品」的生產中。
最後,預測和處方僅在可以使用(例如,經過 API 集成到外部應用程序,如客戶自助服務 Web 應用程序、移動應用程序或內部執行決策系統)或至少可以以可視化形式呈現從而指導利益相關者的決策時,纔是有用的。
由於須要確保算法驅動創新的變革力量可以被最大化地利用,因此進一步肯定和跟蹤 KPI,從而評估業務用量和數據科學項目的價值以及產品,是確保數據科學項目有效落地以及調整方向的最終的寶貴手段。
在配備合適的人員、流程和工具後,傳統銀行和保險公司不只能夠避免成爲挑戰者 GAFA 和 Fintech 的後臺基礎設施的命運,還能夠佔用這些後來者的優點,將其併入自身,從而成爲 21 世紀新市場的創新者。
銀行和保險公司有他們所須要的人員。它們具備獨特的數據資產和獨特的物理存在。他們在組織、管理和信任方面都有優點。接下來就是要清楚地認識咱們所處的大數據和分析時代,經過掌握數據科學,抓住機遇,在新的時代蓬勃發展。
若是業界資深人士這樣作,他們既能夠蓬勃發展,也能夠塑造銀行和保險的將來,將來可能會如何?
咱們在一個溫馨的銀行咖啡館裏品嚐一杯拿鐵,同時享受着裝備有人工智能的人類和機器人代理爲咱們提出有先見之明的建議,這樣的事會發生嗎?
生物識別認證是否會成爲規範,手指觸摸或用眼睛一瞥會使錢包、點擊和卡片過期嗎?
咱們會在一個安全的全球區塊鏈網絡上交換虛擬貨幣、付款和保險單嗎?
同行、代理商、客戶、經紀人、銀行家、保險商等之間的關係是否會在一個互相鏈接的世界中消失?
很難說,但這會是一個銀行和保險行業有利於幫助描繪的將來。