7 月 22 - 23 日,在中國科學技術協會、中國科學院的指導下,由中國人工智能學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的 2017 中國人工智能大會(CCAI 2017)在杭州國際會議中心盛大召開。算法
在本次大會上,螞蟻金服副總裁兼首席數據科學家漆遠博士發表了主題爲《金融智能的發展與應用》的演講。漆遠表示,螞蟻金服今年的兩個關鍵詞,一個是「開放」,一個是「AI」。數據庫
在這次演講中,漆遠從風控系統、智能助理、定損寶等產品案例出發,全面介紹了螞蟻金服產品背後的 AI 技術。安全
現場,螞蟻金服的「模型服務平臺」首次公開亮相,主打「模型所見即所得」。漆遠表示,數據是資產,模型自己也是資產。將來,螞蟻金服也會將這個平臺做爲其中一個AI能力向合做夥伴和客戶開放。服務器
如下爲漆遠博士演講實錄:網絡
今天很高興給你們做一個分享,介紹一下AI在螞蟻金服的發展和應用。app
首先我會講一講爲何咱們要作AI,爲何呢?由於AI離不開場景和數據,爲何要場景,由於咱們要解決真正的問題,產生真正有意義的服務。在金融裏面咱們有大量的服務,從支付、保險、財富、到風控、微貸等各個領域,其中典型的場景就例如要判斷某個小企業是否具有相應的信用可以承受貸款的風險。框架
在全部的場景裏面產生了海量的數據,而這些數據成爲了人工智能的燃料,使得咱們能夠發展和應用一系列的人工智能技術。而這些場景、問題自己又爲人工智能帶來了挑戰,好比說時間敏感要求一筆交易須要毫秒級完成判斷。再如海量數據,一天幾億筆的數據,這就須要很是大規模的穩定的風控的系統。還有業務多樣性,好比說怎麼用遷移學習來發現不一樣任務之間的共性。再好比說系統性風險, 系統能夠用一個網絡來表達,那你怎樣從網絡的角度分析問題。還有強數據安全和用戶隱私保護也是金融業務自己的屬性。機器學習
面對這些挑戰咱們構建了一個金融智能的平臺,從底層的圖像理解,以及使用阿里巴巴集團的語音識別能力,在此之上發展了NLP的能力,而後這上面進行機器學習、深度學習,分析時間序列,好比說預測餘額寶的利率變化;在最頂層,咱們發展推理和決策的能力,使咱們可以幫助咱們的用戶和金融合做夥伴作出明智的決策。工具
在這個金融智能平臺中包括了一系列的人工智能技術,好比說強化學習、無監督學習、圖推理、共享學習。這些技術具有金融領域的實時對抗性、大規模以及安全加密性。學習
今天講幾個例子,從例子出發講講背後的技術。在這以前,我先講講螞蟻金服如今的兩個關鍵詞。螞蟻金服咱們定位爲Techfin,而科技公司的一個核心的是什麼?是AI。因此今年螞蟻金服兩個關鍵詞,一個是「開放」,一個是「AI」,咱們但願經過AI驅動全部的業務,同時做爲科技公司,咱們技術成熟一個開放一個,因此下面探討的技術也是探討如何開放給夥伴。
首先是在安全風控中,裏面有用戶、設備、商家,他們之間經過資金流動造成互聯。傳統的風控技術中咱們創建了不少的規則和模型。螞蟻金服過去十年經過使用大量的機器學習創建強大的風控系統。可是今天咱們但願進一步地升級風控系統。好比說可信模型,咱們想判斷有一筆交易是否存在帳號被盜。而這裏面咱們使用了一個跨界的技術,其實就廣告CTR預估的技術。 在2014年Facebook廣告算法的文章中, 講的是GBDT+邏輯迴歸。使用咱們開發的參數服務器技術,咱們把邏輯迴歸換成了大規模深度學習,使用到風控裏面: 經過GBDT產生特徵,而後DNN繼續學習。 由於在風控裏面不少特徵咱們沒法判斷哪些有用哪些沒有用,咱們用GBDT產生海量特徵而後把這些特徵feed給深度學習模型。
前面是說咱們把GBDT和DNN結合起來考慮風控。深度學習往下走,咱們也考慮關係,用戶、商家、賣家等的關係,下面我舉一個例子,咱們經過embedding技術,把整個關係結合起來,造成圖形網絡,而後進行監督學習、增強學習。
給你們看看例子,好比說支付寶帳號的帳戶(行爲),咱們一個網絡有好人、壞人,有設備好比說手機、計算機,iPad等,我判斷今天這我的是否註冊一個垃圾帳號特別簡單。咱們能夠把整個的圖關係經過一個embedding的技術產生一個深度學習的網絡,經過機器學習產生一個隱層表達,這個表達不光涵蓋了每一個節點自身複雜的特徵,同時還對網絡結構作了一個encoding。在垃圾帳號的識別上,在經典的Recall-Precision曲線中,Precision越高越好,接近1就是完美。原來的規則是不具可採信的,如今咱們對圖使用embedding技術後有一個質的飛躍,Recall在70%、80%的時候,Precision達到90%,而原來的算法Precision在40%幾,這基本至關於瞎猜。這個和之前的系統相比,Node2Vec也是很是先進了,咱們在此基礎上又作出了明顯的提高。
將圖的關係和Feature結合起來,能夠產生很是Power的模型,用在咱們的模型裏面。經過廣告的算法提高了系統,咱們進一步學習,將深度學習和圖模型結合起來,能夠融合網絡關係與複雜特徵。
下面講講另一個方向,在過去的不少年,無論是中國仍是美國,講起智能助理和機器人都是很是熱的話題。這裏對話很關鍵,在螞蟻金服初始的對話從客服機器人開始,若是你使用支付寶,打開客服小螞答能夠問各類各樣的問題,例如你問餘額寶收益怎麼算,他就給你一個這樣一個答覆,提供工具輸入金額並計算。而後還有財富的理財渠道,你問某個企業業績怎樣就會開始進行輿情分析,輿情分析在金融裏面很是多的應用,咱們能夠自動分析,海量的輿情在中國國內,爲月新聞、周新聞相應地打出輿情分。
下面講兩個技術,在對話機器人裏面,在客服裏面,假如問了這句話我怎樣申請退錢回來,它是沒有場景的。在問答系統中要理解它,就要真正知道在問什麼,咱們能夠根據用戶的近期操做,這些操做自己就提供了一個背景和場景。咱們經過LSTM對用戶行爲軌跡作一個編碼,而後整個模型是一個深度排序模型,比較哪一個更類似,經過LSTM創建模型,把怎樣申請退錢回來的用戶問題,和轉帳轉錯怎麼辦和爲何銀行卡轉帳被退回來,這兩個進行答案匹配。咱們給出正確的選擇轉帳到帳戶錯了怎麼辦。這裏有一系列的創新。這些創新今天不一一講。最後的結果,去年雙十一智能客服自助率作到97%。同時今年咱們問題解決率超過了人工客服,機器人回答問題比人回答更爲滿意。
這裏對輿情分析背後技術簡單介紹,首先一個特別簡單的模型,就是統計這些感情單元,同時又和深度學習的方法結合,最後產生總體的判斷,這裏面的話使用CNN,k-max pooling能夠結合起來,還有TNN,將全部的信息結合起來進行一個綜合的評價。
剛纔兩個例子講到對話機器人,第一個是客服,第二個是財富號的輿情分析。再就是保險,同時支付寶自己也在進行升級,您對支付寶能夠說話,好比說我要給個人同事經過語音進行轉帳,自動完成轉帳並記錄到帳單裏面。
下面第三個講機器學習平臺,這是咱們團隊在阿里第一年開始作的工做,後來在螞蟻繼續和阿里集團合做開發。如今它是阿里和螞蟻金服使用最普遍的大規模機器學習平臺。2015年咱們用於廣告取得很是好的效果,後來用於淘寶推薦,前年用到雙11推薦,今年又用到了螞蟻的風控裏面,其實它的核心技術就是咱們可以經過系統和算法的結合,處理海量數據。因此在風控系統裏面,咱們能夠在一樣安全覆蓋的狀況下,提高召回率,天天一千多萬筆能夠準確輕鬆地經過審查。這個平臺前年作到了,可是今年才寫文章出來。它能支持100億特徵、千億樣本、萬億參數。這是說它能夠支持很是多的數據和特徵,咱們能從數據中提取價值作出預測。
假設很是多的數據,萬億參數很是耗能耗的,同時須要不少的機器。不少時間的applications,咱們但願速度比較快比較省能源。在很是很是經典的矩陣分解中,相信不少作相關研究和作開發的同窗都很是瞭解,若是咱們把矩陣分解和哈希算法作結合,咱們能夠處理很是大的矩陣,好比說1億×1千萬的矩陣分解,咱們2小時收斂,從工業界的角度具備很是大的價值。咱們用到了口碑的場景中,點擊率的升幅超過120%。
剛纔介紹的是機器學習,就是參數服務器,支持深度學習。下面再講一個技術,咱們的場景是營銷,好比說各類各樣的商家營銷,怎樣發,發給誰,這是很是有價值的商業問題。這裏面咱們開發了增強學習技術。在這個算法中,咱們有State、Action和Reward的狀態,咱們定義了一個空間,State是從多個業務抽取特徵,刻畫用戶狀態,Action是對哪些卡片和渠道作了相關決策組合,Reward就是用戶的點擊和簽約行爲。整個框架是流式強化學習框架,因此可以實時實現Update。這上面講了一個流程,好比說花唄准入,好比說它是否點入和簽約,整個算法能夠在框架上迭代,效果就是在深度學習基礎上有更好的效果提高,好比推薦卡片點擊率171%的增加和最終簽約率149%的增加。
剛纔講了增強學習,講了深度學習,下面講另一個例子。若是每一個技術都做爲一個好用的工具開放出來,您只想用這個工具而不太深刻技術自己怎麼辦?咱們開發了一個模型服務平臺,將整個模型訓練給您可視化,您經過簡單的點擊、拖拽數據就能產生全部的結果。好比說您是開發應用的,您能夠把算法在裏面應用之後進行一鍵部署。固然若是您是開發算法的也能夠寫出新的算法,例如增強學習等,能夠經過統一的平臺進行服務。在螞蟻金服內部,從芝麻信用到網商銀行的借貸,到風控都正在全面地使用咱們的平臺。
咱們今天講到了開放與AI,這裏講到螞蟻金融雲和開放平臺,但願咱們的AI技術的能力開放服務於咱們的客戶和合做夥伴。
這個模型服務平臺簡單來講咱們就是模型所見即所得,不光數據是資產,模型自己也是資產。作到可視化的,對於用戶來說,提供給開發人員很是方便的建模方式,很是容易使用,不須要知道某一行公式怎樣推導的,而後能夠支持A/B測試,能夠全流程地效果監控,同時跨團隊地合做,而且能夠實現多人同時開發。
接下來簡單展現訓練模型時的一個視頻。這是顯示的分類結果,這是得出來的樹狀模型,而後能夠進行效果評估,這裏能夠比較兩個算法哪個更好,拆分之後隨便選兩個算法自動評估,而後能夠進行結果對比。咱們之前在學校訓練完模型,而後手工測試幾個測試集就結束了,而在實際業界應用裏一直有新的數據跑,新的預測,必須簡潔好用。在咱們說話的時候,這就產生了一個部署的API,你們若是有問題還能夠看一個請求示例,示範如何使用這個API。部署完了之後咱們要知道效果好很差,是否是一直穩定,好比咱們要監控信用分,KS值,它是AUC的變種。咱們能夠看到它對每一天當時的效果實時進行監控。
剛纔講了總體的從模型訓練到數據特徵的產生,您能夠從各類模塊,到訓練到部署產生API,到最後效果的監控,全流程地展現。
那下面最後講一個例子,前幾周咱們保險事業部和咱們發佈了一個產品叫「定損寶」,作什麼呢?出了一個小車禍,照張像,哪裏有問題,是撞了一個洞仍是刮蹭進行判斷,這是很是複雜的事。咱們不是作 OCR識別,也不是作數字識別,可是咱們要作檢測,咱們要檢測哪一個部件好比說車門、車燈仍是bumper,咱們要理解這個場景,好比說有一個縫,自己計算機不知道是車上的縫仍是牆上的縫,還必須知道這個問題多麼嚴重,最後是一個決策,將多個數據源結合起來,給用戶和定損員一個輔助判斷 。
看這張圖像,您以爲車哪裏有問題,我當時看了好久也沒看出來,不知道你們怎樣? 這裏面有什麼問題呢?如這裏所示,有個特別微小的變形。可是這裏咱們要解決幾個問題,第一個是問題在哪裏,第二個你要把問題分幾層,到底有多嚴重的問題,好比說這是輕度變形。有的變形了你得把整個部件換掉,有的稍微一修就修好了,最後告訴您修多少錢,在您的App裏面把北京你所在位置附近的維修店所有選出來告訴您成本,您作一個決策是否要修。 下面舉幾個咱們遇到的計算機視覺上的挑戰。好比部件識別,這裏面有多少個部件呢?我不是很專業,不算汽車愛好者,可是能夠看出來這裏有不少不少部件。全部的部件要找到,而且說有問題你都要看出來。再舉個例子,左邊一個強反光,強反光是否是有問題呢?咱們要琢磨琢磨。還有,照相的時候人臉都對着框子裏照,拍車照片的角度變化大不少 。
這個項目的開始和拿到初步的結果是算法團隊和業務同窗通力合做的結果。算法同窗積極學習業務,從開始看不出來圖像裏車的問題,到如今都快成了專業的圖像定損員了。咱們的技術有一系列的流程,從噪音去除到類別識別到目標檢測和程度判斷,到底多嚴重,是變形仍是刮蹭。根據不少張圖片,最後咱們要作預測結果的綜合,綜合之後咱們作數據決策輔助,這要打通車的原件數據庫來分析,假如這個部件壞了多少錢。全國有4500萬案件/年, 60%的案件都是純外觀損傷的,它覆蓋了很是大的比例。每一個成本平均150塊錢, 能夠減小50%的做業量。
今天我介紹了一系列的技術,之前我當老師寫NSF proposals,都有兩個目標要寫,一個是intellectual merits 就是技術的原創性,另一個是broad impact,就是對世界的影響。通常第一個目標咱們都拼命寫,第二段都是那種來回貼的那種,爲何?由於當時在學校的研究裏工業界有距離,缺少直接的對世界產生影響的辦法。今天我以爲學校能夠和工業界合做,工業界有更多的數據,更大的問題更難的挑戰,不只應用技術還能夠發展技術,今天介紹的只是一部分的技術,咱們還有沒有發佈的技術。
總結一下,今天講了深度學習和圖的結合,它主要是系統性風險的監測與預測; 智能助理,咱們達到了超越人滿意度的智能客服。今天智能助理完成任務基於一系列的場景,由於支付寶咱們是一系列的金融生活服務平臺,今天就加上智能的定語叫智能的一系列的金融生活服務平臺; 今天也介紹了基於哈希的海量特徵提取,徹底是從工業的角度,但願算得快、便宜和省內存;另外是深度強化學習,在營銷與推薦應用。在營銷比較關鍵,若是隻是深度學習那麼老是給你想要的,可是增強學習您能夠探索一個在exploitation 和exploration的平衡:給你之前推薦你看過的相似的,也能夠給你沒有看到的。
下面說些咱們和其餘公司可能都面臨的挑戰,咱們雖然有不少的數據,可是比起咱們的業務問題複雜度仍是不夠,小數據、弱標註的數據的學習就很重要。另外,好比說怎樣處理有噪音與不肯定性的推理,專家系統是從邏輯推出來的,可是它不能handle真實世界裏的噪音和異常狀況,今天講的Graph Emedding是一條路,但不是僅這一條還有其餘的方向。 而後機器學習裏面還有一個很重要的問題是模型的可解釋性,你要知道爲何,那在金融場景有很是多的應用,爲何信用分變低了你要給一個交代,就是解釋,今天的深度學習缺少解釋性。還有如何從觀測的而不是隨機對比的數據中分析因果分析。還有長期目標與短時間目標映射,怎樣把長期的目標和短時間作的目標結合起來。最後,非線性動態網絡系統,網絡自己在改變 這裏和物理學一些概念很相關,同時和圖理論很是相關,這對風險、監控和交易都會頗有用。
最後,再次說,螞蟻是一家作普惠金融的科技公司。咱們主題的是開放與AI, 技術成熟一個開放一個。從客服到模型部署平臺到其餘的每個案例,包括輿情平臺,咱們都很是願意賦能和服務客戶,和咱們的合做夥伴、與咱們的客戶共同探討和創造將來。