隱私與AI兼得,螞蟻金服是如何作到的?


螞蟻金服在過去十五年重塑支付改變生活,爲全球超過十二億人提供服務,這些背後離不開技術的支撐。在 2019 杭州雲棲大會上,螞蟻金服將十五年來的技術沉澱,以及面向將來的金融技術創新和參會者分享。咱們將其中的優秀演講整理成文並將陸續發佈在「 螞蟻金服科技」公衆號上,本文爲其中一篇。

在人工智能時代,數據是AI領域的石油,若是沒有數據很難將AI更好的落地。可是數據孤島阻礙了數據的獲取和利用,螞蟻金服在三年前開始佈局隱私保護機器學習,致力於在保護數據安全和隱私保護的前提下進行機器學習,咱們稱之爲共享智能。咱們以前分享了共享智能的理念和原理,今天,咱們想聊聊共享智能的發展與應用趨勢。算法

人工智能目前存在的難題是魚與熊掌不可兼得,也就是隱私性跟可用性難以兼顧。若是你想要你的AI系統能發揮做用,就可能須要犧牲隱私。可是,在大量真實場景中,若是作不到同時兼顧隱私和可用性,會致使不少AI落地的困境。數據庫

舉幾個例子。安全

首先是貸款風控,用戶想要買房去銀行貸款,在銀行A可能被斷定爲「壞人」,沒有辦法給他進行貸款,由於這個機構持有這我的部分數據,一樣的用戶到了機構B,這個機構B基於它擁有的部分數據,有可能會給予他貸款,這樣矛盾的狀況比比皆是,皆是因數據不通致使。網絡

在智慧醫療領域,有些罕見病在每一個醫院的案例都很少,若是咱們能把各個醫院的案例共享起來,就能得到更多的樣本數據,從而能夠利用AI進行更準確的診斷,可是這個案例裏面技術不是最優先的,對醫院來講,它有責任保護患者的隱私,如何確保在共享案例的同時,不泄漏用戶的隱私纔是首先要解決的。架構

數據孤島的問題會給AI落地和應用帶來不少相似的難題。框架

現實環境中,數據在這個圖中是不通的,有的地方可能有一些短暫的連接,絕大部分數據在這個圖中處於斷開狀態。咱們的目標是想打通數據孤島,用技術的方法解決技術的問題。經過技術保護數據安全的狀況下,實現數據的共享和價值的傳遞。運維

共享智能:可用不可見

對於共享智能,咱們但願達到的目標是數據可用不可見,在多方參與且各數據提供方與平臺方互不信任的場景下,可以聚合多方信息進行機器學習,並確保各參與方的隱私不被泄漏,數據不被濫用。機器學習

爲了達到這一目標,咱們使用了不少業界已有的技術,好比學術圈一直在研究的差分隱私、不少大數據廠商在探索的可信執行環境、隨着計算力和硬件技術的提高+密碼學突破而廣受重視的多方安全計算等。還有一些狀況,目標數據比較少,但源領域數據較多,咱們採用遷移學習的方法去作數據共享,這個也屬於咱們大的技術範疇。佈局

具體來看的話,第一種方案是可信執行環境的方案,主要依賴中間的硬件級的保險箱Enclave,雙方經過一些密碼學的機制,把數據進行加密,加密以後只有在密碼箱裏面才能解密,解密之後作各式各樣的計算,由於密碼箱是第三方可信的密碼箱,你們不信任彼此的狀況下,信任密碼箱便可,這樣在數據隱私不會泄露的狀況下,去作各式各樣AI的算法。性能

這種方案依賴可信硬件,經過數據加密的方式,集中傳送到可信的平臺。對於一些機構,自己就已經上雲,把全部的東西都存放在雲上面,全部的技術在雲上面部署,那麼採用這種方式很是快速便捷,同時又能達到很好的隱私保護的效果。

第二種方案是偏軟件級別的方案,咱們在中間把數據作相應的處理後再進行計算。好比說像祕密分享的技術,經過把數據拆分完之後,幾方經過發送隨機數來完成運算,而後能夠完成各式各樣AI的計算和模型;還有像同態加密這樣的方法,在加密後的空間裏面作相應的運算來完成AI的計算,中間有一個控制模塊來共同完成學習的目標。這個方式自己不涉及到硬件,是偏軟件+密碼學的方案,中間出去的是隨機數/加密中間結果,目前業界隱私+AI結合的方向上,用這個方案相對來講比較多。

星雲 Nebula:共享智能網絡

共享智能須要多方參與,咱們設計了星雲Nebula共享智能網絡架構,對於螞蟻金服而言,但願跟合做方共同打造這樣的共享智能網絡。

網絡中存在各式各樣的計算節點,可以在某個管理平臺中進行觸發實現AI計算。這個共享智能網絡,能夠用不一樣的技術完成共享智能的目標,好比,構建聯合營銷網絡,節點之間可任意組網,採用多方安全計算技術來實現聯合營銷,同時管理節點能夠部署在任何的地方;對於某些機構而言,可能沒有很強的AI能力和多方計算能力,那他們能夠依賴於雲這樣的技術,將數據放在可信執行環境中,去參與建設這樣的網絡,經過這樣的共享智能技術來解決AI落地最後一千米的難題。

咱們整個計算節點的架構如上圖,最底層跟正常環境比較類似,左邊是各式各樣的可信執行環境,右邊是正常的CPU、GPU環境。上面會有統一的API層來屏蔽這些不一樣的細節。

再往上面,會有本地的計算,這個計算自己會跟通用的開源框架稍有差別,咱們會把如今流行的版本改爲安全的版本,好比安全的XGBoost。中間作MPC的時候,咱們會提供各式各樣的技術,混淆電路、OT等等這樣的技術,最頂層提供一些可視化跟交互式的接口,普通的用戶經過這樣的調用就能夠完成複雜的多方計算的操做。同時支持各類保護隱私的安全模型推斷。

咱們但願經過這樣的架構完成共享智能技術,而且打造了可視化的界面,採用拖拽式的方式就能夠快速高效完成整個AI計算的構建。

上述共享智能架構如今已經達到了較好的完備性、易用性和穩定性的目標,在不少的地方已經進行了落地。在完備性方面,咱們實現了功能完備和場景完備,目前主要是支持風控和其它AI典型場景,裏面的算法比較全面,涵蓋了線性模型、樹模型、深度學習、圖神經網絡等各個方向;在易用性方面,咱們但願可以更好的推廣這種建模技術,同時又能「屏蔽」一些底層技術(可信執行環境、多方安全計算等),下降你們學習使用的成本;在穩定性方面,咱們實現了共享智能計算的集羣化,而且支持遠程運維。

咱們已經將共享智能上線到大數據智能平臺上,下面這個demo,是一個多方安全計算的AI建模展現。

前面預處理部分跟正常的AI建模看起來同樣,經過拖拽式操做,把數據進行了預處理之後,送到共享智能建模中,會產生AI運算的結果。經過這種方式可以大幅度下降新技術的使用門檻,方便業務方使用。

螞蟻金服在共享智能領域裏建設了三年多,發佈論文超過10篇,得到專利超過80餘項,在標準立項上咱們在IEEE共享智能和ITU-T MPC國際標準、CCSA共享智能行業標準以及AIOSS / AIIA共享智能聯盟標準方面都在同步推動,也得到了一些創新獎項。

共享智能落地案例

接下來分享三個典型落地案例。

一個是在安全風控領域,聯合生態夥伴來創建安全風控網絡。生態夥伴使用前面介紹的可信執行環境技術,把數據加密傳輸到網絡中共建這個模型,打擊虛假交易、團伙做案等,大幅度提高風控準確率,實現風控網絡的淨化。經過這樣的風控網絡平臺,使得商家天天新增不少的交易,同時下降資損。

第二個是中和農信,咱們經過數據融合大幅度提升風控性能,把原來傳統的線下模式,變成線上自動過審模式,完成授信只需5分鐘,8個月累計放款31.9億,授信成功人數44萬人,業務覆蓋20+省區,300+縣城,10000+個鄉村,助力實現農村普惠金融。

第三個是與江蘇銀行進行的信貸聯合風控,還記得咱們前面的例子嗎?由於數據不完整,致使風控決策錯誤,如今經過共享智能技術,雙方能夠完成共同的模型構建,經過這樣的機制實現聯合風控,使得效果有大幅度提高。同時在這個過程當中,用戶的數據和隱私獲得了有效保護。

總的來講,咱們想構建開放的共享智能網絡,但願有更多的夥伴、機構參與進來,一塊兒完成建設,打破數據孤島,助力AI技術更好的落地和應用。

OceanBase 登頂TPC-C測試榜,實現中國數據庫零的突破,想要了解背後的技術細節?歡迎下載電子書《OceanBase TPC-C測試技術解析》,長按識別如下二維碼,關注「螞蟻金服科技」官方公衆號,並在對話框內回覆「TPCC」,便可免費下載。

相關文章
相關標籤/搜索