共享學習:螞蟻金服數據孤島解決方案

若是有A、B、C三位同窗,他們各自手上有十、1五、20塊錢,這時須要在相互不知道對方有多少錢的狀況下,不借助力第三方來計算三我的一共有多少錢。請問這時候,咱們如何實現呢?——這,就是最經典的祕密共享場景。在看完這篇文章後,答案就出來了~算法

背景

互聯網時代,一切基於數據。安全

隨着人工智能的興起,數據的質量和數量,已經成爲影響機器學習模型效果最重要的因素之一,所以經過數據共享的模式來「擴展」數據量、從而提高模型效果的訴求也變得愈加強烈。服務器

但在數據共享過程當中,不可避免會涉及到兩個問題:隱私泄露和數據濫用。架構

提到這兩個關鍵詞,你們必定都對其背後的原因有所耳聞:負載均衡

第一則:2018年3月,劍橋諮詢公司經過FaceBook的數據共享漏洞,收集了5000萬用戶信息,聽說有可能利用這些信息操控美國總統競選,形成惡劣社會影響;事件曝光後,FB公司股票大跌7%,引起一系列後續問題。
第二則:2018年5月,歐盟經過General Data Protection Regulation(GDPR)法案,法案指出:全部與我的相關的信息都是我的數據,對數據的使用行爲必需要有用戶的明確受權。把對隱私保護的要求提到了一個新的高度。框架

隨着對數據安全的重視和隱私保護法案的出臺,之前粗放式的數據共享受到挑戰,各個數據擁有者從新回到數據孤島的狀態,同時,互聯網公司也更難以收集和利用用戶的隱私數據。機器學習

數據孤島現象不只不會消失,反而會成爲新的常態,甚至它不只存在於不一樣公司和組織之間,在大型集團內部也存在。將來,咱們必須面對這樣的現狀:若是咱們想更好的利用數據,用大數據和AI作更多有意義的事情,就必須在不一樣組織之間、公司與用戶之間進行數據共享,但這個共享須要知足隱私保護和數據安全的前提。分佈式

隱私泄漏和數據濫用如同達摩克利斯之劍懸在各個公司和組織頭上,所以解決數據孤島,成爲AI行業須要解決的首要問題之一。ide

如何解決數據孤島問題?

當前,業界解決隱私泄露和數據濫用的數據共享技術路線主要有兩條。一條是基於硬件可信執行環境(TEE: Trusted Execution Environment)技術的可信計算,另外一條是基於密碼學的多方安全計算(MPC:Multi-party Computation)。函數

TEE字面意思是可信執行環境,核心概念爲以第三方硬件爲載體,數據在由硬件建立的可信執行環境中進行共享。這方面以Intel的SGX技術,AMD的SEV技術,ARM的Trust Zone技術等爲表明。TEE方案的大體原理以下圖所示:

目前在生產環境可用的TEE技術,比較成熟的基本只有Intel的SGX技術,基於SGX技術的各類應用也是目前業界的熱門方向,微軟、谷歌等公司在這個方向上都有所投入。

SGX(Software Guard Extensions )是Intel提供的一套軟件保護方案。SGX經過提供一系列CPU指令碼,容許用戶代碼建立具備高訪問權限的私有內存區域(Enclave - 飛地),包括OS,VMM,BIOS,SMM均沒法私自訪問Enclave,Enclave中的數據只有在CPU計算時,經過CPU上的硬件進行解密。同時,Intel還提供了一套遠程認證機制(Remote Attestation),經過這套機制,用戶能夠在遠程確認跑在Enclave中的代碼是否符合預期。

MPC(Multi-party Computation,多方安全計算)一直是學術界比較火的話題,但在工業界的存在感較弱,以前都是一些創業小公司在這個方向上有一些探索,例如Sharemind,Privitar,直到谷歌提出了基於MPC的在我的終端設備的「聯邦學習」 (Federated Learning)的概念,使得MPC技術一晚上之間在工業界火了起來。MPC方案的大體原理以下圖所示:

目前,在MPC領域,主要用到的是技術是混淆電路(Garbled Circuit)、祕密分享(Secret Sharing)和同態加密(Homomorphic Encryption)。

混淆電路是圖靈獎得主姚期智教授在80年代提出的一個方法。其原理是,任意函數最後在計算機語言內部都是由加法器、乘法器、移位器、選擇器等電路表示,而這些電路最後均可以僅由AND和XOR兩種邏輯門組成。一個門電路其實就是一個真值表,假設咱們把門電路的輸入輸出都使用不一樣的密鑰加密,設計一個加密後的真值表,這個門從控制流的角度來看仍是同樣的,可是輸入輸出信息都得到了保護。

祕密分享的基本原理是將每一個數字隨機拆散成多個數並分發到多個參與方那裏。而後每一個參與方拿到的都是原始數據的一部分,一個或少數幾個參與方沒法還原出原始數據,只有你們把各自的數據湊在一塊兒時才能還原真實數據。

同態加密是一種特殊的加密方法,容許對密文進行處理獲得仍然是加密的結果,即對密文直接進行處理,跟對明文進行處理後再對處理結果加密,獲得的結果相同。同態性來自抽象代數領域的概念,同態加密則是它的一個應用。

當前,業界針對數據共享場景,利用上面的技術路線推出了一些解決方案,包括隱私保護機器學習PPML、聯邦學習、競合學習、可信機器學習等,但這些方案只利用了其中的一部分技術,從而只適合部分場景,同時基本處於學術研究階段,沒有在生產環境落地。

共享機器學習:螞蟻金服數據孤島解決方案

爲了更好的應對形勢變化,解決數據共享需求與隱私泄露和數據濫用之間的矛盾,螞蟻金服提出了但願經過技術手段,確保多方在使用數據共享學習的同時,能作到:用戶隱私不會被泄露,數據使用行爲可控,咱們稱之爲共享機器學習(Shared Machine Learning)。

共享機器學習的定義:在多方參與且各數據提供方與平臺方互不信任的場景下,可以聚合多方信息並保護參與方數據隱私的學習範式。

從17年開始,螞蟻金服就一直在共享機器學習方向進行探索和研究,在結合了TEE與MPC兩條路線的同時,結合螞蟻的自身業務場景特性,聚焦於在金融行業的應用。

螞蟻金服共享機器學習方案擁有以下特性:

• 多種安全計算引擎整合,可基於不一樣業務場景來選擇合適的安全技術。既有基於TEE的集中式解決方案,也有基於MPC的分佈式解決方案;既可知足數據水平切分的場景,也能解決數據垂直切分的訴求;既能夠作模型訓練,也能夠作模型預測。
• 支持多種機器學習算法以及各類數據預處理算子。支持的算法包括但不限於LR,GBDT,Xgboost,DNN,CNN,RNN,GNN等。
• 大規模集羣化。支持大規模集羣化,提供金融級的高效、穩定、系統化的支撐。

基於數年沉澱與積累,目前共享機器學習技術已在銀行、保險、商戶等行業成功落地諸多場景業務。經過在業務中打磨出的金融級共享機器學習能力,沉澱下來一套數據共享場景的通用解決方案,將來會逐步對外開放。

在幾年的艱苦研發中,共享學習累積專利50餘項。在2019中國人工智能峯會上,共享機器學習得到「紫金產品創新獎」,在8月16日的全球人工智能創業者大會上,得到「應用案例示範獎」。

下面,咱們將分享基於上面兩種路線的共享機器學習實踐細節。

基於TEE的共享學習
螞蟻共享學習底層使用Intel的SGX技術,並可兼容其它TEE實現。目前,基於SGX的共享學習已支持集羣化的模型在線預測和離線訓練。

1.模型在線預測

預測一般是在線服務。相對於離線訓練,在線預測在算法複雜度上面會相對簡單,可是對穩定性的要求會更高。
提高在線服務穩定性的關健技術之一就是集羣化的實現——經過集羣化解決負載均衡,故障轉移,動態擴容等穩定性問題。

但因爲SGX技術自己的特殊性,傳統的集羣化方案在SGX上沒法工做。

爲此,咱們設計了以下分佈式在線服務基本框架:

該框架與傳統分佈式框架不一樣的地方在於,每一個服務啓動時會到集羣管理中心(ClusterManager,簡稱CM)進行註冊,並維持心跳,CM發現有多個代碼相同的Enclave進行了註冊後,會通知這些Enclave進行密鑰同步,Enclave收到通知後,會經過遠程認證相互確認身份。當確認彼此的Enclave簽名徹底相同時,會經過安全通道協商並同步密鑰。

該框架具有以下特性:

• 經過集羣化方案解決了在線服務的負載均衡,故障轉移,動態擴縮容,機房災備等問題;
• 經過多集羣管理和SDK心跳機制,解決代碼升級,灰度發佈,發佈回滾等問題;
• 經過ServiceProvider內置技術配合SDK,下降了用戶的接入成本;
• 經過提供易用性的開發框架,使得用戶在開發業務邏輯時,徹底不須要關心分佈式化的邏輯;
• 經過提供Provision代理機制,確保SGX機器不須要鏈接外網,提高了系統安全性。

目前在這套框架之上已經支持包括LR、GBDT、Xgboost等多種經常使用的預測算法,支持單方或多方數據加密融合後的預測。基於已有框架,也能夠很容易的擴展到其它算法。

2.模型離線訓練
模型訓練階段,除了基於自研的訓練框架支持了LR和GBDT的訓練外,咱們還藉助於LibOs Occlum和自研的分佈式組網系統,成功將原生Xgboost移植到SGX內,並支持多方數據融合和分佈式訓練。經過上述方案,不只能夠減小大量的重複性開發工做,而且在Xgboost社區有了新的功能更新後,能夠在SGX內直接複用新功能,無需額外開發。目前咱們正在利用這套方案進行TensorFlow框架的遷移。

此外,針對SGX當下詬病的128M內存限制問題(超過128M會觸發換頁操做,致使性能大幅降低),咱們經過算法優化和分佈式化等技術,大大下降內存限制對性能的影響。

基於TEE的多方數據共享學習訓練流程以下:

  1. 機構用戶從Data Lab下載加密工具
  2. 使用加密工具對數據進行加密,加密工具內嵌了RA流程,確保加密信息只會在指定的Enclave中被解密
  3. 用戶把加密數據上傳到雲端存儲
  4. 用戶在Data Lab的訓練平臺進行訓練任務的構建
  5. 訓練平臺將訓練任務下發到訓練引擎
  6. 訓練引擎啓動訓練相關的Enclave,並從雲端存儲讀取加密數據完成指定的訓練任務。

採用該方式進行數據共享和機器學習,參與方能夠保證上傳的數據都通過加密,並經過形式化驗證保證加密的安全性。

基於MPC的共享學習

螞蟻基於MPC的共享學習框架分爲三層:

• 安全技術層:安全技術層提供基礎的安全技術實現,好比在前面提到的祕密分享、同態加密、混淆電路,另外還有一些跟安全密切相關的,例如差分隱私技術、DH算法等等;
• 基礎算子層:在安全技術層基礎上,咱們會作一些基礎算子的封裝,包括多方數據安全求交、矩陣加法、矩陣乘法,以及在多方場景下,計算sigmoid函數、ReLU函數等等;同一個算子可能會有多種實現方案,用以適應不一樣的場景需求,同時保持接口一致;
• 安全機器學習算法:有了基礎算子,就能夠很方便的進行安全機器學習算法的開發,這裏的技術難點在於,如何儘可能複用已有算法和已有框架,咱們在這裏作了一些有益的嘗試,但也遇到了很大的挑戰。

目前咱們這套基於MPC的共享學習框架已支持了包括LR、GBDT、GNN等頭部算法,後續一方面會繼續根據業務需求補充更多的算法,同時也會爲各類算子提供更多的技術實現方案,以應對不一樣的業務場景。

基於MPC的多方數據共享學習訓練流程以下:

如圖所示,訓練步驟爲:

  1. 機構用戶從Data Lab下載訓練服務並本地部署
  2. 用戶在Data Lab的訓練平臺上進行訓練任務的構建
  3. 訓練平臺將訓練任務下發給訓練引擎
  4. 訓練引擎將任務下發給機構端的訓練服務器Worker
  5. Worker加載本地數據
  6. Worker之間根據下發的訓練任務,經過多方安全協議交互完成訓練任務

訓練引擎的具體架構以下:

其中Coordinator部署於螞蟻平臺,用於任務的控制和協調,自己並不參與實際運算。Worker部署在參與多方安全計算的機構,基於安全多方協議進行實際的交互計算。

用戶在建模平臺構建好的訓練任務流會下發給Coordinator的Task Flow Manager,Task Flow Manager會把任務進行拆解,經過Task Manager把具體算法下發給Worker端的Task Executor,Task Executor根據算法圖調用Worker上的安全算子完成實際的運算。

利用這套方法,能夠作到數據不出域就能夠完成數據共享,訓練工具能夠部署在本地的服務器。

共享學習 VS. 聯邦學習

目前,國內對於數據共享場景的機器學習解決方案,比較熟悉的多是由谷歌提出的聯邦學習概念。

通過咱們的瞭解,其實聯邦學習目前涉及兩個不一樣的概念:

• 第一種聯邦學習,旨在解決雲 + 端的訓練過程當中,端上的隱私不要被暴露的問題,是一個To C + 數據水平切分的場景。除了保護端上的數據隱私外,其重點還在於如何解決訓練過程當中,端自身可能掉線等問題。
• 第二種聯邦學習則主要用於解決To B場景中各方隱私不泄露的問題,便可以應用於數據的水平切分場景,也能夠應用於數據垂直切分的場景。

它們側重於不一樣的數據共享場景,採用不一樣的技術,相比之下,螞蟻金服的共享學習兼容多種安全計算技術,而且支持多種機器學習算法和使用場景。

除此以外,共享學習和聯邦學習的差別在於:

  1. 聯邦學習只解決數據不出域的狀況,這就限制了其可使用的技術(只有嚴格的MPC算法才符合這個要求),而共享學習目前基於TEE的集中式共享學習技術,是聯邦學習沒有涉及的;
  2. 聯邦學習講究的是參與各方的「身份和地位」的相同,因此叫聯邦;而共享學習則不強調各共享方的地位對等,在不少場景下,不一樣的參與方是擁有不一樣的角色的。

目前,數據共享下的機器學習仍然還有不少可突破的地方,這些不一樣只是對當前狀態的一個比較,但願你們能對共享學習有更好的理解。

將來展望

讓數據孤島在安全環境下進行鏈接、合做、共創、賦能,是螞蟻金服共享機器學習的核心使命。

共享機器學習做爲一個安全與AI的交叉學科,正在愈來愈受到關注,尤爲是在金融行業,有着廣闊的應用空間。可是,這個領域的各項技術,也遠未到成熟的階段。咱們團隊通過兩年的摸索,也只是取得了階段性的一些成果,在算法的計算性能以及支持算法的多樣性等各個方面,還有一段路要走。

9月27日杭州雲棲大會,螞蟻金服將向外界首次分享共享學習的理念和實踐,歡迎屆時關注。後續咱們也會分享更多共享學習方面的研究進展及實踐經驗, 歡迎業界同仁交流探討,共同探索更多更強的數據孤島解決方案,推動數據共享下的機器學習在更多場景下落地。


原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索