導讀:本文簡短綜述聯邦計算領域的核心技術點,隨着聯邦計算在產業界的應用及普及,保護數據隱私與解決數據孤島,兩者能夠兼得,爲數字廣告營銷等領域提供了一個全新思路。前端
全文4761字,預計閱讀時間12分鐘。算法
衆所周知,數據是AI技術的燃料,更多高質量的數據意味着能夠訓練出更好性能的業務模型。隨着IT移動化步伐地邁進,互聯網數據被割裂爲一個個孤島,制約AI發展的一個瓶頸是保護用戶數據隱私和打破不一樣主體之間數據孤島的問題。隨着移動設備性能的強化,4G/5G的興起普及,在移動終端上進行模型訓練變得可行。2016年,Google團隊發佈了一篇論文:Communication-Efficient Learning of Deep Networks from Decentralized Data。自此,產業界聯邦學習(「Federal Learning」,Google中文命名爲聯盟學習,國內習慣稱爲聯邦學習)的大幕開啓。後端
△圖片來__源:《Federated L__earning: Collaborative Machine Learning without Centralized Training Data》安全
在數百萬不一樣的智能手機上部署聯邦學習,其本質是移動模型,而非移動數據。爲避免用戶隱私泄露,聯邦學習不須要在雲端存儲用戶數據。智能手機下載當前版本的模型,經過學習本地數據來改進模型,並把模型改進增量加密發送到雲端,與其餘用戶的更新即時整合爲共享模型,全部的訓練數據仍然在各終端用戶的設備中,用戶數據不會在雲端保存。性能優化
在國際隱私數據條例(GDPR等)趨嚴的形勢下,以Google爲表明的ToC業務(如輸入法)開闢了一個全新的思路。國內,聯邦學習在產業界延伸至ToB領域,解決ToB AI的困局:隱私保護與數據孤島問題。好比風控、營銷等涉及到大規模的用戶數據交互,隱私保護價值更高。2019年末,百度、微衆、螞蟻、富數、華控等5家公司,得到了信通院的安全計算證書,是當前安全計算資質中最具影響力的認證。服務器
爲聯合打通數據孤島,解決參與方的數據安全可信隱私保護問題,廣義的聯邦計算「Federated Computing」實現方案包括:以密碼學爲核心的MPC多方安全計算「Secure Multi-Party Computation」,以及硬件可信執行環境TEE「Trusted Execution Environment」。網絡
多方安全計算MPC以密碼學爲理論基礎,採用算法/程序邏輯層面保障計算的安全可信任的基本理念,其安全性是可通過數學公式推導驗證的。MPC不依賴於硬件等環境設施,即對各種異構的系統環境有兼容性,不依賴特定硬件。架構
混淆電路是一種密碼學協議。圖靈獎得主姚期智院士在1982提出著名的Yao's Millionaires' Problem,並給出了基於混淆電路的解決方案。該問題是Alex和Bob在無可信第三方,且不告知對方財富值的狀況下比誰更富有。 機器學習
其原理爲:全部可計算的函數問題均可轉換爲不一樣的電路,由加法電路、乘法電路、移位電路、選擇電路等表示。而電路本質上由門(gate)組成,邏輯門包括與門、非門、或門、與非門等。混淆電路把這些門進行加密和打亂來掩蓋信息。Alice用密鑰加密門的真值表並打亂後輸出給Bob。Bob對真值表的每行進行解密,算法保障只有一行可解密成功,並提取結果。最後Bob將結果同步給Alice。過程當中,兩者交換的都是隨機數或密文,無隱私數據泄露,但從程序邏輯層面完成了所需業務的計算。分佈式
祕密共享(也稱爲祕密分割)是指用於在一組參與者之間分發祕密的方法,每一個參與者被分配一個祕密的份額。只有當足夠數量的不一樣類型的份額組合在一塊兒時,才能重建祕密,我的份額自己無心義。
在祕密分享中,最經典的算法是Shamir’s Secret Sharing,它最基本的設計原理是:平面上 k 個點能夠惟一肯定一個 k−1 階的多項式
如兩個點能夠惟一肯定一條直線。咱們把 a0 做爲祕密S。咱們從曲線上任取n個點(i,f(i)),每一個參與者分配一個點,做爲一個密碼的份額,則湊齊任意k個參與方則可還原出祕密S。此處,可基於拉格朗日差值方法計算多項式,本文不作展開。
同態加密的概念早在1978年在銀行應用背景下被提出,做者是RSA算法中的R(Ron Rivest) 和A(Leonard Adleman)以及Michael L. Dertouzos。對於同態加密的概念引用同態加密大牛Craig Genty的定義:
「A way to delegate processing of your data, without giving a way access to it.」
即便用者能夠在不接觸原數據的狀況下進行數據處理。其本質是:使用方直接處理密文,而後解密密文獲得的明文結果與直接處理明文獲得結果等價。精巧之處在於,數據的處理方並不知道數據的明文,卻最終計算獲得業務指望的結果,即數據提供方未泄露其原始數據,有效保護數據隱私。
同態加密的數學定義爲:E(m1)*E(m2)=E(m1*m2) ∀ m1,m2∈M
其中,E爲加密算法,M是全部信息的集合,*表示運算符。若是加密算法知足如上公式,則E在運算*上的功能符合同態加密性質。
根據支持的運算的數量及次數可對HE進行分類:當前部分同態加密(PHE)、層次同態加密(SWHE)在業界生產環境已有應用,全同態加密(FHE)效率較低,當前尚沒法支撐大規模計算。
可信執行環境(TEE)是主處理器的安全區域。它保證內部加載的代碼和數據在機密性和完整性方面受到保護。TEE做爲獨立執行環境,可提供各類安全功能:如隔離執行,應用程序的完整性,以及其資產的機密性。其保障安全的核心機制是:指令集擴展, 旨在以硬件安全爲強制性保障, 不依賴於固件和軟件的安全狀態。
△圖片來源__:Gidon Gershinsky《Trust Management in Intel SGX Enclaves》
Intel® Software Guard Extensions (Intel® SGX)保護選定的代碼和數據不被泄露和修改。開發者能夠把應用程序劃分到CPU強化的encalve飛地中,即便在受攻擊的平臺環境(操做系統/虛擬機)中也能提升安全性。使用該應用層可信執行環境,開發者可以啓用身份和記錄隱私、安全瀏覽和數字管理保護(DRM)或者任何須要安全存儲機密或者保護數據的高保障安全應用場景。
除了英特爾SGX,TEE方案還包括ARM的TrustZone,AMD點安全加密虛擬化SEV和NVIDIA的可信小內核TLK等。各廠商基於硬件的方案,其核心都是實現最小可能的攻擊面:CPU邊界成爲攻擊面外圍,全部的數據、內存、外圍以外的I/O都是加密的。
MPC方案與TEE方案橫向比對以下:
聯邦學習定義爲:在進行機器學習的過程當中,各參與方能夠藉助其餘方數據進行聯合建模。各方無需共享數據資源,即數據不出本地的狀況下,進行數據聯合訓練,創建共享的機器學習模型。聯邦學習能夠分爲三類:
如百度安全計算白皮書所述,百度在數據安全和隱私保護領域產品的主要創新點包括:
平臺將 MPC、TEE、DP等領先技術進行有機融合,供一整套面向多方安全計算的數據安全解決方案,在保護企業數據資產的基礎上,有效防範用戶隱私泄露風險,覆蓋數據安全和隱私保護的多種場景。
平臺爲多方安全計算場景設計專用的DSL語言,來描述多方數據聯合計算全過程的複雜邏輯,造成多方安全計算「電子合約」,經各參與方確認後才能執行,參與方明確知曉數據使用方式,結合多方安全方案實現數據安全可控。
平臺爲適應百度大規模數據安全計算需求,通過大規模工程化改造和多種性能優化,支持百億級數據多方安全計算,輕鬆勝任各類多方安全計算場景,爲多方安全計算從學術界走向工業界供技術保障。
聯邦計算模式可應用廣告營銷領域,其中人羣定向是重要的一個分支。聯邦精準人羣是指基於雙方的全量大數據,進行ID的隱私數據求交(PSI:Private Set Intersection),基於客戶一方的精準數據,在媒體側進行廣告投放。而且實現客戶數據的「可用不可見,相逢不相識」的效果,有效保護了客戶數據的隱私性。
外部合做夥伴,如廣告主將數據保存在本身的服務器或雲存儲中,百度數據保存在百度域下。BFC「Baidu Federated Computing」主節點協調各方計算節點,不接觸各方本地數據。在保證數據不出域的前提下,各計算節點間進行參數等加密信息的交互,最終完成業務模型的計算。營銷實踐案例代表聯邦精準人羣模式基於客戶一方的大數據可大幅提高客戶的ROI。
爲了解決聯合營銷場景中的數據安全合規問題,基於百度安全、聯手數據流通服務使用「聯邦計算」技術,爲觀星盤開闢了「聯合營銷綠色通道」。在保證各方敏感數據不出域的前提下,基於「可用不可見」的安全計算,將百度觀星盤數據和廣告客戶數據安全打通,以實現聯合精準營銷。
業務後續展望,基於聯邦計算/聯邦學習可在廣告營銷全鏈路(投前洞察、投中觸達、投後分析)賦能AI營銷業務,沉澱數據資產、激活數據資產,在保障數據隱私合規的狀況下最大程度挖掘數據價值,實現用戶、客戶、媒體的三方雙贏。
本期做者 | 王崇傑,百度商業平臺研發部資深研發工程師,長期專一於互聯網商業廣告營銷領域。關注大數據處理、分佈式系統架構、中間件設計、網絡數據安全等技術領域。
招聘信息
百度商業平臺研發部主要負責百度商業產品的平臺建設,包括廣告投放、落地頁託管、全域數據洞察等核心業務方向,致力於用平臺化的技術服務讓客戶及生態夥伴持續成長,成爲客戶最爲依賴的商業服務平臺。
不管你是後端,前端 ,大數據仍是算法,這裏有若干職位在等你,歡迎投遞簡歷,關注同名公衆號百度Geek說,輸入內推便可,百度商業平臺研發部期待你的加入!
閱讀原文
|聯邦計算在百度觀星盤的實踐
---------- END ----------
百度Geek說
百度官方技術公衆號上線啦!
技術乾貨 · 行業資訊 · 線上沙龍 · 行業大會
招聘信息 · 內推信息 · 技術書籍 · 百度周邊
歡迎各位同窗關注