騰訊「神盾-聯邦計算」平臺帶你翻越數據合做的重重大山

大數據及人工智能飛速發展的今天,法律法規和信任問題嚴重阻礙了企業之間的數據流通,數據孤島問題像一隻無形的手擋在了企業之間,由於缺少有價值的數據合做,各行業用戶獲取成本居高不下。爲了知足企業間數據安全共享、釋放數據價值,助力業務創新,騰訊「神盾-聯邦計算」平臺應運而生!

面向數據安全與隱私保護的多方計算技術研究最先可追溯到上世紀70年代,而新興的聯邦學習概念在國內從2019年開始蓬勃發展。算法

「神盾-聯邦計算」平臺的成型也正是這個時期,通過2-3個月系統評測、安全算法評測及現場答辯,2019年12月「神盾-聯邦計算」表明騰訊得到了信通院頒發的基於多方安全計算的數據流通產品證書,全國首批得到該證書的團隊只有5家。目前神盾正在主導信通院聯邦學習標準制定。安全

騰訊「神盾-聯邦計算」平臺應運而生

大數據及人工智能飛速發展的今天,法律法規和信任問題嚴重阻礙了企業之間的數據流通,數據孤島問題像一隻無形的手擋在了企業之間,由於缺少有價值的數據合做,各行業用戶獲取成本居高不下,銀行信用卡不良用戶佔比全面上升,金融信貸審覈成本陡增,AI發展也遭遇史無前例的瓶頸,爲了讓這些企業在合法合規、安全、高效無損的基礎上進行數據合做,騰訊「神盾-聯邦計算」平臺應運而生!服務器

這是一個主要基於聯邦學習、多方安全計算(MPC)、區塊鏈、可信計算等安全技術的分佈式計算平臺,產品針對機器學習算法進行定製化的隱私保護改造,保證數據不出本地便可完成聯合建模,最大化各個合做企業的數據價值:網絡

根據合做雙方的實際場景需求,其上層能夠覆蓋風控、營銷、推薦、AI等主流業務,同時「神盾-聯邦計算」也將扮演業務與數據之間橋樑的角色,撮合有數據需求的業務方和有價值變現的數據方之間展開合做。架構

產品首先在聯合建模的數據格式規範、安全求交、特徵工程、算法參數調試等細節進行了細緻的打磨,而後在處於聯邦底層核心地位的數據安全與隱私保護技術相關領域作了深刻的基礎研究,取得了多項突破性的成就,處於行業領先地位。app

這其中包含非對稱聯邦概念的獨創及落地、安全信息檢索方案的獨創及落地 ,涵蓋同態加密、不經意傳輸、隱私集合求交在內的多項MPC技術的創新及應用、主流聯邦學習協議的效率優化、精度提高及可信中間方的剝離改造、單向聯邦網絡策略的推動等,下面將簡要介紹其中幾項重要突破。框架

獨創非對稱聯邦學習框架

在縱向聯邦學習的標準流程中,兩個跨特徵的參與方須要執行如下兩個操做:less

1. ID對齊

主要依託隱私求交 [2,3] (Private Set Intersection, PSI) 技術 ,在各參與方處輸出全部輸入的樣本ID集合的交集。dom

2. 加密模型訓練

各參與方之前文提到的輸出交集爲基礎,計算、通訊基於原始數據集計算的加密中間變量。機器學習

在前沿的聯邦學習圈,大量的研究工做投入到加密模型訓練中,包括新聯邦協議的設計[4]、聯邦通訊機制的優化[5, 6]、聯邦激勵系統的設計[7],卻鮮有對 ID對齊的系統性研究。

實際的縱向聯邦學習的場景中,咱們發現,每每其中一方的ID集合較少,而且具備較強的業務屬性,是ID擁有方但願保護的信息。可是ID較少的參與方卻不得不在ID對齊操做中暴露出這些ID,顯得較爲「弱勢」。

例如,聯盟中的信貸公司爲了實現風控預測,須要將其客戶的違約記錄輸入聯邦學習系統中,而每一條這種違約記錄的獲取都是該類公司以鉅額的經濟損失做爲交換,屬於最高等級的商業機密。

爲了解決這個問題,將ID、特徵、標籤三要素的全方位隱私保護放在產品第一要位,完全解除高敏感領域的數據安全擔心,咱們在聯邦學習領域獨創非對稱聯邦學習概念,首度發明Asymmetrical-PSI、Genuine-with-Dummy等技術,支撐起一條完整的非對稱加密實體對齊 + 非對稱加密特徵工程 + 非對稱加密模型訓練聯邦學習數據鏈路。咱們將在FL-IJCAI20國際會議上展現部分相關工做[8]。

獨創面向聯邦成果分享的安全信息檢索技術

非對稱聯邦解決了訓練過程當中樣本ID泄漏的問題,但在生產線上查詢環節依然會因查詢行爲泄漏用戶清單。若經過返回全量預測分數來保護查詢方用戶清單,則不便於按量計費,商業上存在障礙。

神盾聯邦計算平臺深度結合業務場景和需求,獨創面向聯邦成果分享的安全信息檢索技術,解決聯邦學習應用的重要隱私性問題,作到樣本預處理-數據挖掘-聯邦推理-聯邦成果安全分享的完整、新型安全信息流。安全信息檢索技術解決了聯邦學習工程實踐中的多方成果共享問題,填補聯邦學習系統運行的最後一塊短板。

安全信息檢索協議基於Pohlig-Hellman交換加密技術和MPC中的不經意傳輸 (Oblivious Transfer) 技術,強有力保障聯邦成果發送方精準分享目標客戶羣推理結果,全方位保護聯邦成果接收方的目標客戶羣隱私。神盾聯邦計算平臺已憑藉該項成果遞交多項國家專利申請。

獨創具語義安全性高性能同態加密技術

初次使用聯邦學習系統的用戶能夠明顯感知到,聯邦學習與Spark MLlib, Tensorflow等面向擴展性的傳統分佈式機器學習框架的性能差別,從而對如此「低效」的聯邦服務產生一些疑惑。

神盾聯邦計算平臺從聯邦學習的核心隱私保護技術——同態加密入手優化聯邦服務的性能,獨創了具備語義安全性的高性能同態加密技術。在單元測試中,咱們的成果計算效率相比現有的同態加密提高千倍以上;整個模型的訓練耗時也能夠節省87%以上。

同態加密是當前工業界廣爲應用的若干聯邦協議中最爲通用和便攜的安全多方計算技術之一,它可以在保護隱私的前提下,輕易解耦數據提供方角色和計算方角色,完美契合聯邦學習的面向隱私保護的分佈式計算本質。

同態加密的研究吸引了普遍學者,大量的工做投入到支持運算層數深、運算類型多、安全等級高的各種同態密碼研究中[9-11]。然而,受限於現代計算機處理器的性能和實際業務場景的高時效、低時延要求,即便大幅提高服務器配置的前提下,許多完備卻複雜的同態密碼並不能在使人滿意的時間內、在足夠大的數據集上、完成足夠多輪的聯邦建模訓練,這是用戶感知聯邦學習與傳統分佈式建模系統性能差別較大的核心因素。

爲了經過改進底層同態加密的方式提速聯邦學習,咱們借鑑了經典的對稱密碼Affine Cipher的羣運算類型和非對稱密碼ElGamal的多元組密文混淆思想,全球獨創隨機化迭代型仿射密碼 (Randomized Iterative Affine Cipher, RIAC)。咱們的成果RIAC在保留了經典同態密碼的運算次數隱蔽性和語義安全性的前提下,大幅提高同態運算效率,處於國內相關技術的領先梯隊。神盾聯邦計算平臺已憑藉該項成果遞交多項國家專利申請。

獨創地位對等的分佈式安全聚合技術

在一個聯邦學習系統中,數據隱私的保護依賴於其內部的各類安全子協議,例如對加法、乘法、聚合等操做的聯邦子協議[13, 14]。其中,聚合技術可以在保護各參與方數據隱私的前提下,完成對分佈在各方的模型更新所需參數(如梯度、殘差等)、模型估計(如權重)和模型預測值等中間變量的中心化。

安全求和 (Secure Summation) 協議是聚合協議最爲直觀的實現之一,也是衆多安全聚合技術的基準測試方案之一。

目前在學業界普遍流行的安全求和實現方案包括高效安全求和協議[15]、同態加密[10, 11]、祕密分享[16]、面向隱私保護的共識協議[17, 18]等,但在聯邦協議的應用中,這些已有協議存在各類問題,包括共謀的威脅[15]、計算複雜較高[10,11,18]、精度損失[17]、徹底去中心化 (full decentralization) 問題[10, 11]、動態環境問題[19]等。

遺憾的是,幾乎沒有求和協議針對聯邦學習的這類要求作深刻研究。咱們獨創面向隱私保護的演化式求和協議[12],以徹底去中心化的結構,於無限時間內,在參與方設備頻繁登入、登出的動態環境中,執行安全性好、準確率高、恢復力強的安全求和服務,做爲聯邦學習系統中的可靠子程序,適用於聯邦學習協議中的各種安全聚合需求。在2020年4月,咱們的該項成果發表在IEEE Intelligent Systems期刊上。

獨創單向聯邦網絡策略

市面主流聯邦學習產品及開源框架,均須要建模雙方的網絡雙向互通,但這在銀行等數據安全極度敏感的行業會引來網絡安全擔心,若是開放了外界訪問銀行內部網絡的入口,黑客就有可能經過掃描開放端口,僞造數據包來源IP等手段發起惡意攻擊。

所以,若是可以只開放出口權限而不開放入口權限,則能讓數據和網絡環境的安全性大大加強。基於此特性,銀行、互金等敏感行業能夠經過動態出口IP,動態端口映射等手段讓黑客無從下手,保護網絡及數據安全。同時,也讓數據合做容易經過合規審查,合做更容易開展。

騰訊「神盾-聯邦計算」平臺獨創聯邦單向網絡架構,合做雙方中對安全更爲敏感的一方可使用單向模式,即只開放網絡出口權限而不開放入口權限。神盾提供的單向聯通架構經測試,對運行效果和性能無任何影響,同時可以大大提升數據安全性。

騰訊神盾攜手PowerFL、FATE

PowerFL是騰訊TEG出品的無需可信第三方的聯邦學習平臺,在開源的智能學習平臺Angel之上構建,其中包括但不只限於縱向聯邦學習的系統框架和各種算法,神盾和PowerFL是騰訊「聯邦學習」開源協同Oteam的合做夥伴,一開始就在在基礎框架、聯邦算法、應用研究等不一樣方向進行合做研究。

做爲聯邦學習全球首個工業級開源項目,FATE在同一時期也很快就進入神盾團隊的視野,通過大半年在聯邦技術和應用上的合做探討,雙方在2019年9月成立聯合項目組,基於聯邦學習進行了一系列的產品共同研發和迭代優化,在技術研究及行業應用標準方面雙方也開展了深度合做,使得隱私保護下的數據合做再也不困難。

基於同PowerFL、FATE的共同研究,神盾從新設計基於聯邦學習、MPC及區塊鏈等技術的聯邦產品架構並沉下心來打磨細節。在如今的騰訊「神盾-聯邦計算」上,一個略懂算法的新手用戶不須要編寫任何腳本,也能夠經過簡單設置輕鬆完成整個聯邦建模過程。

除此以外,前文提到的衆多神盾高價值工做還同時貢獻到FATE開源社區,團隊核心成員也在2019年成爲FATE開源社區首位一級貢獻者。

騰訊神盾引入重量級數據合做夥伴TalkingData

神盾首先承載了一個聯邦計算平臺的使命,它能知足有數據合做需求的企業之間安全地完成聯合建模,可是你們都知道有價值的數據纔是這一切的關鍵,銀行有優質用戶樣本及資金流數據特徵,遊戲發行商有優質玩家的樣本,線上教育機構有分類教育用戶樣本及特徵,互聯網巨頭有巨量用戶行爲特徵,怎樣撮合這些企業進行有價值的數據合做成了神盾的又一個使命。

簡單來講就是在神盾這個平臺上任何數據需求方都能快速地找到高價值的合做夥伴,而任何進行數據合做的企業都能經過神盾-聯邦計算平臺完成安全的數據合做

TalkingData是中國領先的數據智能服務商,產品負責人閆輝跟騰訊大數據團隊有不解的淵源,在精準營銷、EMR、ES、統計分析、BI精細化運營、企業畫像等多個產品上都有深刻的探討和合做,固然聯邦學習這個大數據前沿領域也不例外。

雙方一致認同聯邦學習的價值,於2020年初達成戰略合做夥伴關係,TalkingData願和騰訊「神盾-聯邦計算」一塊兒爲客戶提供豐富、安全、多維度的聯邦數據服務。

這些都只是一個開始,騰訊「神盾-聯邦計算」團隊任重道遠,在其願景「讓企業之間的數據合做再也不困難!」上還有很遠的路要走,但爲了給各行各業帶來更好的數據合做環境、爲了給企業帶來更高的市場增加空間、爲了給用戶更好的服務,團隊將不畏艱險一往無前。

參考文獻

[1] Yang, Qiang, et al. "Federated machine learning: Concept and applications." ACM Transactions on Intelligent Systems and Technology (TIST) 10.2 (2019): 1-19.

[2] Pohlig, Stephen, and Martin Hellman. "An improved algorithm for computing logarithms over GF (p) and its cryptographic significance (Corresp.)." IEEE Transactions on Information Theory 24.1 (1978): 106-110.

[3] De Cristofaro, Emiliano, and Gene Tsudik. "Practical private set intersection protocols with linear complexity." International Conference on Financial Cryptography and Data Security. Springer, Berlin, Heidelberg, 2010.

[4] Cheng, Kewei, et al. "Secureboost: A lossless federated learning framework." arXiv preprint arXiv:1901.08755 (2019).

[5] Liu, Yang, et al. "A Communication Efficient Vertical Federated Learning Framework." arXiv preprint arXiv:1912.11187 (2019).

[6] Zhuo, Hankz Hankui, et al. "Federated reinforcement learning." arXiv preprint arXiv:1901.08277 (2019).

[7] Wang, Tengyun, et al. "A revenue-maximizing bidding strategy for demand-side platforms." IEEE Access 7 (2019): 68692-68706.

[8] Liu, Yang, Xiong Zhang, and Libin Wang. "Asymmetrically Vertical Federated Learning." arXiv preprint arXiv:2004.07427(2020).

[9] Rivest, Ronald L., Len Adleman, and Michael L. Dertouzos. "On data banks and privacy homomorphisms." Foundations of secure computation 4.11 (1978): 169-180.

[10] Paillier, Pascal. "Public-key cryptosystems based on composite degree residuosity classes." International conference on the theory and applications of cryptographic techniques. Springer, Berlin, Heidelberg, 1999.

[11] Gentry, Craig. "Fully homomorphic encryption using ideal lattices." Proceedings of the forty-first annual ACM symposium on Theory of computing. 2009.

[12] Liu, Yang, et al. "Distributed Privacy Preserving Iterative Summation Protocols." arXiv preprint arXiv:2004.06348(2020).

[13] Bonawitz, Keith, et al. "Practical secure aggregation for privacy-preserving machine learning." Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017.

[14] McMahan, H. Brendan, et al. "Federated learning of deep networks using model averaging." (2016).

[15] Clifton, Chris, et al. "Tools for privacy preserving distributed data mining." ACM Sigkdd Explorations Newsletter 4.2 (2002): 28-34.

[16] Damgård, Ivan, et al. "Multiparty computation from somewhat homomorphic encryption." Annual Cryptology Conference. Springer, Berlin, Heidelberg, 2012.

[17] Mo, Yilin, and Richard M. Murray. "Privacy preserving average consensus." IEEE Transactions on Automatic Control 62.2 (2016): 753-765.

[18] Ruan, Minghao, Huan Gao, and Yongqiang Wang. "Secure and privacy-preserving consensus." IEEE Transactions on Automatic Control 64.10 (2019): 4035-4049.

[19] Wang, Jianyu, and Gauri Joshi. "Adaptive communication strategies to achieve the best error-runtime trade-off in local-update SGD." arXiv preprint arXiv:1810.08313 (2018).

看騰訊技術,學雲計算知識,關注「雲加社區」

相關文章
相關標籤/搜索