隨着互聯網業務的不斷髮展,不少機構都積累了海量的線上數據,充分利用這些數據,進行相關的數據分析、特徵挖掘、算法建模是各機構重點發展的方向。然而在大多數行業與企業中,數據是以孤島形式存在的,因爲行業競爭、隱私安全、行政手續複雜等問題,即便是在同一個公司的不一樣部門之間實現數據整合也面臨着重重阻力,在現實中想要將分散在各地、各個機構的數據進行整合幾乎是不可能的,或者說所需的成本是巨大的。算法
另外一方面,隨着大數據的進一步發展,重視數據隱私和安全已經成爲了世界性的趨勢。這給人工智能領域帶來了史無前例的挑戰,如何在知足安全和監管要求的前提下,設計一個機器學習框架,讓人工智能系統可以更加高效、準確的共同使用各自的數據,是當前人工智能發展的一個重要課題。segmentfault
近兩年,聯邦學習技術 (Federated Learning)的出現,爲跨團隊數據合做,打破「數據孤島」提供了新的解決方案。安全
聯邦學習是一種新興的人工智能基礎技術,在2016年由谷歌最早提出,本來用於解決安卓手機終端用戶在本地更新模型的問題,其設計目標是在保障大數據交換時的信息安全、保護終端數據和我的數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。聯邦學習可以使用的機器學習算法不侷限於神經網絡,還包括隨機森林等重要算法。聯邦學習有望成爲下一代人工智能協同算法和協做網絡的基礎。
在這一背景下,京東智聯雲聯邦學習平臺應運而生。本篇文章就帶你們揭開它的神祕面紗。網絡
京東智聯雲聯邦學習平臺旨在創建一個 基於分佈式數據集的聯邦學習模型。 在訓練過程當中,模型信息以加密的形式在各機構間交互,交互過程不會暴露任何機構的隱私數據,訓練好的模型在各個機構間共享。架構
前不久,憑藉在 調度管理能力、數據處理能力、算法實現、效果及性能以及安全性 等方面的出色表現,京東智聯雲聯邦學習平臺順利經過信通院的「大數據產品能力評測 」,被授予聯邦學習基礎能力專項評測證書,得到業界權威承認。框架
京東智聯雲聯邦學習平臺能夠很好地解決各個政企間數據孤島林立的現象,充分釋放AI應用潛能,實如今隱私數據安全前提下的多方聯合建模。(如圖 1)機器學習
▲圖1 京東智聯雲聯邦學習平臺▲分佈式
數據的質量和數量決定了機器學習的效果上限。爲了讓模型(如神經網絡)達到更好的效果就可能須要給模型輸入更多的數據。而大量的數據須要消耗更多的存儲和算力,此時就要依靠分佈式的方法來爲機器學習提供充足的算力、存儲以及合理的任務調度。聯邦學習也是如此,從圖 2的京東智聯雲分佈式聯邦學習架構咱們能夠看出其本質是一種加密的分佈式機器學習技術。ide
▲圖2 京東智聯雲分佈式聯邦學習架構▲工具
京東智聯雲聯邦數據平臺能夠打通合做方之間的數據孤島,讓多方數據在相互隔離的環境下,創建虛擬共有模型,充分釋放AI潛能,實現「共同富裕」。
▲圖3 聯邦學習應用場景▲
如圖3所示,京東智聯雲聯邦數據平臺能夠打通京東自有數據與合做方之間的數據壁壘,在數據相互隔離的環境下進行建模,創建在京東數據賦能下的共有模型,實現應用場景的深度挖掘與創新。
京東智聯雲聯邦學習平臺由聯邦學習客戶端和京東智聯雲網關組成,客戶端主要負責數據加密和科學計算工做,京東智聯雲網關負責把必要的加密的參數在各個參與方的客戶端間傳輸。
客戶端以鏡像的方式交給各參與方,聯邦學習各參與方開發人員無需關心操做系統版本和開發相關的軟件環境,直接加載鏡像便可。在鏡像內啓動聯邦學習平臺,就能夠開始聯邦學習訓練了。
京東智聯雲網關主要工做包括: 對聯邦學習客戶端作系統鑑權、給各參與方傳遞必要的加密的參數。 爲了保證各參與方的網絡安全,京東智聯雲聯邦學習平臺採用單向的網絡傳輸策略,即各參與方能夠發送網絡請求給京東智聯雲網關,而京東智聯雲網關沒法發送網絡請求給各參與方。有了該策略的支持,企業能夠只開放網絡的上行權限,而關閉下行權限。這有效緩解了某些參與方對網絡安全的擔憂。
同時,京東智聯雲聯邦學習平臺支持兩種樣本對齊方式,分別是聯邦加密對齊和MD5對齊,聯邦加密對齊用RSA算法結合隨機噪聲,幫助兩個參與方找到相同的用戶ID,保證非共有的ID不會泄漏給對方。
京東智聯雲自研梯度信息保護,參與訓練的各方均在本地更新本身的模型參數,所以能夠在加密梯度發送以前,加入足夠大的噪聲,解密方接收到的是沒法恢復的加噪聲梯度,而本方能夠 經過減去該噪聲恢復真實梯度,繼而進行本方的模型參數更新。這樣 的設計充分保護自身梯度信息,同時保證了模型精度。
此外,京東智聯雲聯邦學習經過分析稀疏格式數據的存儲方式,結合同態加密對加法、數乘運算的支持,巧妙地實現了稠密加密數與稀疏數據間的矩陣乘法運算,運行效率只與非零元素個數有關。
京東智聯雲聯邦學習還提供 Logistic regression 、 XGBoost 、 DNN 等算法。支持Pearson、Spearman、WOE(weight of evidence)、IV(Information Value)等特徵分析算法,提供了異常值填充、歸一化、特徵分桶、Count_Encoding、One-Hot等特徵處理工具。
京東智聯雲聯邦學習平臺不依賴Spark、Yarn、K8s等三方框架,整個網絡的搭建是基於Google全新推出的Tensorflow2.0和其高階API tf.keras。在雙塔網絡的基礎上,用戶能夠本身定義每一個塔的DNN結構。相較於Tensorflow 1.x,新版Tensorflow模型的調試更簡單,API相對清晰,且tensorflow 2.x也會是將來的趨勢。
在FATE的模型訓練過程當中,使用的是Tensorflow中的Sequential API ,沒法很好地將bottom網絡和interactive網絡的計算流暢地串聯起來—訓練過程當中,bottom網絡的前向傳播的結果,沒有記錄在反向傳播中。這致使反向京東智聯雲聯邦學習傳播時,須要再次進行前向傳播。兩次地前向傳播,一方面會增長運行時間,另外一方面,若是網絡中包含隨機數,極可能產生錯誤的結果。而在京東智聯雲聯邦學習平臺中,採用的是 Subclassing API,更具備靈活性,訓練過程當中只需一次前向傳播便可,可有效下降運行時間和隨機數帶來的不穩定性。
針對不一樣安全要求級別,支持SaaS化的API接口在線預測、客戶端內走聯邦實時預測兩種方案,前者計算更快,後者更安全。
目前,京東智聯雲聯邦學習平臺已經普遍服務於 零售 、 汽車 、 教育 、 風控 等行業。在汽車行業,建模訓練2周後,模型效果即顯著提高17%,實現客戶轉化率與ROI雙重提高,驅動企業實現全鏈路數智化轉型。
某汽車品牌多家線下4S店經過聯邦學習平臺安全融合線上線下數據,並利用機器學習技術共同建模;該模型有效預測了到店購車的人羣、用戶對車型的偏好,同時對每一個用戶的到店機率及車型偏好進行評分,配合短信與電話觸達高潛人羣,大幅提高銷售的成單效率以及不一樣車型的轉化率。
在部署方面,京東智聯雲聯邦學習三天內便可完成平臺的部署調試工做,一週內便可開始使用。同時支持可視化特徵分析,不用手寫代碼,在頁面選擇點擊便可實現特性相關性分析。
歡迎點擊【京東智聯雲】,瞭解開發者社區
更多精彩技術實踐與獨家乾貨解析
歡迎關注【京東智聯雲開發者】公衆號