上海交通大學副教授何建平:網絡系統中的數據隱私—量化、分析和設計

10月31日,萬向區塊鏈蜂巢學院聯合矩陣元舉辦了「區塊鏈+隱私計算與數據隱私保護」的分享活動,上海交通大學副教授何建平發表了《網絡系統中的數據隱私:量化,分析和設計》的主題演講,從隱私的量化的角度給你們介紹了保護算法分析與設計,帶領你們從技術上深刻了解數據隱私保護。如下爲什麼建平教授演講全文,有部分不影響原意的刪減:算法

 

你們下午好,今天我演講的題目是《網絡系統中的數據隱私:量化,分析和設計》。今天的演講主要分爲四個方面:背景介紹、量化隱私、分析設計、趨勢設計。數據庫

 

背景介紹安全

隨着互聯網的發展以及各類智能設備、智能傳感器的出現,咱們已經到了信息爆炸的階段。大數據的時代已經到來,在生活當中各個領域:商業大數據、農業大數據、醫療大數據以及工業大數據。服務器

 

咱們基於大數據能夠作什麼事情,有了這些數據以後能夠進行算法設計、優化、預測,能夠進行基於數據的控制和維護等等。從工業角度來講,能夠經過大數據的分析提高工業生產的製造效率和質量,支持工業設備進行節能降耗。從互聯網的思惟來看,基於數據分析能夠獲得用戶的喜愛、偏好,能夠基於這些分析的結果作一些廣告的東西,商家能夠更加的瞭解用戶,最終推出用戶更喜愛的產品。網絡

 

大數據的實用性決定了其價值,狹義的大數據一般指的是專門用於大數據的軟件、硬件及服務。咱們根據IDC和Wikibon等預測,全球的大數據核心產業規模約爲200-300億美圓,據中國信息通訊研究院預測,2017年我國大數據產業規模達到4700億,如今還在持續的增加,增速達到30.6%,預計在今年能夠達到6200億人民幣。增加速度在將來的2年內還會進一步維持。架構

 

大數據時代下,數據是一個雙刃劍,給咱們帶來便利的同時,固然也能夠給咱們帶來不少問題,最主要的問題就是隱私的問題。今年已經出現了不少隱私泄露的事件。印度10億公民身份數據庫獲得攻擊,這些信息都已經泄露、名字、電話號碼、郵箱、指紋、虹膜等等都泄露了。今年3月份,一家英國的數據分析公司經過調查問卷的方式收集到Facebook 5000萬用戶的信息,用來作政治上的操做,對Facebook形成了很大的損失。一方面,互聯網企業利用大數據給咱們不少用戶提供了不少的便利,從我的消費者來講,咱們享受便利的同時,也有新的擔憂,就是各類隱私的信息遭到了泄露。若是利用大數據爲生活帶來便利的同時,利用技術手段保護用戶的隱私這是一件很是有意義的事情。框架

 

大數據時代下,關於隱私有以下問題:機器學習

l  如何保護隱私?分佈式

l  怎麼刻畫隱私保護的程度?函數

l  數據的有用性和隱私之間的關係?

l  如何防禦和優化?

l  大數據下的隱私保護新技術趨勢?

 

量化隱私

爲了回答上述問題咱們首先須要瞭解隱私是如何被保護的,目前經常使用的隱私保護方法主要有兩大類,加密加噪聲

 

加密主要是指以算法的形式改變原有的信息數據,將明文進行加密處理後進行發送,收到數據的一方用已掌握的密鑰對密文解密,從而還原出原始數據。未被受權的用戶即便收到了信息,因爲沒有掌握密鑰仍然沒法得到原始數據。加密一般有兩種,一種是對稱加密,第二種是非對稱加密。對稱加密中加解密使用相同密鑰,非對稱加密中加解密使用不一樣密鑰。可是加密方式存在一些問題,密鑰有可能被丟,對稱加密算法簡單但容易破解,非對稱複雜性高,可是要用數據的時候效率很是低。

 

另外一種隱私保護方法是加噪聲。這種保護隱私的方式有其優勢:首先,它具備量化標準來評價隱私保護的等級;並且,經過設計噪聲添加機制,在保護隱私的基礎上能夠保證數據的可用性。常見的添加的噪聲有:拉普拉斯噪聲、高斯噪聲、均勻噪聲,下圖是它們的分佈狀況:

 

我我的比較喜歡加噪法,數據永遠掌握在本身手裏最安全的。加密你要用的話確定要有一個解密的方法,一旦這個解密的方法泄露出去了,別人老是能看到的。

 

差分隱私

2006年C.Dwork提出差分隱私的概念,爲隱私保護提供了一種量化評估方法。

 

若ϵ爲一正實數,A爲某一隨機算法,若是對於兩個只相差一個元素的相鄰數據庫D1和D2,以及全部的SRange(A),存在:

那麼隨機算法A能夠實現ϵ-差分隱私,這裏Range(A)表明隨機算法A 的輸出範圍。

 

以下圖,假設X和Y是比較近似的兩個數據,A是你要去保護的技術,你是隱私保護的方法,在A做用下之後,兩個數據的輸出,給你們能夠看到的O應該是差很少的,在這種狀況下咱們稱之爲隨機保護的機制是差分隱私。差分隱私已經被蘋果、谷歌公司應用於它們的產品當中來保護用戶隱私。

 

分析設計

英國數據公司Cambridge Analytica經過調查申請收集了Facebook用戶的信息,並將其濫用於政治目的,超過8000萬Facebook用戶的我的資料受到威脅,這一醜聞曝光後,Facebook損失了數百億美圓。這個事情背後的緣由是:

l  第三方服務請求過多信息

l  用戶不知道共享信息的潛在威脅

 

究其緣由主要是這兩點,針對這樣一個事情,咱們設計了一個全新的第三方信息共享的框架。咱們的研究目標是經過控制與第三方共享的信息,最大限度地實現隱私保障下地安全自我信息披露,所謂自我隱私披露指的是我爲了享受社交網絡帶給個人正常的服務而願意暴露的我的信息,爲了經過巧妙地隱藏用戶信息有效下降推理攻擊的準確,減小對用戶體驗的損害,知足不一樣用戶的隱私問題,咱們提出了兩種隱私保護數據共享算法,EPPD和D-KP,分別側重於最大化用戶體驗和下降計算複雜度。

 

以下圖所示是咱們的系統實現的展現,在原有的第三方系統認證OAuth2基礎上引入了咱們的隱私保護算法。左圖咱們給用戶提供了一個對第三方服務信任度選擇的接口,而且清楚的告訴用戶第三方所請求的各項服務,方便用戶決定暴露多少的我的信息。

 

經過在實際的數據集上仿真,咱們能夠看出引入了咱們提出的算法以後可以大大下降推理攻擊,對於機器學習推測用戶習慣,咱們的算法大大下降了常見分類器的準確性,保證了就算攻擊者在一個應用上學習到了個人一些用戶習慣,也不能如法炮製到下一個軟件。可見咱們的算法在最大限度地提升用戶數據公開度的基礎上提供了更強的隱私保護。

 

隨着大型互聯網系統的快速發展,各類靈活多變的系統架構模型層出不窮,主要分爲集中式和分佈式兩大類:

l  集中式:依賴中心節點,一旦中心節點遭到攻擊,整個系統性能都會受到影響,可拓展性差

l  分佈式:不存在中心化的節點,任意節點的權利和義務都是均等的,系統中的數據塊由整個系統中具備維護功能的節點來共同維護,任一節點中止工做都會不影響系統總體的運做 

 

分佈式數據統計正是分佈式系統的重大應用之一。與傳統的數據統計不一樣:分佈式數據利用分佈式技術對數據進行統計和學習,將原先集中在單節點上的龐大計算任務均衡的分派給若干臺可相互通訊的計算機上並行處理。分佈式數據統計提供異構的隱私保護一致性框架,這種方法既能準確統計結果,又量身定製般地爲每一個用戶的隱私不一樣程度地保護。

 

咱們提出了兩階段框架。首先將用戶分爲不一樣小組,白色節點表示數據服務器,N個數據服務器構建成分佈式網絡。一個數據服務器負責從一組用戶中收集數據。

 

階段一:服務器蒐集用戶數據

不一樣的數據服務器從不一樣的用戶組收集私有數據,從用戶的角度考慮,用戶認爲直接上傳數據的服務器有泄密風險,所以在數據報告以前,用戶首先用高斯噪聲擾亂其數據。而噪聲方差由用戶的隱私需求決定。

 

階段二,服務器協做統計數據

當全部服務器完成數據聚合後,如何統計整個用戶羣體的結果呢?服務器網絡執行一致性算法,在一致性過程當中,服務器節點要將本身的信息釋放出去得到相鄰服務器節點的信息從而更新自身的狀態。

 

下圖顯示了框架的整個工做流程。

 

首先,節點向服務器報告具備高斯噪聲擾動的數據, 至關於一層防火牆。加噪聚合後,收集節點數據的服務器提供的用戶隱私保護度增大,至關於自動加強了防火牆 。最後,多個服務器協做執行共識計算。

 

總的來講,咱們的異構隱私保護方案有三大優勢: 用戶上傳,安全聚合以及共識計算。

 

咱們該如何選擇添加的噪聲以知足用戶的我的隱私需求,而且保證數據發佈的效用行呢?爲了研究這一問題,咱們首先須要對問題建模。

 

在模型一中,咱們站在數據收集方考慮,既須要保證用戶的隱私確保用戶還願意給本身提供數據,同時須要保證數據的可用性,故而目標函數創建爲隱私和效用性的加權。

 

模型二中,咱們考慮在實際生活中,隱私是我的的標準,每一個人可能有不一樣的隱私保護需求,當達到必定的隱私保護水平後,如何最大化數據的效用性是具備實際指導意義的,故而咱們將目標函數設置爲數據的效用性,限制條件爲每一個人不一樣的隱私保護要求。

 

對上述兩種模型咱們經過必定合理的假設並給出結論,爲了獲得最優的總體效益(最大化隱私保護和可用性之和)的噪聲是均勻噪聲。在保證必定隱私的狀況下,爲了獲得最大的數據發佈可用性的噪聲添加機制是均勻離散噪聲,以下圖所示:

 

趨勢分析

區塊鏈做爲一種特殊的分佈式數據庫,是沒有管理員的,完全無中心的,一個個相連的區塊(block)組成。區塊很像數據庫的記錄,每次寫入數據,就是建立一個區塊,是分佈式數據存儲、點對點傳輸、共識機制、加密算法等計算機技術的新型應用模式。之前是靠信譽、靠百年老店、權威機構等,區塊鏈利用技術創建了新的信任方式,這是能夠被量化的,從技術的角度實現的,因此說區塊鏈成爲了下一個信任的基石。目前區塊鏈的隱私性主要經過匿名方式來保證,然而這種方式有可能被破解——對公開的交易帳本信息進行資金流分析。

 

怎麼樣完善這個機制呢?固然有一些新的機制出來:

l  P2P混合機制:若干用戶簽定協議,將多個交易混合成一個標準的交易,將多個提供者和接收者分別隨機排序,咱們也沒法知道某一筆資金是從哪個代號流入到哪個代號。經過破壞交易的連續性,可以使得創建代號之間的關聯更爲困難。

l  分佈式混淆網絡:多個用戶都會和某一個第三方機構達成以下協議:我先交付給該機構10個幣,過一段時間後,該機構會返還給我10個幣。經過這種方式,外部人員很難捕獲交易之間的關聯信息。可是,這種方式也面臨着第三方機構不歸還資金的風險。

l  零知識證實:資金提供者並不須要經過提供本身的身份信息來驗證資金的有效性,而只需證實該筆資金屬於一個有效資金的公共列表。

 

如何在區塊鏈中知足我的、企業、政府等對保護數據隱私要求,推進區塊鏈技術規模化落地應用必需要解決的難題。

 

蜂巢學院簡介:

「蜂巢學院」是萬向區塊鏈傾力打造的線下活動品牌,持續關注區塊鏈相關領域前沿技術與熱點話題。匯聚全球範圍內最具影響力的意見領袖、行業先鋒、創業達人、專家學者等,經過小範圍的面對面深度交流,力求記錄全新科技改變咱們所生活時代的每個重要瞬間。而時代的浪潮之中,面對無限可能的將來,咱們每個人,都是求知者和見證者。

相關文章
相關標籤/搜索