差分隱私學習總結

1. 蘋果、微軟、谷歌與差分隱私的愛恨糾葛

clipboard.png

在2016 年6 月份的蘋果 WWDC 大會上蘋果公司負責軟件工程的高級副總裁克雷格•費德里希(Craig Federighi)在WWDC上滿臉傲驕地說「We believe you should havegreat features and great privacy」,那個瞬間特別像一個小孩子,自信滿滿地向世界宣告「咱們就是能站着把錢賺了」。就這樣,差分隱私從研究論文一躍成爲科技新聞頭條。其實 Google 也有嘗試過相似的事情,在 GitHub 上開源了一個名爲RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response)的項目,從原理上來講,也是向數據中注入可控的噪音元素的方式來保護用戶隱私,早在2014 年Google就以這項技術來收集用戶使用Chrome瀏覽器時的資料。不過DP主要是由微軟研究院的C. Dwork提出及發展,微軟也已經在這個領域申請了很多的專利。遺憾的是,一如蘋果宣稱的,蘋果是惟一一家將Differential Privacy做爲標準大規模部署的公司。算法

2. 重大用戶隱私泄露事件

過去幾十年,互聯網的發展完全改變了咱們的生活。網絡逐漸成爲人們生活的中心——網購、聊天、看新聞、查股票⋯⋯,無不經過網絡進行。平常生活的網絡化塑造了一個網絡時代和一大批與咱們息息相關的互聯網公司。這些公司每每提供優質而免費的服務,並擁有巨量用戶。不過,爲了提供更好的服務,或者出於其餘商業目的,幾乎全部的互聯網公司都在儘量地記錄用戶的行爲。這些用戶數據對互聯網公司來講是珍貴的資源,由於他們能夠經過機器學習和數據挖掘從中得到大量有用的信息。與此同時,用戶數據亦是危險的「潘多拉之盒」:數據一旦泄漏,用戶的隱私將被侵犯,同時對公司的信譽也帶來莫大的傷害。近年來,咱們已經目擊了多起用戶隱私泄漏事件,幾家大公司深陷其中;而這些事件全都是因爲數據擁有者分享數據不當引發的。數據庫

20 世紀最著名的用戶隱私泄漏事件發生在美國馬薩諸塞州。90 年代中葉,該州團體保險委員會(Group Insurance Commis-sion)決定發佈州政府僱員的「通過匿名化處理的」醫療數據,以助公共醫學研究。在數據發佈以前,委員會對潛在的隱私問題已有所認識,所以刪除了數據中全部的敏感信息,例如姓名、住址和社會安全號碼(social security number)。然而 1997 年,麻省理工學院博士生拉坦婭•斯威尼(Latanya Sweeney)(現任哈佛大學教授)成功破解了這份匿名數據,並找到了時任馬薩諸塞州州長威廉•威爾德(William Weld)的醫療記錄,還將該記錄直接寄給了州長本人。
2006 年8月4日,美國在線公司的研究部門在互聯網上發佈了超過65萬用戶在過去三個月的搜索關鍵字,以供公衆對搜索技術進行研究。該公司對發佈的數據進行了匿名化處理,但僅僅是把用戶的帳號用一個隨機號碼代替,並無對用戶所提交的搜索關鍵字進行任何處理。隨後,《紐約時報》成功將部分數據去匿名化,並在通過當事人贊成後,公開了其中一位搜索用戶的真實身份。這起隱私泄漏事件引發了人們的普遍關注,並致使美國在線公司首席技術官辭職。隨後,美國在線公司由於此事件在北加州地方法院被起訴。segmentfault

網飛公司 (Netflix) 也曾深陷數據隱私泄漏的醜聞中。2006 年,網飛公司投資100萬美圓舉辦了一個爲期三年的推薦系統算法競賽,併發布了一些用戶的影評數據供參賽者測試。出於隱私保護,網飛公司在發佈數據前將全部用戶的我的信息移除,僅保留了每一個用戶對各個電影的評分以及評分的時間戳。然而,來自德州大學奧斯汀分校的兩位研究人員利用網飛用戶影評數據與公開的互聯網電影數據庫(IMDB)用戶影評數據之間的相關性,將網飛公司的一部分匿名用戶與公開的IMDB用戶進行了一一對應,由此得到了IMDB用戶在網飛公司網站上的所有電影瀏覽信息(包括涉及敏感題材的電影)。爲此,2009年,網飛公司遭到了4 位用戶的起訴,也不得不取消了原定於2010年舉行的第二屆算法競賽。瀏覽器

3. 隱私保護研究的目的

隱私保護研究的目標在於提出用以修改隱私數據的技術,使得修改後的數據能夠安全發佈(以供第三方進行研究),而不會遭受去匿名化等隱私攻擊。同時,修改後的數據要在保護隱私的前提下最大限度地保留原數據的總體信息,不然被髮布的數據將毫無研究價值。具體來講,當前的研究熱點主要集中在兩個方面:
(1)隱私保護技術能提供何種強度的保護,或者說可以抵禦何種強度的攻擊;
(2)如何在保護隱私的同時,最大限度地保留原數據中的有用信息。安全

4. 差分隱私的定義及核心技術

針對層出不窮的隱私攻擊方式和現有隱私保護機制的缺陷,來自微軟研究院的德沃柯(Dwork) 等人於2006年提出了差分隱私模型。差分隱私具備兩個最重要的優勢:(1)差分隱私嚴格定義了攻擊者的背景知識:除了某一條記錄,攻擊者知曉原數據中的全部信息——這樣的攻擊者幾乎是最強大的,而差分隱私在這種狀況下依然能有效保護隱私信息;(2)差分隱私擁有嚴謹的統計學模型,極大地方便了數學工具的使用以及定量分析和證實。正是因爲差分隱私的諸多優點,使其一出現便迅速取代了以前的隱私模型,成爲隱私研究的核心,並引發理論計算機科學、數據庫與數據挖掘、機器學習等多個領域的關注。網絡

基本思想

clipboard.png

上圖給出了差分隱私的通常性方法。當用戶(也多是潛藏的攻擊者)向數據提供者提交一個查詢請求時,若是數據提供者直接發佈準確的查詢結果,則可能致使隱私泄漏,由於用戶可能會經過查詢結果來反推出隱私信息。爲了不這一問題,差分隱私系統要求從數據庫中提煉出一箇中間件,用特別設計的隨機算法對中間件注入適量的噪音,獲得一個帶噪中間件;再由帶噪中間件推導出一個帶噪的查詢結果,並返回給用戶。這樣,即便攻擊者可以從帶噪的結果反推獲得帶噪中間件,他也不可能準確推斷出無噪中間件,更不可能對原數據庫進行推理,從而達到了保護隱私的目的。併發

定義及統計學模型

差分隱私的定義是創建在對隨機算法的約束之上的。約束的根本目的在於限制攻擊者在獲得帶噪中間件後,對原數據庫的推導能力。定義一給出了差分隱私的數學表達。框架

差分隱私定義

隱私是指我的、組織機構等實體不肯意被外部知曉的信息。例如,我的的薪資、醫療記錄等。雖然出現了多種基於 -匿名和劃分隱私保護框架的保護方法,而差分隱私保護技術被公認爲比較嚴格和強健的保護模型。該保護模型的基本思想是對原始數據、對原始數據的轉換或者是對統計結果添加噪音來達到隱私保護效果。 該保護方法能夠確保在某一數據集中插入或者刪除一條記錄的操做不會影響任何計算的輸出結果。另外,該保護模型不關心攻擊者所具備的背景知識,即便攻擊者已經掌握除某一條記錄以外的全部記錄的信息,該記錄的隱私也沒法被披露。差分隱私的形式化定義以下。dom

定義1:
給定數據集clipboard.pngclipboard.png,兩者互相之間至多相差一條記錄,即clipboard.png。給定一個隱私算法clipboard.pngclipboard.pngclipboard.png的取值範圍,若算法clipboard.png在數據集clipboard.pngclipboard.png上任意輸出結果clipboard.png知足下列不等式,則 clipboard.png知足clipboard.png-差分隱私。機器學習

clipboard.png

其中,機率clipboard.png由算法clipboard.png的隨機性控制,也表示隱私被披露的風險;隱私預算參數clipboard.png表示隱私保護程度, clipboard.png越小隱私保護程度越高。從定義1能夠看出差分隱私技術限制了任意一條記錄對算法clipboard.png輸出結果的影響。該定義是從理論角度確保算法clipboard.png知足clipboard.png-差分隱私,而要實現差分隱私保護須要噪音機制的介入。

噪音機制

噪音機制是實現差分隱私保護的主要技術,經常使用的噪音添加機制分別爲拉普拉斯機制與指數機制。而基於不一樣噪音機制且知足差分隱私的算法所需噪音大小與全局敏感性(Global Sensitive)密切相關。
定義2:
對於任意一個函數clipboard.png,函數clipboard.png的全局敏感性爲clipboard.png。其中,clipboard.pngclipboard.png至多相差一條記錄,clipboard.png表示所映射的實數空間,clipboard.png表示函數clipboard.png的查詢維度,clipboard.png表示度量clipboard.png使用的clipboard.png距離,一般使用clipboard.png來度量 。

拉普拉斯機制

該機制過拉普拉斯分佈產生的噪音擾動真實輸出值來實現差分隱私保護。

定理1:
對於任一個函數clipboard.png,若算法clipboard.png的輸出結果知足下列等式,則clipboard.png知足clipboard.png-差分隱私。
clipboard.png
其中,clipboard.png是相互獨立的拉普拉斯變量,噪音量大小與clipboard.png成正比,與clipboard.png成反比。算法clipboard.png的全局敏感性越大,所需噪音越大 。從上式可知,clipboard.png中第clipboard.png個元素由拉普拉斯噪音引發的標準絕對偏差與方差分別爲

clipboard.png

clipboard.png

指數機制

該機制主要是處理一些輸出結果爲非數值型的算法,例如,分類操做中分裂屬性的選擇問題。該機制的關鍵技術是如何設計打分函數clipboard.png,其中clipboard.png表示從輸出域clipboard.png中所選擇的輸出項。

定理2:
給定一個打分函數clipboard.png,若算法clipboard.png
知足下列等式,則clipboard.png知足clipboard.png-差分隱私。

clipboard.png

其中,clipboard.png爲打分函數clipboard.png的全局敏感性。由上式可知,打分越高,被選擇輸出的機率越大。

差分隱私的組合特性

差分隱私保護技術自己蘊含着序列組合性與並行組合性兩種重要的組合性質。

性質1.
給定數據庫clipboard.pngclipboard.png個隨機算法clipboard.png,且clipboard.png知足clipboard.png-隱私,則clipboard.pngclipboard.png上的序列組合知足clipboard.png-差分隱私,clipboard.png

性質2.
clipboard.png爲一個隱私數據庫,被劃分紅clipboard.png個不相交的子集,clipboard.png,設clipboard.png爲任一個隨機算法知足clipboard.png-差分隱私。則算法clipboard.pngclipboard.png上的系列操做知足clipboard.png-差分隱私。
這兩種性質在證實算法是否知足差分隱私以及在隱私預算分配過程當中起着重要做用。

差分隱私保護方法的性能度量

知足差分隱私的保護算法須要在保護隱私的同時,又要兼顧保護後數據的可用性以及隱私預算clipboard.png的分配策略是否合理。一般包括3個方面對隱私保護算法進行度量。

(1)算法偏差。
經常使用的應用型偏差度量方法包括相對偏差、絕對偏差、偏差的方差以及歐式距離等。此外,數據依賴狀況下的clipboard.png操做,必須考慮信息缺損帶來的偏差。

(2)算法性能。
通常利用時間複雜度與漸近噪音偏差邊界對算法的性能進行評估。

(3)clipboard.png的合理分配。
隱私預算clipboard.png表明着數據隱私保護程度。 一旦耗盡clipboard.png,將破壞差分隱私,算法自己也就失去了意義。所以,合理的預算分配策略要儘量使clipboard.png的生命週期持續長一些。經常使用的分配策略包括線性分配、均勻分配、指數分配、自適用性分配以及混合策略分配等。

參考文獻

張嘯劍, 孟小峯. 面向數據發佈和分析的差分隱私保護[J]. 計算機學報, 2014(4):927-949.數據分享中的差分隱私保護 張俊

相關文章
相關標籤/搜索