互聯網數據隱私拉鋸戰

頻繁爆發的數據泄漏問題

因爲頻發數據隱私事件,我的和政府對於數據隱私愈加重視,根據今年兩會新聞發佈會的消息:全國人大常委會已將制定我的信息保護法列入本屆立法規劃。前有 GDPR,後有在路上的新法律,這個時代,做爲我的咱們應該對本身的數據隱私有什麼樣的指望,做爲企業如何才能保證本身開發的 App 能有效的保護用戶的數據呢?html


系統安全致使的數據泄漏git

21世紀的第 2 個十年,隨着技術的發展,咱們的數據存儲和處理能力有了長足的進步,隨之而來的數據泄露問題,也有愈演愈烈的趨勢。下面這張表展現了截止 2018年8月 主流外媒報道過的 10 大數據泄露事件( 趨勢科技 Data Breaches 101 ):github

Top 10 data breach

能看得出來,即便是有錢有技術實力的大廠,對本身對外暴露的 API 作了規範,作了無數的滲透測試 & 防護,也不能避免"被數據泄露"。也正是因爲是掌握了大量用戶數據的大廠,數據泄露一旦發生必然 "不一樣凡響"。sql

But,Why???

想要了解其中原因,要從黑客的攻擊手法提及:數據庫

黑客的攻擊手法

How data breach

借用趨勢科技的一張示意圖,黑客攻擊通常分爲四個階段:後端

I 調研

從網絡、系統、人等多個角度尋找目標的漏洞,這方面的防護因爲牽涉面太廣,大部分組織都是以教育和自查爲主;安全

II 攻擊

這裏能夠大體分爲兩種方式服務器

  1. 「正門強攻」:針對基礎設施的攻擊,傳統的防火牆主要防範的就是這類攻擊。
  2. 「歪門邪道」:指的是偏 "社會工程學" 的攻擊手段,例如:郵件釣魚、盜版軟件放木馬、假 WiFi 釣魚、社交網絡冒充,甚至肉身混進公司……。若是是及其有價值的目標,更是不惜動用大量價值連城的 0Day 漏洞:

III 拖庫

只要攻進公司辦公網、甚至服務器,因爲數據庫的歷史緣由(後面會詳說)數據庫的地址、密碼通常都是明文放在代碼裏的。即便沒找到密碼,直接把數據文件拷走就是。剩下的事情就是架橋鋪路把有價值的數據回傳。因爲開發簡單,適應性強,大部分涉及用戶隱私的業務都採用 DBMS(Database Management System,關係型數據庫)來做爲存儲。因此,不管是 "正門強攻" 仍是 "歪門邪道" 都劍指 DBMS網絡

IV 匿跡

  1. 各類數據泄露被曝光的都只是少部分,或者是攻擊發生好久之後,數據被黑產逐層消化到價值殆盡才被公衆所知;
  2. 對於比較有價值目標,黑客會選擇潛伏,不斷的獲取更有價值的數據;
  3. 因爲大部分的 IDS(Intrusion Detection System)自己也採用的是簡單的文件存儲或者普通數據庫……

管理疏忽致使的數據泄漏

影響比較大的事件,莫過於 2018年3月 發生的「Facebook Cambridge Analytica數據泄露事件」。這次事件中「Cambridge Analytica」在 Facebook 知情的狀況下收集了 8700萬用戶的數據。有分析指特朗普在2016年的美國大選中勝出或與這次泄密門有着諸多聯繫,並且泄密門背後又有通俄門的陰影。受該醜聞影響,當日 Facebook大跌7%,市值蒸發360多億美圓。架構

Facebook & Cambridge Analytica & Trump


服務提供商怎麼作

系統安全防禦有一個原則:

安防最佳切入點在整個系統 架構收斂的點

第一道防線

大部分的安全措施都集中在 API Gateway 也正是順應這種思路天然而然的結果。

Typical App Arch


如今的 App 開發,包含了 Web App、Android、iOS、Applet 等各類端的開發。爲了開發效率和方便管理,通常都是後端爲以上全部的 Client 端提供統一的 API 以供調用。因爲各個開發者採用的技術棧的差異,開發出來的 API 也是百花齊放。這也同時致使了各類沒有足夠安全考量的 API 成了數據泄露的重災區。

API disaster

絕大部分在 API Gateway 層面的通用防護機制(包括筆者曾經參與過開發的 "xxx網站衛士")效果有限也正是因爲協議層以及編碼層的複雜性致使。

第二道防線

若是從新考慮如今後端開發的基本架構,咱們能夠發現:系統中另外一個收斂的點就是 數據庫

現有可堪大用的 DBMS 幾乎都是上個世紀的產物。因爲歷史侷限性,缺少語句級別細粒度的權限控制。加上因爲數據庫自己的理論和工程難度,好久以來你們都是經過 DB Proxy 爲首的增長中間件的方式在外圍"縫縫補補",例如:

  • ProxySQL:MySQL 數據庫領域著名廠商 Percona 主推的方案;
  • Vitess:YouTube 從2011年就在作的方案,工程質量很高。如今 Go 語言的大部分 SQL 語法解析的庫都和這個項目很有淵源;

但即便是 Percona、Google 這樣技術實力的大廠也沒能讓 DB Proxy 成爲主流方案。究其緣由,主要有以下幾點:

  • DB Proxy 方案因爲不少執行步驟和數據庫是重複的,對系統性能和穩定性有不容易估計的負面影響;
  • DB Proxy 的初衷主要是解決數據庫水平擴展的問題,解決了一部分問題,但引入了更多的問題;

第〇道防線

當「銅牆鐵壁」築起,看門人的鑰匙愈發的燙手。

Zuckerburg 認可在「Cambridge Analytica」事件發酵以前,Facebook 的團隊對他們大規模收集用戶數據的行爲已經有了察覺,但沒有引發足夠的重視。隨後在歐盟議會舉行的「Cambridge Analytica」事件聽證會開場白中,Zuckerburg 再次認可:

「目前清楚的是,在過去幾年中,咱們沒能很好地阻止本身開發的工具被用來作壞事的行爲。不管是假新聞事件、國外團體干涉總統選舉事件、仍是開發者濫用用戶數據事件,咱們沒能履行好本身的職責。這明顯是錯誤的,我在此進行道歉。」

可是公平的講,Facebook 在保護用戶隱私方面不管從意識仍是技術上都是業界領先的水平。卻仍是沒有避免悲劇的發生,這也促使數據安全問題從互聯網從業者的事,變成了社會熱點問題。

每一個人的數據權利

霸道的用戶條款

長期以來因爲整個社會對於數據權利的漠視致使了不少無恥的用戶條款的誕生,下面是2017年某 App 的用戶條款,大體意思爲:

  1. 你上傳上來的視頻、你的評論的全部權利都是個人;
  2. 若是因爲任何狀況你給我惹麻煩了,你是要賠我錢的;
  3. 親愛的用戶,註冊本 App 至關於認可我是你爸爸,並且是惟一的爸爸

截圖:

快手用戶條款 2017
圖片來自: www.getit01.com/p2018011516…

數據全部權

數據做爲這個時代的「新石油」,特別是集中存放的數據對黑客有着致命的吸引力,中國有句老話:「不怕賊偷,就怕賊惦記」。比起和黑客的功放遊戲,更根本的問題是:

互聯網創生的早期,極少有人意識到數據的價值,幾乎全部的廠商都有意無心地經過誘導用戶點擊 贊成用戶協議 把咱們的數據綁架,並且這個趨勢正在向着更加集中的方向發展。

然而,在這波互聯網浪潮中,因爲語言和政治的割裂致使歐洲大陸沒有產生一個有影響力的互聯網寡頭。這反而使得歐盟在對於互聯網隱私的思考中更偏向於站在普通用戶的一方進行思考。GDPR 這樣對於互聯網廠商極爲嚴苛的法律誕生於歐盟這樣看來也是一個必然。

GDPR 的要求和侷限

GDPR

簡單來講 GDPR 對於互聯網廠商的要求有以下三點:

  1. 用戶要有對本身的數據會被如何使用的知情權
  2. 用戶有被遺忘權有權要求刪除本身在站點的全部數據;
  3. 若有違反,就處罰上一年全球年營業額的4%,至少2000萬歐元

GDPR 整體來講只是一個指導性的法規,對於廠商應該如何作,作到什麼程度,沒有給出細節的指導。

好比,知情權 廠商應該對知情權執行到什麼程度?因爲數據被存儲在互聯網廠商控制的數據庫中,如何發現和取證用戶數據被濫用?

再好比,被遺忘權 實際在執行的過程當中會是一個及其困難的功能,2019年2月,Zuckerberg 在哈佛大學的研討會上的發言就說起了這一點:

扎克伯格表示,使Facebook用戶可以清除Facebook上的瀏覽歷史數據的工具仍在開發中。 並且他認可,開發這種工具是複雜的,須要花費一段時間。
「信息渠道深刻到各類不一樣的系統,」扎克伯格解釋說。這裏的意思是,Facebook從如此衆多的地方收集如此多的數據,以致於清除這一切的記錄變得比Facebook最初想象的要可貴多。

香港的 Privacy Ordinance 現狀和實踐

在法律法規上,筆者認爲作的比較好的是中國香港的 Privacy Ordinance,其核心準則是:數據使用和蒐集的目的一致;用後即刪。和歐盟的 GDPR 殊途同歸,甚至更具備操做性,很值得咱們去參考。

中國香港做爲中國改革開放的窗口,在公民數據權利的探索和實踐上也是很超前的,社會各界對於這方面的關注也相較大陸要高一些。早在 2013 年在香港的手機應用市場上線了一個軟件名曰"起底你",和如今大陸的"天眼查"、"企查查" 相似,都是經過聚集向公衆開開放的數據,加以整理而成的可以查詢工商註冊、訴訟信息的 App。

起底你

這麼一個懷着善意使用 Open Data 的 App 後來因爲遭到各類侵犯隱私的投訴而被各應用市場下架,開發者頗爲忿忿不平

隨着技術的進步,原本沒有被普遍關注的 Open Data 忽然被擺在咱們面前的時候,也是會讓大衆措手不及。但做爲一個技術人,筆者仍是相信,技術的進步最終會讓每一個人的數據權利獲得更好的保障。

科技賦權的將來

人工智能

如今被普遍使用的 AI(Artificial Intelligence),大體能夠理解爲已知函數 f(x_0,... ,x_n) = y_n ​ 的多組結果:

f(x_{01}, ... , x_{0n}) = y_0
f(x_{11}, ... , x_{1n}) = y_1
.....
f(x_{m1}, ... , x_{mn}) = y_m

用各類方法儘可能的求一個近似的 ​ F(x_0,... ,x_n) = Y ,儘可能讓 ​ Y_m 在統計上和 ​ y_m 儘可能接近。如今的互聯網商業上普遍把這種技術用於向你推薦各類商品,也就是這樣的一個方程:

F(性別, 位置, 手機型號, 購買過的商品, 搜索過的關鍵詞, 商品類別, 商品品牌, 商品價位 ) = 下單機率打分

而後把全部商品裏 下單機率打分 最高的放到最好的位置上,這樣你的購買行爲在必定程度上就被「AI 預測」甚至是「控制」了。

AI recommendation
via capgemini.com/blog/

基於一樣的原理,「Cambridge Analytica」經過收集 8700萬 用戶的社交網絡數據,就能夠分析出每一個人,對於各類 label 的好惡。舉一個不太恰當但容易理解的例子:假設「Cambridge Analytica」受託提升 Trump 相關新聞的點贊率,策略是對每一個人投放「定向新聞」,經過分析你是一個特別關注「平權運動」的人。那麼就重新聞庫裏找出一些符合「Trump」& 「支持平權」的新聞,有意無心地在你的社交媒體 Timeline 中展示幾回,就像電影《盜夢空間》裏同樣對你的意識進行 「Intercept」,從而在統計學上對支持率產生必定的影響。

區塊鏈

區塊鏈技術的誕生和被普遍關注,給 數據全部權 的問題帶來了一線起色

用戶重掌數據權利

舉一個簡單的例子:將來咱們的我的數據,均可以存儲在去中心化的雲端數據庫,像比特幣同樣,能夠經過一個密鑰徹底的控制本身的數據。與之配合的能夠制定一個很是具備可行性的 數據使用規範,核心是要求廠商對於用戶的數據嚴格執行 限定用途、用後刪除 的原則。例如假設 Facebook 是咱們可信的廠商,遵循規範,咱們能夠給 Facebook 一個咱們受權僅能夠讀取咱們姓名、年齡、朋友列表的密鑰。同時,Facebook 對於咱們數據的每次讀取都會被記錄,若是咱們發現 Facebook 用咱們的數據作了一些咱們不但願的事情,能夠隨時吊銷這個密鑰並進行追責。因爲用戶徹底掌握了本身的私人數據,用戶的數據庫公鑰就成爲了真正的「互聯網 ID」。

數據流通

在數字時代,不少人都說數據是這個時代的「新石油」,但和石油不同的是,數據只有流通起來,才能釋放其中蘊藏的巨大價值。當前,仍有大量數據還沉睡在政府、企業、我的手中,數據的共享、開放、流通和應用程度還遠遠不夠,距離最大程度發揮數據價值讓全社會共享還存在巨大的鴻溝。大數據行業的創業公司或者研究機構最爲頭疼的事情莫過於沒有數據,普通的用戶能夠經過收費的形式對這些研究機構進行數據受權。這樣就能夠造成一個共贏的局面,避免存儲了大量咱們數據的巨頭的 數據霸權

結語

互聯網數據權利的問題是一個須要社會認知、法規、技術一塊兒來解決的問題,須要整個社會一塊兒來推進解決。如今的互聯網在這方面顯得有些殘缺不堪,咱們堅信互聯網應該不止於此。

做者介紹

  • Auxten: 曾就任於 百度、360、同程藝龍、第四範式。對服務端開發、後端安全、Android 底層、基礎架構、AI 都只懂一點點。在構建 CovenantSQL:一個致力於改善用戶互聯網數據權利的去中心化數據庫。
  • 服老思:HK 某大學青年教師,長期關注大數據和區塊鏈,探索傳媒應用與教學。

Refs:

相關文章
相關標籤/搜索