基於安全壓縮感知的大數據隱私保護算法
王平1, 張玉書2, 何興1, 仲盛3安全
1 西南大學電子信息工程學院,重慶 400715服務器
2 南京航空航天大學計算機科學與技術學院,江蘇 南京 211106網絡
3 南京大學計算機科學與技術系,江蘇 南京 210023框架
摘要:當前的數據「大爆炸」主要受萬物互聯的驅動,服務於人類衣食住行的各種物聯網感知設備時刻在捕獲我的隱私數據,然而,這些隱私數據已成爲網絡***的重點目標。分析了資源受限的物聯網應用中的數據安全問題,介紹了基於壓縮感知理論的隱私保護技術—— 安全壓縮感知,提出了相應的大數據採集方案,而且經過安全性理論和實驗分析給出告終論性的呼籲:將安全壓縮感知做爲一種感知層內置的輕量級加密機制,以近乎零的成本爲數據提供第一層安全防禦。less
關鍵詞: 安全壓縮感知 ; 大數據 ; 物聯網 ; 隱私保護ide
論文引用格式:性能
王平, 張玉書, 何興, 仲盛.基於安全壓縮感知的大數據隱私保護. 大數據[J], 2020, 6(1):3-11測試
WANG P, ZHANG Y S, HE X, ZHONG S.Big data privacy protection based on secure compressive sensing. Big Data Research[J], 2020, 6(1):3-11大數據
1 引言
隨着數字化和信息化程度的不斷提高,全球已進入大數據時代。根據國際數據公司(International Data Corporation,IDC)在2018年11月發佈的調研報告顯示,全球大數據存儲量呈現爆炸式增加。如圖1所示,全球數據量預計將從2018年的33 ZB增至2025年的175 ZB。值得興奮的是,中國數據圈佔比將從2018年的23.4%(即7.6 ZB)增至2025年的27.8%(即48.6 ZB),成爲全球範圍內最大數據圈。大數據是人、機和物在網絡空間中交互、融合所產生並在互聯網上可得到的數據集合,其具備容量大、類型多、集中化存儲的特色,經過現代化大數據分析和預測手段,能夠充分挖掘其背後隱藏的新知識、新價值和新動力,進而在電信、互聯網、金融、交通、醫療等行業創造新的商業模式和應用價值。目前,大數據逐步成爲國家基礎戰略資源和社會基礎的生產要素。
目前,數據的增加主要受到來自物聯網數據、元數據和與娛樂相關的數據增加的影響,其中物聯網數據增速迅猛。在萬物互聯的時代,成千上萬的傳感器、服務器和智能終端構成一個比傳統互聯網更加普遍的物聯網,人們能夠從外界感知信息,信息交互再也不僅限於人與人之間。物聯網的發展必然伴隨着局域鏈接與廣域鏈接業務的急劇增加,隨着5G商業化落地,聯網終端會進一步增多,這將會產生海量的物聯網數據。預計到2025年,全球各地聯網的數十億臺物聯網設備將產生超過90 ZB的數據,這主要受到車聯網、無人機網絡、可穿戴設備網絡和各類監測網絡等的驅動。在大數據和物聯網時代,人始終是物聯網的中心,各類物聯網應用服務於人類的衣食住行。無所不在的數據收集技術和專業化、多樣化的數據處理技術,使得我的難以控制隱私數據的收集情境和應用途徑。因其蘊藏的巨大潛在價值和逐漸集中化的存儲管理模式,隱私數據成爲網絡***的重點目標。根據數字安全領域的金雅拓公司(Gemalto)統計,僅2018年上半年,全球範圍內公共數據泄露事件達945起,致使45億條信息泄露。如何保障大數據隱私安全成爲一項迫在眉睫的全球性問題。此外,爲了追求極致的用戶體驗,物聯網終端設備廣泛呈現出輕量化、可植入化的特色,在資源受限的應用環境下數據安全更加難以保障。
壓縮感知(compressive sensing,CS)採用混沌密碼對採樣數據進行二次強加密。也有研究代表,當採用高斯隨機數發生器構造測量系統時,經過隱藏樣本的能量信息可實現完美加密。此外,一種基於SCS的多級加密框架被提出,針對不一樣權限級別的用戶,從密文中獲取的信息量是不一樣的。
圖1 每一年全球數據量增加狀況預測
本文首先經過介紹CS理論基礎引出SCS技術,即嵌入保密性的CS。而後,提出SCS技術廣泛適用的物聯網場景模型,而且從密碼學的角度給出理論分析。最後,經過仿真實驗進一步闡述SCS技術的可行性和安全性,並給出結論性的呼籲,即將其做爲一種低成本的、內置保密性的信息獲取技術,普遍應用在資源受限的物聯網場景中。
2 壓縮感知理論
CS理論基於信號的稀疏性或可壓縮性,不一樣於傳統的先採樣後壓縮過程(如圖2所示),其可以同步執行採樣和壓縮操做,而且經過解決欠定方程,系統可以精確地重構出原始信號。假定一個長度爲N的一維信號X,可以在一個大小爲N×N的變換矩陣圖片的做用下稀疏化,那麼稱之爲K-稀疏信號,其中圖片。稀疏過程表示爲:
其中,S爲一個長度爲N的係數向量,包含至多K個非零元。若是S是由佔絕大多數的小數值元素和少許的大數值元素組成的,那麼X被稱爲可壓縮信號,能夠經過將全部小數值元素視爲零元素進行近似稀疏表示。幸運的是,大部分天然信號在預知的一組基上能夠進行稀疏化。
圖2 壓縮感知和傳統採樣對比
在CS理論中,經過構建一個與圖片不相干的大小爲M×N(K<M<<N)的矩陣圖片來線性測量原始信號x,該過程可表示爲:
其中,Y表示長度爲M的測量值向量,圖片和圖片分別叫做測量矩陣和傳感矩陣。採樣時用的是測量矩陣圖片,而重構時用的是傳感矩陣A。
由條件K<M<<N能夠看出,CS理論主要解決的是欠採樣狀況下的信號重構問題。本質上,這是一個病態的求逆問題,即經過式(2)求解X是一個欠定問題,不具有惟一解。可是,基於原始信號是K-稀疏的先驗信息,即信號X只有K+1個自由度,理論上僅需超過該自由度的測量數即可以經過最優化方法重構原始信號。具體的作法是求解如下的l0最優化問題:
其中,ε表示噪聲。求解式(3)是經過遍歷全部可能狀況的集合來找到最稀疏的形式,顯然這是一個NP難問題。經常使用的重構算法包括匹配追蹤(matching pursuit, MP)和正交匹配追蹤(orthogonal matching pursuit,OMP)。經研究代表,求解式(3)可等價於求解如下的l1最優化問題:
求解式(4)是一個線性規劃問題,利用經常使用的基追蹤(basis pursuit,BP)算法即可準確地重構信號。
爲了保證可以精確地從測量值Y中重構出原始信號X,除了信號的稀疏性這一先驗信息,測量矩陣圖片與變換矩陣圖片應該儘量不相干。對此,傳感矩陣A須要具有如下受限等距特性(restricted isometry property,RIP):
存在δK∈(0,1),對於全部的K-稀疏信號s,使得上述不等式成立。事實上,檢驗一個矩陣是否知足RIP條件也是一個NP難問題。Candès和Tao指出,由獨立同分布的高斯或伯努利隨機變量構成的隨機測量矩陣與任何一個固定變換矩陣大機率不相干。整體來講,待採樣信號的稀疏化程度越高,測量矩陣與變換矩陣之間的不相干程度越高,信號重構效果便會越好。
3 基於壓縮感知的大數據隱私保護
該節首先在CS理論的基礎上介紹融合混沌理論的SCS技術;而後,針對大數據時代的我的隱私泄露問題,構建了SCS技術廣泛適用的物聯網場景模型;最後,從信息理論上給出SCS技術的安全性分析。
3.1 安全壓縮感知
在CS理論中,原始信號X的成功重構依賴於測量矩陣圖片的真實性。所以,當將圖片視爲一種特殊的密鑰時,基於CS的信息獲取系統可同時被視爲一種特殊的對稱密碼系統,這即是所謂的SCS。衆所周知,一個密碼系統由5個基本元素組成,包括明文、密文、密鑰、加密和解密。圖3直觀地展現了CS和對稱密碼之間的對應關係,也就是原始信號對應明文,採樣獲得的測量值對應密文,測量矩陣對應密鑰,採樣過程對應加密過程,重構過程對應解密過程。值得注意的是,因爲CS是一種有損壓縮技術,解密所得的明文與原始明文註定是非一致的。此外,信息與通訊系統中的白噪聲和重構算法只進行有限次迭代,而引入的重構噪聲也將使解密算法不能完美地獲得原始明文。
本質上,CS是一個線性映射過程。當掌握充分多的明密文對時,***者能夠輕鬆計算出採用的某個固定測量矩陣。爲了達到較高的安全級別,基於CS的對稱密碼系統須要頻繁地更新密鑰圖片,甚至採用一次一密的設置。由前文可知,密鑰尺寸圖片是遠大於明文X尺寸的。假若採用一次性的圖片,每次測量都須要傳輸遠多於採樣數據的密鑰數據,這反過來將致使嚴重的數據災難,明顯與CS的設計理念相違背。爲了不直接傳輸大尺寸的圖片,而且保持CS低複雜度採樣的優點,能夠嘗試經過混沌系統生成混沌序列,進而用來構造測量矩陣。
圖3 壓縮感知與對稱密碼之間的對應關係
混沌是非線性動力學系統中特有的一種運動形式。混沌系統本質上是一種肯定性系統,但其呈現出非週期性和僞隨機特性。一維混沌系統可表示爲:
其中,f(⋅)表示某種確切的映射關係, c0爲該混沌系統的初始輸入值,即種子值。由以上混沌系統產生的混沌序列圖片經等尺度變換和等間距抽樣操做後,可獲得一個長度爲M×N的僞隨機序列圖片。按照逐列填充的方式,即可構成如下的混沌測量矩陣:
其中,σ2表示混沌序列Z(c0)的方差。由混沌理論可知,混沌系統對種子值c0十分敏感,一旦c0發生輕微變化,生成的圖片將截然不同。所以,將輸入混沌系統的種子值c0做爲SCS的密鑰,即可避免頻繁更新測量矩陣帶來的沉重通訊負擔。值得注意的是,由於傳感矩陣A必須知足RIP條件,因此並不是全部的混沌系統均適合用來構造測量矩陣。
在這裏,介紹兩種經常使用的混沌系統,即Logistic映射和Tent映射,它們均已被證實大機率地使傳感矩陣知足RIP條件。Logistic映射可表示爲:
其中,({µ,c}0)是初始輸入值。當µ∈((3..556699945 6,,4]]時,Logistic映射進入混沌狀態。但當µ=4時,Logistic映射被稱爲滿映射,生成的混沌序列具備最好的僞隨機特性。然而,由Logistic映射產生的混沌序列並不知足均勻分佈。爲了獲得更好的隨機特性來抵抗統計分析,須要對產生的混沌序列進行額外的非線性變換。對此,採用Tent映射能夠產生近似均勻分佈的混沌序列。Tent映射可表示爲:
其中,初始輸入值µ,c0∈(0,1)。
SCS技術的核心是在沒法獲知圖片的狀況下,恢復X是不可實現的。所以,如何保障圖片的安全是最關鍵的任務。在安全威脅小的狀況下,能夠採起按期改變混沌系統的初始輸入值的方案,以節約採樣時間。在安全威脅大的狀況下,便須要採起一次一密的加密模式。
3.2 隱私保護的大數據採集方案
大數據的發展主要受到物聯網和雲計算技術的驅動。物聯網致力於將天然萬物相互關聯,構建一個普遍、有序和智能的網絡環境,其依靠各類感知設備獲取聯網物體的信息,以數據的形式完成信息交互。面對物聯網的不斷擴張,時刻噴涌而出的海量數據逐步向雲端遷移。據IDC預測,到2025年, 49%的全球已存儲數據將駐留在公共雲中。在雲中心,數據能夠被實時地處理和分析,而且將獲得的結果及時反饋給終端用戶。同時,經過集中化的數據管理機制,海量數據背後隱藏的巨大價值將被進一步挖掘,並服務於人類社會的生活、生產。
數據是一種特殊的資產,我的隱私數據尤爲容易招致惡意***。目前,物聯網感知設備日益輕量化,資源受限問題也愈來愈突出。在大量的物聯網應用中,無線傳感器網絡(wireless sensor network,WSN)是最底層的信息感知方式。對於單個傳感器節點來講,可利用的資源十分有限,高複雜度的非對稱密碼系統經常不適合嵌入其中。SCS技術能在近乎不增長硬件成本的狀況下,將保密性嵌入壓縮採樣的過程當中。同時,CS充分考慮了數據的冗餘性,僅需遠低於傳統採樣理論要求的樣本數量即可準確地重構原始信號,這將顯著下降網絡中的數據量,進而有效地減輕信息與通訊系統的負擔。可是本質上,CS是一個複雜度轉移過程,即發送端的低功耗採樣是以接收端的高複雜度重構算法爲代價的。幸運的是,隨着智能終端算力的不斷提高和雲計算技術的迅速發展,重構算法的高複雜度問題可以在雲端或者終端獲得有效解決。
在這裏,SCS技術的廣泛適用場景模型被提出,如圖4所示。首先,置於感知設備物理層的僞隨機數發生器根據輸入的種子值(即SCS密鑰)生成混沌序列,進而構造出混沌測量矩陣;而後,隨機採樣獲得的測量值通過量化、編碼後,數據流向相應的客戶機,在這裏可經過非對稱加密算法進行二次強加密處理;接着,加密數據通過通訊基站進入公共互聯網;最後,經過公共信道傳輸至雲數據中心進行存儲和處理。當受權用戶須要訪問原始信息時, SCS密鑰被受權給可信任的雲服務提供商進行重構(解密),而後將重構結果進行反饋。固然,雲數據中心也能夠僅發揮大數據存儲的做用,發回的測量值在算力充足的智能終端上進行重構。
值得注意的是,SCS密鑰在發送端和接收端之間的安全傳輸須要憑藉安全信道或者公鑰密碼技術完成,它的權限掌握在合法用戶或者可信任的第三方手中,而且須要被頻繁地更新。在如此的應用場景下,經過基於混沌和CS的信息獲取技術能夠安全高效地採集數據,這極大地下降了物聯網中感知設備和通訊設備的負擔。
圖4 安全壓縮感知技術的應用場景模型
3.3 安全性分析
從密碼學的角度來看,基於SCS的信息獲取系統也是一種輕量級對稱密碼系統。根據香農對信息理論安全的定義,絕對安全的密碼系統可以保障***者沒法從非法竊取的密文Y中獲取任何有關於明文X的信息,即知足圖片。換句話說,明文X和密文Y之間的互信息爲零,即知足圖片。本質上,SCS是一個線性映射過程,缺少非線性混淆機制,明文X和密文Y之間存在着線性相關,沒法實現信息理論安全。可是,當採用高斯隨機測量矩陣時,密文Y僅暴露明文的能量信息圖片,且僅密文的能量信息圖片 能泄露與明文X有關的信息,這種狀況被稱爲漸進球面安全。這也意味着,能夠經過隱藏密文的能量來實現信息理論安全。
面對融合混沌理論的SCS應用,***者若想獲得真實的測量矩陣圖片,進而從竊聽的密文y中非法重構出明文,將必須面臨着破解混沌密碼系統或者隨機猜想的困難。SCS應用在計算上的安全強度主要取決於密鑰空間大小,即***者可否在有效時間內調用全部可支配的計算資源成功遍歷完整個密鑰空間,這種暴力***的方式對混沌密碼系統來講通常是徒勞無功的。儘管SCS缺少非線性混淆機制,但若採用一次一密的加密模式,***者依然沒法經過已知信息或選擇明文的***手段從可利用的明密文對中獲取任何有價值的消息。
4 實驗結果和分析
本節經過仿真實驗簡要地驗證了融合混沌理論的SCS技術的可行性和安全性。本文選擇512×512像素的標準Lena圖做爲測試對象,選擇Tent映射和Logistic映射構建混沌測量矩陣,而且利用二維離散小波變換(2DWT)進行信號稀疏表示。此外,全部的實驗均採用OMP算法重構信號,經過峯值信噪比(peak signalto-noise ratio,PSNR)衡量重構信號質量。須要說明的是,全部的仿真實驗都在MATLAB R2015b軟件中執行,而且以上實驗條件的設定與SCS技術的可行性無關。
4.1 可行性
爲了驗證混沌測量矩陣可以發揮與傳統隨機測量矩陣類似的效果,本文利用Logistic映射和Tent映射構建混沌測量矩陣,而且將它們與Gaussian測量矩陣、Bernoulli測量矩陣進行實驗對比。在本實驗中,Logistic映射和Tent映射的初始輸入值(μ,c0)分別爲(0.35,0.65)和(4,0.65),爲了保證較好的僞隨機特性,輸出序列的前1 200位被摒棄,而且按照15位的等間距抽樣得到最終的混沌序列。
由圖5可知,在不一樣的壓縮率下,由Logistic映射、Tent映射生成的混沌測量矩陣與Gaussian測量矩陣、Bernoulli測量矩陣達到幾乎相同的重構效果。這意味着,混沌測量矩陣也適用於CS技術,這樣不只能夠避免傳輸大尺寸的測量矩陣,並且能夠經過混沌系統將必定水平的保密性嵌入壓縮採樣的過程當中。
4.2 安全性
由前文的安全性理論分析可知,SCS技術沒法提供絕對的安全保障,可是其能以一種近乎零成本的方式將額外的保護層嵌入感知設備中。在這裏,本文將進一步經過仿真實驗展示面對暴力***時融合混沌系統的SCS技術的安全性能。在本實驗中,壓縮率被固定爲0.5,採用Tent映射構建混沌測量矩陣。一樣先摒棄輸出序列的前1 200位,而後按照15位的等間距抽樣得到最終的混沌序列。假定採用的密鑰是(μ,c0) =(0.45,0.55),***者猜測的虛假密鑰包括(μ+Δ,c0)、(μ,c0+Δ)和(μ+Δ/2,c0+Δ/2),其中Δ=10-16是真實密鑰和猜想密鑰之間的誤差。
圖5 不一樣測量矩陣的重構效果對比
圖6是原始圖像和重構圖像質量的對比。從圖6可知,利用SCS技術加密獲得的密文(即測量值,如圖6(b)所示)在視覺上沒法泄露任何有意義的信息。此外,儘管***者猜想的密鑰與真實的密鑰如此接近,可是依然沒法經過它從竊聽到的密文中解密出明文。
圖6 原始圖像和重構圖像質量對比
5 結束語
在萬物互聯的時代,物聯網中時刻生成着大量與我的隱私有關的數據,這些數據在互聯網上流動以及匯向雲端的過程當中容易受到惡意***。特別在一些資源受限的物聯網場景下,底層信息感知設備不支持嵌入高能耗的傳統密碼系統,數據安全問題尤其突出。針對這種問題,本文融合混沌理論和CS理論提出了新興的SCS技術。儘管SCS技術沒法實現信息理論安全,但其能在近乎不增長任何硬件成本的狀況下同步完成採樣、壓縮和加密3種操做。緊接着,本文給出了SCS技術廣泛使用的物聯網場景模型,並經過仿真實驗闡述了該技術的可行性和安全性。因爲SCS技術具有低能耗採樣和輕量加密特性,筆者呼籲將其做爲一種低成本的、內置保密性的信息獲取技術,在資源受限的物聯網場景下爲採樣數據提供第一層安全