20189217 2018-2019-2 《密碼與安全新技術專題》第五週做業

課程:《密碼與安全新技術專題》算法

班級: 1892
姓名: 張鴻羽
學號:20189217
上課教師:金鑫
上課日期:2019年3月26日
必修/選修: 選修數據庫

一.本次講座的學習總結

1.1 技術背景

AI+Security=AISec 安全

  • 用AI和ML解決安全問題(讓安全更智能):
    計算機取證、垃圾郵件檢測、身份驗證、網絡釣魚檢測與預防、僵屍網絡監測、入侵檢測和響應、異常行爲檢測、惡意軟件標識、數據匿名/反匿名、社會網絡安全、大數據安全分析等。網絡

  • 用安全性解決A問題(讓AI更安全):
    分佈式安全推理與決策、安全的多方計算和加密方法、隱私保護數據挖掘、差別隱私、驗證碼的設計與分析、人工智能信任和聲譽方法、經過智能探測進行漏洞測試、生成訓練和測試集的技術和方法等。架構

1.2 密碼分析與機器學習

密碼分析與機器學習之間有自然的類似性:框架

x -> F(x) -> y

對於機器學習
x爲輸入樣本,F(x)爲機器學習的模型(能夠理解爲一個函數),y爲輸出,若是是分類,則y是分類標籤,若是是迴歸,則y是真實值向量。機器學習

對於密碼分析
x爲輸入的明文,F(x)爲密鑰(能夠理解爲一個函數),y爲加密後獲得的密文。分佈式

從研究趨勢來看,愈來愈多的密碼分析方法開始使用機器學習結束,例如破解DES的遺傳算法、用於側信道分析的支持向量機算法等。ide

1.3 深度學習簡介與現狀

人工智能(AI)/機器學習(ML)/深度學習(DL)

人工智能分爲不少分支,機器學習只是人工智能的其中一個分支,而深度學習是機器學習的一個分支。這三者之間是包含關係。模塊化

深度學習簡介

近幾年,深度學習技術掀起了人工智能研究與應用的新一輪浪潮,深度學習技術在多個方面取得了較大突破,其在人工智能系統中所佔的比例日趨增大,已經應用於多項實際場景業務系統中。深度學習技術涌現出大量性能優秀的深度神經網絡(DNN),例如卷積神經網絡(CNN)、循環神經網絡(RNN)、生成對抗網絡(GAN)等,在大樹分析、圖像識別、機器翻譯、視頻監控中取得了較大進步。

深度學習發展歷程

  • 1986年,David Everett Rumelhart教授、Geoffrey Everest Hinton教授和Ronald J. Williams教授在《天然》雜誌上發表的Learning Representations by Back-propagating errors文章中首次提出了 反向傳播 的算法(back propagation),此算法大幅度下降了訓練神經網絡所須要的時間,使得深度學習迎來了發展高峯期。直至今天,反向傳播算法仍然是訓練神經網絡的主要方法。
    但因爲此時計算資源有限、訓練困難、訓練集規模小、訓練效果很差等問題,深度學習的研究陷入了瓶頸。

  • 2006年,Geoffrey Everest Hinton教授提出了深度信念網絡 (Deep Belief Network, DBN) 。無監督和分層預訓練的提出、更好的模型設計(歸一化、非線性、隨機失活層)、計算機計算能力的提升(GPU、多核計算機)、大數據的誕生等使得深度學習掀起了新高潮。

    機器學習的數據集小,易出現過擬合、 模型複雜度低;
    機器學習的數據集大,易出現欠擬合、模型複雜度高、須要的計算資源多。

    傳統視覺感知處理須要經驗知識手工設置視覺特徵提取算法、缺乏與環境的信息交互以及知識庫的決策支持;
    深度學習再也不區分特徵提取和模式分類,經過深度神經網絡非線性模擬從pixel到label的映射關係,適用於解決「大數據」時代複雜多變的視覺感知任務--「以不變應萬變」。

  • 2012年,ImageNet劇版的圖像分類競賽ILSVRC中,由Alex Krizhevsky教授實現的深度學習系統AlexNet贏得了冠軍。自此以後深度學習做爲深層神經網絡的代名詞被你們所熟知。深度學習的發展也開啓了一個AI的新時代。

深度學習應用

深度學習最先興起於圖像識別,可是在短短几年的時間內,深度學習推廣到了機器學習的各個領域。現在,深度學習在不少機器學習領域都有很是出色的表現,在圖像識別、語音識別、音頻處理、圖像美感自動評價、視覺問答、人臉分割、姿式識別、天然語言處理、機器人、生物信息處理、化學、電腦遊戲、搜索引擎、醫學自動診斷和金融等各大領域均有應用。

1.4 深度學習與密碼分析

一、神經網絡的側信道攻擊

如下是兩篇關於基於卷積神經網絡的側信道攻擊的論文,是深度學習與密碼分析的一個結合點。

On the Perfomance of Deep Learning for Side-channel Analysis

Study of Deep Learning Techniques for Side-Channel Analysis and Introduction to ASCAD Database

根據論文的實驗結果,咱們能夠得知,深度學習獲得的側信道攻擊效果> 機器學習方法 > 模板攻擊方法。

二、基於循環神經網絡的明文破譯

Learning the Enigma with Recurrent Neural Networks
本論文證實RNN能夠學習三個多字母密碼(vigen_re、autokey和enigma)的解密算法——從明文到密文的映射。而且證實了論文中的模型能夠經過對vigen_re和autokey密碼運行已知的明文攻擊來執行基本密碼分析。研究結果代表,RNN能夠學習黑盒多鹼基密碼的算法表示,這些表示對於密碼分析是有用的。

三、基於生成對抗網絡的口令破譯
四、基於深度神經網絡的密碼基元識別

1.5 深度學習與密碼設計

目前密碼算法的設計還停留在人工設計階段,較爲耗時耗力,難以適應將來對密碼算法設計的需求,能不能讓機器自動設計密碼算法?

生成對抗網絡(Generative Adversarial Network, GAN)

生成式對抗網絡(GAN, Generative Adversarial Networks)是一種深度學習模型,是近年來複雜分佈上無監督學習最具前景的方法之一。模型經過框架中(至少)兩個模塊:生成模型(Generative Model)和判別模型(Discriminative Model)的互相博弈學習產生至關好的輸出。

密碼組件通過生成對抗網絡中的算法生成器,獲得設計出來的密碼算法,同時密碼破解器將對此密碼算法進行破解,算法生成器和密碼破解器就這樣在相互博弈中學習產生出好的算法和好的破解方法。

二.學習中遇到的問題及解決

問題1:

爲何卷積神經網絡比全鏈接網絡更適合作圖像識別等任務?

問題1解決方案:

對於全鏈接神經網絡:
  • 參數數量太多
  • 沒有利用像素之間的位置信息
  • 網絡層數有限制
而卷積神經網絡有如下幾個優勢:
  • 局部鏈接
    每一個神經元再也不和上一層的全部神經元相連,而只和一小部分神經元相連。這樣就減小了不少參數。
  • 權值共享
    一組鏈接能夠共享同一個權重,而不是每一個鏈接有一個不一樣的權重,這樣又減小了不少參數。
  • 下采樣
    Pooling層利用圖像局部相關性的原理,對圖像進行子抽樣,能夠減小數據處理量同時保留有用信息。經過去掉Feature Map中不重要的樣本,進一步減小參數數量。

所以,卷積神經網絡比全鏈接網絡更適合作圖像識別等任務。

問題2:

卷積神經網絡的複雜度(時間複雜度&空間複雜度)是怎樣定義和計算的?

問題2解決方案:

查找了相關的博客得出結論:

對於單個卷積層的時間複雜度:

  • M:每一個卷積核輸出特徵圖的邊長
  • K:每一個卷積核的邊長
  • Cin:每一個卷積核的通道數,也即輸入通道數,也即上一層的輸出通道數
  • Cout:本卷積層具備的卷積核個數,也即輸出通道數。
對於卷積神經網絡總體的時間複雜度:

  • D:神經網絡所具備的卷積層數,也即網絡的深度
  • l:神經網絡第l個卷積層
  • Cl:神經網絡第l個卷積層的輸出通道數Cout,也即該層的卷積核個數。
對於空間複雜度:

空間複雜度包括模型的參數數量(模型自己的體積)和每層輸出的特徵圖大小(會影響模型運行時的內存佔用狀況)。

網絡的參數量只與卷積核的尺寸K、通道數C、網絡的深度D相關,而與輸入數據的大小無關。

三.本次講座的學習感悟和思考

以前雖然也接觸過機器學習和深度學習,也作過手寫體數字識別等實驗,可是對其知識體系並無系統性的瞭解過,這節課幫助我梳理清了AI、ML、DL這三者的包含關係,使我瞭解到,人工智能除了機器學習以外還有不少分支,機器學習除了深度學習外也有不少可研究的方面。另外,以前我對深度學習應用的瞭解只侷限於圖像分類、圖像識別、目標檢測等,此次講座使我認識到深度學習的應用還有許多許多,如語音識別、音頻處理、人臉分割、姿式識別、醫學自動診斷等。本次講座使我對人工智能、機器學習和深度學習增長了系統性的認知,也拓寬了我對這個領域應用的瞭解。

四.最新研究現狀

在瀏覽了安全四大頂會2018年收錄的論文集目錄後,我發現機器學習、深度學習方面的研究在其中佔了很是大的篇幅,而且都爲之設立了專題,可見機器學習和深度學習的研究的確滲透進了計算機的各個研究領域。我選擇了其中5篇基於深度學習的安全性研究實驗論文,以及另外2篇我認爲比較有意思的論文進行具體研究。

論文1

LEMNA-Explaining Deep Learning based Security Applications
LEMNA:解釋基於深度學習的安全應用程序

  • 期刊/會議名稱:CCS2018
  • 做者信息:Wenbo Guo, Dongliang Mu, Jun Xu, Purui Su, Gang Wang, Xinyu Xing

P.S.這篇是CCS2018最佳論文。

研究進展

這篇論文的主題是安全領域中機器學習模型的解釋性,使用的是黑盒攻擊的方法。雖然深度學習在各個領域顯示出巨大的潛力,但缺少透明度限制了其在安全或安全關鍵領域的應用。現有的研究試圖開發解釋技術,爲每一個分類決策提供可解釋的解釋。不幸的是,當前的方法針對非安全任務(如圖像分析)進行了優化。它們的關鍵假設在安全應用程序中常常被違反,致使解釋的保真度較差。本文提出了一種用於安全應用的高保真解釋方法Lemna。給定一個輸入數據樣本,lemna生成一組可解釋的特徵來解釋如何對輸入樣本進行分類。核心思想是用一個簡單的可解釋模型來近似複雜的深層學習決策邊界的局部區域。本地可解釋模型專門設計用於(1)處理特徵依賴性,以便更好地處理安全應用程序(如二進制代碼分析);(2)處理非線性局部邊界,以提升解釋保真度。本文使用兩個流行的安全深度學習應用程序(惡意軟件分類器和二進制逆向工程的函數啓動檢測器)評估系統。普遍的評價代表,與現有方法相比,Lemna的解釋具備更高的保真度。此外,本文還演示了lemna的實際用例,以幫助機器學習開發人員驗證模型行爲,排除分類錯誤,並自動修補目標模型的錯誤。

論文2

VulDeePecker: A Deep Learning-Based System for Vulnerability Detection
VulDeePecker:基於深度學習的漏洞檢測系統

  • 期刊/會議名稱:NDSS2018
  • 做者信息:Zhen Li, Deqing Zou, Shouhuai Xu, Xinyu Ou, Hai Jin, Sujuan Wang, Zhijun Deng, Yuyi Zhong
研究進展

軟件漏洞的自動檢測是一個重要的研究課題。然而,這個問題的現有解決方案依賴於人類專家來定義特性,而且經常漏掉許多漏洞。本文首先對基於深度學習的脆弱性檢測技術進行了研究,以減輕專家手工定義特徵的繁瑣和主觀任務。因爲深度學習的目的是解決與脆弱性檢測很是不一樣的問題,所以咱們須要一些指導原則來將深度學習應用於脆弱性檢測。特別是,咱們須要找到適合深刻學習的軟件程序的表示。爲此,咱們建議使用代碼小工具來表示程序,而後將它們轉換爲向量,其中代碼小工具是一些(不必定是連續的)語義相關的代碼行。這致使了一個基於深度學習的漏洞檢測系統的設計和實現,稱爲漏洞深度啄木鳥(Vuldeepecker)。爲了評估Vuldeepicker,本文提出了第一個深度學習方法的脆弱性數據集。實驗結果代表,與其餘方法相比,啄木鳥能得到更少的假陰性(有合理的假陽性)。本文進一步將Vuldeepicker應用於3個軟件產品(即Xen、SeaMonkey和Libav),並檢測到4個漏洞,這些漏洞未在國家漏洞數據庫中報告,但在發佈這些產品的後續版本時被供應商「悄悄」修補。而本文試驗過的其餘漏洞檢測系統幾乎徹底忽略了這些漏洞。

論文3

Tiresias: Predicting Security Events Through Deep Learning
Tiresias:經過深度學習預測安全事件

  • 期刊/會議名稱:CCS2018
  • 做者信息:Yun Shen (Symantec), Enrico Mariconti (University College London), Pierre-Antoine Vervier (Symantec), Gianluca Stringhini (University College London)
研究進展

隨着現代計算機攻擊的複雜性不斷增長,防護者不只須要在發生時檢測惡意活動,還須要預測對手在執行攻擊時將採起的具體步驟。然而,這仍然是一個開放性的研究問題,之前預測惡意事件的研究僅着眼於二進制結果(例如,攻擊是否會發生),而不是攻擊者將採起的特定步驟。爲了填補這一空白,本文提出了TiresiasXspace系統,該系統利用重複神經網絡(RNN)來預測機器上的將來事件,基於先前的觀察結果。本文在從商業入侵預防系統收集的34億安全事件的數據集上測試Tiresias XSpace,並代表咱們的方法在預測下一個將在精度高達0.93的機器上發生的事件方面是有效的。本文還代表,TiresiasXSpace學習的模型隨着時間的推移是至關穩定的,而且提供了一種機制,能夠識別精度的忽然降低並觸發系統的再培訓。最後,本文證實了RNN的長期內存是進行事件預測的關鍵,使得簡單的方法不能知足任務的要求。

論文4

DeepCorr: Strong Flow Correlation Attacks on Tor Using Deep Learning
DeepCorr:使用深度學習對Tor進行強流關聯攻擊

  • 期刊/會議名稱:CCS2018
  • 做者信息:Milad Nasr, Alireza Bahramali, Amir Houmansadr
研究進展

流量相關是對ToR進行大量非符號化攻擊的核心技術。儘管流量相關攻擊對ToR很重要,但當大規模應用時,現有的流量相關技術在鏈接ToR流量時被認爲是無效和不可靠的,即它們會產生高的假正偏差率,或者須要不切實際的長時間流量觀測來進行可靠的相關。本文發現,不幸的是,經過利用新興的學習機制,流量相關攻擊能夠對比之前更精確的Tor流量進行攻擊。本文特別設計了一個名爲Deepcorr的系統,該系統在關聯Tor鏈接方面的顯著優點超過了最早進的系統。Deepcorr利用先進的深度學習體系結構來學習針對Tor複雜網絡定製的流關聯函數,這與以前的工做中對相關Tor流使用通用統計關聯度量造成對比。本文代表,在適度學習的狀況下,Deepcorr能夠將Tor鏈接(並所以打破匿名性)與精度顯著高於現有算法,並使用更短的流量觀測長度相關聯。例如,經過僅收集每一個目標ToR流的大約900個數據包(大約900kb的ToR數據),Deepcorr提供了96%的流量相關精度,而採用相同精確設置的最早進的猛禽系統提供的流量相關精度爲4%。

論文5

Deep Fingerprinting: Undermining Website Fingerprinting Defenses with Deep Learning
深度指紋識別:深度學習破壞網站指紋識別防護

  • 期刊/會議名稱:CCS2018
  • 做者信息:Payap Sirinam, Mohsen Imani, Marc Juarez, Matthew Wright
研究進展

網站指紋識別使本地竊/聽/器這個詞竟然是博客園的違禁詞???可以肯定用戶經過加密鏈接訪問的網站。最早進的網站指紋攻擊已被證實是有效的,甚至對Tor。最近,Tor的輕量級網站指紋防護系統已經被提議大大下降現有的攻擊:wtf-pad和對講機。在這項工做中,本文提出了深度指紋(DF),一個新的網站指紋攻擊的Tor,利用一種深度學習稱爲卷積神經網絡(CNN)與一個複雜的架構設計,咱們評估了對wtf-pad和步話機的攻擊。在沒有防護的狀況下,測向攻擊在ToR流量上的精度達到98%以上,優於全部之前的攻擊,並且它也是惟一一種對WTF-PAD有效的攻擊,精度超過90%。對講機仍然有效,使攻擊的準確率僅爲49.7%。在更現實的開放世界環境中,本文的攻擊仍然有效,0.99精度和0.94召回未防護的流量。在這種狀況下,經過wtf-pad防護的流量,攻擊仍然能夠得到0.96精度和0.68召回。這些發現強調了有效防護的必要性,以防止新的攻擊,並能夠部署在Tor中。

如下是私貨•ᴗ•

論文6 ❤

Turning Your Weakness Into a Strength: Watermarking Deep Neural Networks by Backdooring
把你的弱點轉化爲力量:經過回溯給深度神經網絡加水印

  • 期刊/會議名稱:USENIX Security 2018
  • 做者信息:Yossi Adi, Carsten Baum, Moustapha Cisse, Benny Pinkas, Joseph Keshet
研究進展

深度神經網絡最近取得了巨大的成功,在衆所周知的挑戰性問題上取得了一些突破。訓練這些網絡的計算代價很高,須要大量的訓練數據。所以,銷售這種通過預先培訓的模型多是一種有利可圖的商業模式。不幸的是,一旦模型被出售,它們就能夠很容易地被複制和從新分配感受膝蓋中了一箭。爲了不這種狀況,有必要創建跟蹤機制,將模型識別爲特定供應商的知識產權。在這項工做中,本文提出了一種用黑盒方法對深神經網絡添加水印的方法。本文的方案適用於通常的分類任務,而且能夠很容易地與當前的學習算法相結合。實驗證實,這種水印對模型設計的主要任務沒有明顯的影響,並評估了咱們的方案對大量實踐的魯棒性。此外,本文還提供了一個理論分析,將本文的方法與之前的回溯工做聯繫起來。

論文7 ❤

Polisis: Automated Analysis and Presentation of Privacy Policies Using Deep Learning
使用深度學習自動分析和呈現隱私政策

  • 期刊/會議名稱: USENIX Security 2018
  • 做者信息: Hamza Harkous, Kassem Fawaz, Rémi Lebret, Florian Schaub, Kang G. Shin, Karl Aberer
研究進展

隱私政策是公司通知用戶其數據收集和共享實踐的主要渠道。這些政策每每很長,很難理解。基於從隱私政策中提取的信息的簡短通知已被證實是有用的,但考慮到政策的數量及其隨時間的演變,它面臨着一個巨大的可擴展性障礙。公司、用戶、研究人員和監管者仍然缺少可用和可擴展的工具來應對隱私政策的廣度和深度。爲了解決這些障礙,本論文提出了一個用於隱私政策分析(polisis)的自動化框架。它支持對天然語言隱私策略的可擴展、動態和多維查詢。polisis的核心是一個以隱私爲中心的語言模型,它使用130k個隱私策略構建,以及一個新的神經網絡分類器層次結構,該層次結構既解釋了隱私實踐的高級方面,又解釋了隱私實踐的細粒度細節。本論文經過兩個支持結構化和自由形式查詢的應用程序演示了polisis的模塊化和實用性。結構化查詢應用程序是從隱私策略自動分配隱私圖標,這個任務可達到最高88.4%的準確率。第二個應用程序pribot是隱私政策的第一個自由形式問題解答系統。本論文代表,Pribot能夠在其82%的測試問題的前3個結果中給出正確的答案。經過對700名參與者的mturk用戶研究,本論文發現Pribot的前3個答案中至少有一個與89%的測試問題的用戶相關。

參考資料

相關文章
相關標籤/搜索