20189218 2018-2019-2 《密碼與安全新技術專題》第5周做業

20189218 2018-2019-2 《密碼與安全新技術專題》第5周做業

課程:基於深度學習的密碼分析與設計初探html

班級: 1892
姓名: 馮乾
學號: 20189218
上課教師:金鑫
上課日期:2019年3月16日
必修/選修: 選修算法

1.本次講座的學習總結

本次講座集中在如下四點內容:編程

  • 密碼分析與機器學習
  • 深度學習簡介與現狀
  • 深度學習與密碼分析
  • 深度學習與密碼設計

工智能將是下一代安全解決方案的核心。隨着數據量、數據傳輸速度以及監控和管理的數量以指數速率加速,人工智能安全將是將來網絡安全的關鍵組成部分。數組

機器學習(machine learning)

機器學習的萌芽誕生與19世紀60年代,20年前開始逐漸興起,他是一門跨學科的交融。這裏麪包含了機率論、統計學等等學科。隨着計算機硬件的提高,計算機運算速度的不斷提升,它真正開始計入咱們的平常生活當中。而在不久的未來,它已經成爲咱們生活中必不可少的組成元素。目前全部機器學習算法大概有如下幾種:
1.有監督學習
監督學習涉及一組標記數據。計算機可使用特定的模式來識別每種標記類型的新樣本。監督學習的兩種主要類型是分類和迴歸。在分類中,機器被訓練成將一個組劃分爲特定的類。好比說給計算機看貓和狗的圖片,告訴計算機那些圖片裏是貓,那些是狗,而後在讓它學習去分辨貓和狗。經過這種指引的方式,讓計算機學習咱們是如何把這些圖片數據對應上圖片所表明的物體。也就是讓計算機學習這些標籤能夠表明哪些圖片。咱們所熟知的神經網絡就是一種監督學習的方式。
安全


2.無監督學習
在無監督學習中,數據是無標籤的。因爲大多數真實世界的數據都沒有標籤,這些算法特別有用。無監督學習分爲聚類和降維。聚類用於根據屬性和行爲對象進行分組。這與分類不一樣,由於這些組不是你提供的。聚類的一個例子是將一個組劃分紅不一樣的子組(例如,基於年齡和婚姻情況),而後應用到有針對性的營銷方案中。降維經過找到共同點來減小數據集的變量。大多數大數據可視化使用降維來識別趨勢和規則。在上面的這種學習過程當中,咱們只給計算機提供貓和狗的圖片,可是並無告訴它那些是貓那些是狗。取而代之的是,我讓它主機去判斷和分類。讓它本身總結出這兩種類型的圖片的不一樣之處。這就是一種「無監督學習」。網絡

3.強化學習
強化學習研究學習器在與環境的交互過程當中,如何學習到一種行爲策略,以最大化獲得的累積獎賞。與前面咱們提到的其它學習問題的不一樣在於,強化學習處在一個對學習器的行爲進行執行和評判的環境中:環境將執行學習器的輸出,發生變化,而且反饋給學習器一個獎賞值;同時學習器的目標並不在於最大化當即得到的獎賞,而是最大化長期累積的獎賞。例如在俄羅斯方塊遊戲中,學習器所處的環境爲遊戲規則,學習器根據當前遊戲的狀態輸出動做,以遊戲得分做爲每一次動做的獎賞,學習器須要最大化最終的獎賞總和。
iphone


機器學習的步驟

一般學習一個好的函數,分爲如下三步:機器學習

  1. 選擇一個合適的模型,這一般須要依據實際問題而定,針對不一樣的問題和任務須要選取恰當的模型,模型就是一組函數的集合。
  2. 判斷一個函數的好壞,這須要肯定一個衡量標準,也就是咱們一般說的損失函數(Loss Function),損失函數的肯定也須要依據具體問題而定,如迴歸問題通常採用歐式距離,分類問題通常採用交叉熵代價函數。
  3. 找出「最好」的函數,如何從衆多函數中最快的找出「最好」的那一個,這一步是最大的難點,作到又快又準每每不是一件容易的事情。經常使用的方法有梯度降低算法,最小二乘法等和其餘一些技巧(tricks)。
    學習獲得「最好」的函數後,須要在新樣本上進行測試,只有在新樣本上表現很好,纔算是一個「好」的函數。

深度學習

機器學習雖然發展了幾十年,但仍是存在不少沒有良好解決的問題,例如圖像識別、語音識別、天然語言理解、天氣預測、基因表達、內容推薦等等。目前咱們經過機器學習去解決這些問題的思路都是這樣的: 從開始的經過傳感器(例如CMOS)來得到數據。而後通過預處理、特徵提取、特徵選擇,再到推理、預測或者識別。最後一個部分,也就是機器學習的部分,絕大部分的工做是在這方面作的, 而中間的三部分,歸納起來就是特徵表達。良好的特徵表達,對最終算法的準確性起了很是關鍵的做用,並且系統主要的計算和測試工做都耗在這一大部分。但,這塊實際中通常都是人工完成的。靠人工提取特徵。然而,手工地選取特徵是一件很是費力、啓發式(須要專業知識)的方法,能不能選取好很大程度上靠經驗和運氣,並且它的調節須要大量的時間。既然手工選取特徵不太好,那麼能不能自動地學習一些特徵呢?答案是能!Deep Learning就是用來幹這個事情的,看它的一個別名UnsupervisedFeature Learning,就能夠顧名思義了,Unsupervised的意思就是不要人蔘與特徵的選取過程。

深度學習的實質,是經過構建具備不少隱層的機器學習模型和海量的訓練數據,來學習更有用的特徵,從而最終提高分類或預測的準確性。所以,「深度模型」是手段,「特徵學習」是目的。區別於傳統的淺層學習,深度學習的不一樣在於:1)強調了模型結構的深度,一般有5層、6層,甚至10多層的隱層節點;2)明確突出了特徵學習的重要性,也就是說,經過逐層特徵變換,將樣本在原空間的特徵表示變換到一個新特徵空間,從而使分類或預測更加容易。與人工規則構造特徵的方法相比,利用大數據來學習特徵,更可以刻畫數據的豐富內在信息。

<deep learning採用了神經網絡類似的分層結構,系統由包括輸入層、隱層(多層)、輸出層組成的多層網絡,只有相鄰層節點之間有鏈接,同一層以及跨層節點之間相互無鏈接,每一層能夠看做是一個logistic regression模型;這種分層結構,是比較接近人類大腦的結構的。
分佈式


深度學習經常使用模型

  • AutoEncoder自動編碼器
  • Sparse Coding稀疏編碼
  • Restricted Boltzmann Machine(RBM)限制波爾茲曼機
  • Deep BeliefNetworks深信度網絡
  • Convolutional Neural Networks卷積神經網絡

近期,深度學習技術掀起了人工智能研究與應用的新一輪浪潮,
深度學習技術在多個方面取得了較大突破,其在人工智能系統中所佔
的比例日趨增大,已經應用於多項實際場景業務系統中。深度學習技 術涌現出大量性能優秀的深度神經網絡(DNN:DeepNeural Networks),例如卷積神經網絡(CNN:ConvolutionalNeural Networks)、循環神經網絡(RNN:RecurrentNeuralNetworks)、 生成對抗網絡(GAN:GenerativeAdversarialNetworks)等,在大數 據分析、圖像識別、機器翻譯、視頻監控中取得了較大進步。對現代深度學習作出突出貢獻的四我的被稱爲深度學習四大天王:
ide



對比機器學習,深度學習在學習曲線上已經體現出明顯優點:

大數據時代模型學習的突破

傳統視覺感知處理流程:




端到端模式識別:



卷積神經網絡:


卷積局部示意:



基於深度學習的圖像識別驗證碼破解:

深度學習與密碼分析

1.基於卷積神經網絡的側信道攻擊:

  • TemplateAttack
  • MachineLearning
  • DeepLearning

2.基於循環神經網絡的明文破譯:


3.基於生成對抗網絡的口令破解:


4.基於深度神經網絡的密碼基元識別:


深度學習與密碼設計

兩大重點科學問題包括「組件化可變密碼算法設計與安全性評估」和「密文可編程數據安全存儲與計算」。所以將來對於新密碼算法的設計需求將與日劇增,然而目前密碼算法的設計還停留在人工設計階段,較爲耗時耗力,難以適應將來對密碼算法設計的需求。

生成對抗網絡GAN(Generative Adversarial Network):


機器生成密碼算法的思路:


2.學習中遇到的問題及解決

  • 問題1:深度學習相比機器學習有什麼弱點?
  • 問題1解決方案:經過查閱資料得知,深度學習相比機器學習主要有兩個弱點,一是模型訓練過程當中對硬件設備要求更高,二是模型訓練的結果在訓練前具備較高的不可知性。
  • 問題2:伴隨着仿人腦網絡的設計等的深度學習的發展,人類自身是否面臨某種威脅。
  • 問題2解決方案:各方說法不一,但我的認爲任何事物都有兩面,都是雙刃劍,深度學習就多是那種兩邊刀刃都特別鋒利的那種,科技的發展必定要堅守安全和道德的底線。

3.本次講座的學習感悟、思考

咱們應該正確認識AI可以在當前取得的成就,才能夠解決更加複雜的問題。咱們不能忽略:對於天然語言理解,雖然通過了數十年的發展,依然沒有人工智能系統能夠作到徹底正確地理解人類的語言(包括語音識別和機器翻譯);在機器人領域,即便工業機器人發展迅速,咱們依然沒有看到具備常識和推理能力的智能家庭機器人;在計算機視覺領域,即便咱們在人臉識別和圖片分類上取得了不小的成就,可是對於關係理解和完整的場景認知,如今系統能作到的還頗有限。

正如卡內基梅隴大學機器學習系Alex Smola教授認爲:AI技術在將來確實有可能對流水線工人、卡車司機、保潔員等相對低技能要求的工種形成衝擊,然而解決的辦法只能是提升整個社會的教育水平。其次,我認爲社會也在對人工智能技術的發展產生各類積極的約束:譬如,用戶對於技術的安全性和穩定性的要求;用戶對於數據隱私的要求;用戶對於產品的道德約束。總而言之,當前是人工智能發展的一個使人興奮的時期,機器學習技術對於整我的類的發展,也是具備不可估量的潛力。咱們應該正視科學技術發展的進步,理性看待所取得的結果。

4.深度學習最新研究現狀

目前從性能上考慮,深度學習已經大大優於傳統的機器學習,深度學習今年發展到什麼地步了呢?深度學習是否在某些方面遇到瓶頸?在深度學習領域有哪些前沿的作法?

On the Information Bottleneck Theory of Deep Learning

本文選自ICLR 2018 Conference Blind Submission。
做者信息:

  • Andrew M Saxe
    • Harvard University
  • Yamini Bansal
    • Harvard University
    • Computer vision; Deep learning; Computational neuroscience
  • Artemy Kolchinsky
    • Santa Fe Institute
    • Information theory

深度神經網絡的理論研究不夠充分,不能徹底解釋深度學習到目前的發展。 本文研究了深度學習的信息瓶頸(IB)理論,它提出了三個具體的主張:第一,深度網絡經歷兩個不一樣的階段,包括初始擬合階段和後續壓縮階段; 第二,壓縮階段與深度網絡的優秀泛化性能有因果關係; 第三,壓縮階段是因爲隨機梯度降低的相似擴散的行爲而發生的。 本文經過分析結果和模擬的結合,證實信息平面軌跡主要是所採用的神經非線性的函數:雙側飽和非線性如tanh產生壓縮階段,由於神經激活進入飽和狀態,但線性激活功能像普遍使用的ReLU那樣的單側飽和事實上並不是如此。 此外,本文發現壓縮和泛化之間沒有明顯的因果關係:不壓縮的網絡仍然可以泛化,反之亦然。 接下來,本文證實了壓縮階段並非由訓練中的隨機性引發的,這代表咱們可使用徹底批量梯度降低而不是隨機梯度降低來複制IB發現。 最後,本文展現當輸入域由任務相關和任務無關信息的子集組成時,隱藏層確實是壓縮了任務無關的信息,而且這壓縮與擬合過程是同時發生的,而不是有一個單獨的壓縮過程。

本文結果存在一些不肯定性,由於其中有根據經驗估計的信息。 即便是最早進的估算方法也可能致使誤導性的實證結果。 可是,本文的結果至少具備必定啓發性,有進一步研究和討論的價值。

Don't Decay the Learning Rate, Increase the Batch Size

本文 Published as a conference paper at ICLR 2018。
做者信息:

  • Samuel L. Smith
  • Pieter-Jan Kindermans
  • Chris Ying
  • Quoc V. Le
  • 以上四位做者均來自Google Brain

爲了較快得到比較好的學習結果,一般的作法是衰減學習率。 本文展現了在訓練和測試集上得到相同的學習曲線,卻不在訓練期間增長批量大小的一種方法。 這個過程對於隨機梯度降低(SGD),具備動量的SGD,Nesterov動量和Adam是成功的。 在相同數量的訓練組以後,它達到相同的測試精度,但參數更新更少,從而得到更大的並行性和更短的訓練時間。 本文證實能夠經過增長學習率ε和縮放批量大小Bα來進一步減小參數更新的數量。 最後,能夠增長動量係數m和標度Bα1/(1-m),儘管這會略微下降測試精度。 相當重要的是,經過本文的技術可以從新利用現有的大批量訓練培訓計劃,而無需進行超參數調整。 本文的做者在30分鐘內將ImageNet上的ResNet-50訓練到76.1%的驗證準確度。

Learning to Reweight Examples for Robust Deep Learning

本文收入 ICML 2018。
做者信息:

  • Mengye Ren
    • Cornell University
    • Computer Science
  • Wenyuan Zeng
    • Cornell University
    • Computer Science
  • Bin Yang
    • Cornell University
    • Computer Science
  • Raquel Urtasun
    • Cornell University
    • Computer Science

深度神經網絡已經被證實是很是強大的建模工具,用於有關複雜輸入模式的許多監督學習任務。 並且它們也能夠輕易地適應訓練集誤差和標籤噪音。 除了各類正則化器以外,示例從新加權算法是這些問題常見的解決方案,但它們須要仔細調整其餘超參數,例如示例挖掘計劃和正則化超參數。 與過去的從新加權方法(一般由每一個示例的成本值的函數組成)相反,在本文中提出了一種新穎的元學習算法,該算法學習基於其梯度方向爲訓練樣本分配權重。 爲了肯定示例權重,本文對當前的小批量示例權重(從零初始化)執行元梯度降低過程,以最小化乾淨無偏驗證集上的損失。 本文提出的方法能夠在任何類型的深度網絡上輕鬆實現,不須要任何額外的超參數調整,而且在類別不平衡和損壞的標籤問題上實現了出衆的性能。

Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

本文收入 ICLR 2018。
做者信息:

  • Yujun Lin
    • Tsinghua University
    • linyy14@mails.tsinghua.edu.cn
  • Song Han
    • Stanford University
    • Google Brainsonghan@stanford.edu
  • Huizi Mao
    • Stanford University
    • huizi@stanford.edu
  • Yu Wang
    • Tsinghua University
    • yu-wang@mail.tsinghua.edu.cn
  • William J. Dally
    • Stanford UniversityNVIDIA
    • dally@stanford.edu

大規模分佈式訓練須要大量的通訊帶寬用於梯度交換,這限制了多節點訓練的可擴展性,而且須要昂貴的高帶寬網絡基礎設施。 隨着移動設備(聯合學習)的分佈式訓練發展,狀況變得更糟,這種訓練受到更高的延遲、更低的吞吐量和間歇性的不良鏈接的影響。 本文發現分佈式SGD中99.9%的梯度交換是冗餘的,並提出深度梯度壓縮(DGC)以大大下降通訊帶寬。 爲了在壓縮過程當中保持準確性,DGC採用了四種方法:動量校訂,局部梯度限幅,動量因子屏蔽和預熱訓練。 本文已將Deep Gradient Compression應用於圖像分類,語音識別和多個數據集的語言建模,包括Cifar10,ImageNet,Penn Treebank和Librispeech Corpus。 在這些狀況下,Deep Gradient Compression實現了從270x到600x的梯度壓縮比,而不會失去準確性,將ResNet-50的梯度大小從97MB減小到0.35MB,DeepSpeech的梯度大小從488MB減小到0.74MB。 深度梯度壓縮可在1Gbps以太網上實現大規模分佈式培訓,並促進移動設備上的分佈式培訓。

Transferable Joint Attribute-Identity Deep Learning for Unsupervised Person Re-Identification

本文收入The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 2275-2284.
做者信息:

  • Jingya Wang
    • Queen Mary University of London
    • Vision Semantics Ltd.
  • Xiatian Zhu
    • Queen Mary University of London
    • Vision Semantics Ltd.
  • Shaogang Gong
    • Queen Mary University of London
    • Vision Semantics Ltd.
  • Wei Li
    • Queen Mary University of London
    • Vision Semantics Ltd.

大多數現有的我的身份從新識別(從新識別)方法須要針對每一個單個相機對從單獨的大的成對標記的訓練數據集中進行有監督的模型學習。 這顯着限制了它們在實際大規模部署中的可擴展性和可用性,由於這須要在許多攝像機視圖中執行從新標識。 爲了解決這種可擴展性問題,本文開發了一種新穎的深度學習方法,用於將現有數據集的標記信息轉移到新的未見(未標記)目標域,用於身份從新識別而無需在目標域中進行任何監督學習。 具體來講,本文引入了可轉移聯合屬性 - 身份深度學習(TJ-AIDL),用於同時學習可轉移到任何新的(看不見的)目標域的屬性 - 語義和身份差別特徵表示空間,用於從新識別任務,而無需收集新的標籤訓練來自目標域的數據(即目標域中的無監督學習)。 本文經過普遍的比較評估驗證了這種新型TJ-AIDL模型在四種具備挑戰性的基準測試(包括VIPeR,PRID,Market-1501和DukeMTMC-ReID)上對各類最早進方法的無人監督人員身份識別的優越性。

參考資料

相關文章
相關標籤/搜索