2017-2018-2 20179203 《密碼與安全新技術》第六週做業

課程:《密碼與安全新技術》算法

班級: 1792數據庫

姓名: 李鵬舉安全

學號:20179203網絡

上課教師:謝四江函數

上課日期:2018年5月24日學習

必修/選修: 必修優化

1、課堂內容總結

這節課是由趙旭營老師爲咱們講解的關於模式識別方面的知識。設計

1.1 模式識別的概念

1.1.1 模式識別是什麼?

兩個常見的例子:
幼兒認動物
圖書歸類
用各類數學方法讓計算機(軟件與硬件)來實現人的模式識別能力,即用計算機實現人對各類事物或現象的分析、描述、判斷、識別。rest

1.1.2 模式識別具體解釋

  • 模式或者模式類:
    能夠是研究對象的組成成分或影響因素之間存在的規律性關係,因素之間存在肯定性或隨機性規律的對象、過程或者事件的集合
  • 識別:
    對之前見過的對象的再認識(Re-cognition)
  • 模式識別:
    對模式的區分與認識,將待識別的對象根據其特徵歸併到若干類別中某一類

1.2 模式識別主要方法

1.2.1 根據問題的描述方式

  • 1)基於知識的模式識別方法:以專家系統爲表明,根據人們已知的(從專家那裏收集整理獲得的)知識,整理出若干描述特徵與類別間關係的準則,創建必定的計算機推理系統,再對未知樣本決策其類別。
  • 2)基於數據的模式識別方法:制定描述研究對象的描述特徵,收集必定數量的已知樣本做爲訓練集訓練一個模式識別機器,再對未知樣本預測其類別(主要研究內容)

1.2.2 根據問題的劃分

  • 1)監督模式識別:先有一批已知樣本做爲訓練集設計分類器,再判斷新的樣本類別(分類)
  • 2)非監督模式識別:只有一批樣本,根據樣本之間的類似性直接將樣本集劃分紅若干類別(聚類)

1.2.3 根據理論基礎的劃分

  • 1)統計模式識別:機率論與數理統計
  • 2)模糊模式識別:模糊邏輯
  • 3)人工神經網絡:神經科學、最優化、機率論與數理統計
  • 4)結構模式識別:形式語言

1.2.4 根據應用領域的劃分

  • 1)圖像識別
  • 2)文字識別
  • 3)人臉識別
  • 4)指紋識別
  • 5)虹膜識別
  • 6)掌紋識別
  • 7)語音識別

1.3 模式識別系統


模式識別系統的四個主要組成部分:code

  • 1.原始數據獲取與預處理
  • 2.特徵提取和選擇
  • 3.分類或者聚類
  • 4.後處理

1.4 線性分類器

  • 1.Fisher準則(線性判別)
  • 2.感知器學習算法(Perceptron Learning Algorithm )
  • 3.Fisher線性判別分析(1936)的基本思想:
    經過尋找一個投影方向(線性變換,線性組合),將高維問題下降到一維問題來解決,而且要求變換後的一維數據具備性質:同類樣本儘量彙集在一塊兒,不一樣類樣本儘量地遠
    算法的步驟:
  • 4.感知器收斂定理
    若是訓練樣本集是線性可分的,則,從任意的初始權向量出發,總能夠在有限步迭代內找到一個權向量,使全部的樣本正確分類

1.5 非線性分類器

  • 1.神經網絡:
    生物神經元結構
    胞體:是神經細胞的本體,內有細胞核和細胞質,完成普通細胞的生存功能
    樹突:具備多達 103 數量級個的分枝,其長度較短,一般不超過一毫米,用以接受來自其餘神經元的信號(輸入端)
    軸突:用以輸出信號,軸突遠端有分枝,可與多個神經元鏈接(輸出端)
    突觸:軸突的末端與樹突進行信號傳遞的界面(兩個神經元的接口)

2、學習後思考與總結

2.1 貝葉斯決策理論

爲了最小化總風險,對全部的i=1,...,a計算條件風險R(ai|x),並選擇行爲ai使R(ai|x)最小化。最小化後的總風險值稱爲貝葉斯風險,記爲R*,它是可得到的最優風險。那麼,爲何貝葉斯決策規則所得出的風險是最小的呢?
假設判決規則爲函數a(x),它用來講明對於特徵值x應採起哪一種行爲(即,a1,...,aa中選擇哪一個行爲)。若是有一種規則,使得損失函數R(ai|x)對每一個特徵值x都儘量的小,那麼對全部可能出現的特徵值x,總風險將會降到最小。
而這一理想的規則就是貝葉斯決策:

「對全部的i=1,...,a計算條件風險R(ai|x),並選擇行爲ai使R(ai|x)最小化」

通俗的說,就是對特徵值x,計算全部行爲所致使的損失們(即把R(a1|x),...,R(aa|x)都算出來),而後從中選擇損失最小的一個ak做爲結果,這樣對於每一個樣本,均可以作的損失最小。假設有一批樣本,其中的每個都作到損失最小的話,對這一批樣本而言,整體的損失就是最小的了。
爲何忽然對這個理論感興趣最主要的緣由就是,貝葉斯決策理論是最小風險的理論,因此對於貝葉斯決策理論最早想到的就是無人駕駛,這個行爲模式是極其須要將風險降到最低的,想起前一段時間看到的一篇文章,國內的無人駕駛程序進行實地無人駕駛,致使80%的事故率,50%的致死率;而谷歌的無人駕駛僅僅只有5.6%的事故率,1.2%的致死率,由此能夠看出咱們在這方面的缺陷有多麼的嚴重。

2.2 模式識別的重要

舉個例子,咱們過去如何去評判一我的?你是列舉大量事實而後進行條理概括派?仍是簡單對號入座派?好比有的人是依賴星座模型,有的人用的是恰當的模式,並且經歷了快速思考看起來沒有花時間思考同樣?
若是你認識一我的,把交往細節一條條分析下來,你會出現信息爆炸,若是不是很熟,這樣維護關係大腦很累,注意力很容易陷入不重要的細節。
而我會簡單記住一我的的特質——好比某人是中年女卻有一顆少女心,性格表面很溫柔但內在控制慾極強。這種女人雙面性格,長處相處會很矛盾糾結。我不會記憶太多信息,只須要記住這些特徵關鍵詞,我就大概知道如何和別人相處剛恰好。
這樣我就能夠依據個人女性識別模式,得出不一樣的行動判斷,而後在溝通交往中會觀察這個模型的有效性,若是是好模型,我就會反覆強化和迭代,直到遇到超出我理解的人。
這就是模式識別,也能夠看出模式識別對於各領域的記錄與運算的重要性。

2.3 模式識別常見算法

2.3.1 K-Nearest Neighbor

簡單來講,K-NN能夠當作:有那麼一堆你已經知道分類的數據,而後當一個新數據進入的時候,就開始跟訓練數據裏的每一個點求距離,而後挑離這個訓練數據最近的K個點看看這幾個點屬於什麼類型,而後用少數服從多數的原則,給新數據歸類。一個比較好的介紹k-NN的課件能夠見下面連接,圖文並茂,我當時一看就懂了
http://courses.cs.tamu.edu/rgutier/cs790_w02/l8.pdf
實際上K-NN自己的運算量是至關大的,由於數據的維數每每不止2維,並且訓練數據庫越大,所求的樣本間距離就越多。就拿咱們course project的人臉檢測來講,輸入向量的維數是1024維(32x32的圖,固然我以爲這種方法比較silly),訓練數據有上千個,因此每次求距離(這裏用的是歐式距離,就是咱們最經常使用的平方和開根號求距法) 這樣每一個點的歸類都要花上上百萬次的計算。因此如今比較經常使用的一種方法就是kd-tree。也就是把整個輸入空間劃分紅不少不少小子區域,而後根據臨近的原則把它們組織爲樹形結構。而後搜索最近K個點的時候就不用全盤比較而只要比較臨近幾個子區域的訓練數據就好了。

2.3.2 Linear Discriminant Analysis

LDA,基本和PCA是一對雙生子,它們之間的區別就是PCA是一種unsupervised的映射方法而LDA是一種supervised映射方法,這一點能夠從下圖中一個2D的例子簡單看出
圖的左邊是PCA,它所做的只是將整組數據總體映射到最方便表示這組數據的座標軸上,映射時沒有利用任何數據內部的分類信息。所以,雖然作了PCA後,整組數據在表示上更加方便(下降了維數並將信息損失降到最低),但在分類上也許會變得更加困難;圖的右邊是LDA,能夠明顯看出,在增長了分類信息以後,兩組輸入映射到了另一個座標軸上,有了這樣一個映射,兩組數據之間的就變得更易區分了(在低維上就能夠區分,減小了很大的運算量)。

相關文章
相關標籤/搜索