視屏連接算法
模式: 爲了可以讓機器執行和完成識別任務,必須對分類識別對象進行科學的抽象,創建它的數學模型,用以描述和代替識別對象,這種對象的描述即爲模式。網絡
模式識別系統過程:機器學習
模式識別過程從信息層次、形態轉換上講,是由分析對象的物理空間經過特徵提取轉換爲模式的特徵空間,而後經過分類識別轉換爲輸出的類別空間。ide
特徵提取是對研究對象本質的特徵進行量測並講結果數值化或將對象分解並符號化,造成特徵矢量、符號串或關係圖,產生表明對象的模式。函數
特徵選擇是在知足分類識別正確率的條件下,按某種準則儘可能選用對正確分類識別做用較大的特徵,從而用較少的特徵來完成分類識別任務。學習
在模式採集和預處理中,通常要用到模數(A/D)轉換。A/D轉換必須注意:編碼
在數據採集過程當中,通常咱們會進行一些預處理過程,如人工智能
預處理的方法包括: 濾波,變換,編碼,歸一化等idea
特徵提取/選擇的目的: 下降維數,減小內存消耗,使分類錯誤減少spa
分類: 把特徵空間劃分紅類空間,影響分類錯誤率的因數:
模式識別的主流技術有:
統計模式識別直接利用各種的分佈特徵或隱含地利用機率密度函數、後驗機率等概念進行分類識別。基本的技術有聚類分析、判別類域代數界面法、統計決策法、最近鄰法等。
結構模式識別將對象分解爲若干基本單元,即基元;其結構關係能夠用字符串或圖來表示,即句子;經過對句子進行句法分析,根據文法而決定其類別。
模糊模式識別將模式或模式類做爲模糊集,將其屬性轉化爲隸屬度,運用隸屬函數、模糊關係或模糊推理進行分類識別。
人工神經網絡方法由大量的基本單元,即神經元互聯而成的非線性動態系統。
人工智能方法研究如何是機器具備人腦功能的理論和方法,故將人工智能中有關學習、知識表示、推理等技術用於模式識別。
子空間法根據各種訓練樣本的相關陣經過線性變換由原始模式特徵空間產生各種對應的子空間,每一個子空間與每一個類別一一對應。
特徵矢量一個分析對象的n個特徵量測值分別爲 \(x_1,x_2,...,x_3\),它們構成一個n維特徵矢量\(x\),\(x = (x_1,x_2,...,x_n)^T,x\)是原對象(樣本)的一種數學抽象,用來表明原對象,即爲原對象的模式。
特徵空間對某對象的分類識別是對其模式,即它的特徵矢量進行分類識別。各類不一樣取值的\(x\)的全體構成了\(n\)維空間,這個\(n\)維空間稱爲特徵空間,不一樣場合特徵空間可記爲 \(X^n, R^n\)或\(\Omega\)。特徵矢量\(x\)即是特徵空間中的一個點,因此特徵矢量有時也稱爲特徵點。
隨機變量因爲量測系統隨機因素的影響及同類不一樣對象的特徵自己就是在特徵空間散步的,同一個對象或同一類對象的某特徵測值是隨機變量。由隨機份量構成的矢量稱爲隨機矢量。同一類對象的特徵矢量在特徵空間中是按某種統計規律隨機散步的。
協方差矩陣和自相關矩陣都是對稱矩陣。設\(A\)爲對稱矩陣,對任意的矢量\(x, x^TAx\)是\(A\)的二次型。若對任意的\(x\)恆有:
\[ x^TAx \geq 0 \]
則稱\(A\)爲非負定矩陣。協方差矩陣是非負定的。
獨立必不相關,反之不必定。
在正態分佈的狀況下,獨立於不相關是等價的。
聚類分析概念
聚類分析基本思想:
假設 對象集客觀存在着若干個天然類,每一個天然類中個體的某些屬性具備較強的類似性。
原理 將給定模式分紅若干組,每組內的模式是類似的,而組間各模式差異較大。
該方法的有效性取決於分類算法和特徵點分佈狀況的匹配。
分類無效的狀況有:
聚類分析過程:
模式類似性測度
模式類似性測度方法
距離測度
測度基礎: 兩個矢量矢端的距離
測度數值:兩矢量各相應份量之差的函數
歐式(Euclidean)距離
\[ d(\vec x, \vec y) = ||\vec x - \vec y|| = [\sum^n_{i=1}(x_i - y_i)^2]^\frac{1}{2} \\ \vec x = (x_1,x_2,...,x_n), \vec y = (y_1, y_2,...,y_n) \]
絕對值距離(Manhattan距離)
\[ d(\vec x, \vec y) = \sum^n_{i=1} |x_i - y_i| \]
切氏(Chebyshev)距離
\[ d(\vec x, \vec y) = \max_i |x_i - y_i| \]
明(Minkowski)氏距離
\[ d(\vec x, \vec y) = [\sum_{i=1}^n|x_i - y_i|^m]^{1/m} \]
馬氏(Mahalanobis)距離
設n維矢量\(\vec x_i\)和\(\vec x_j\)是矢量集\({\vec x_1, \vec x_2,...,\vec x_m}\)中的兩個矢量,馬氏距離\(d\)定義爲
\[ d^2(\vec x_i, \vec x_j) = (\vec x_i - \vec x_j)^`V^{-1}(\vec x_i - \vec x_j) \]
其中
\[ V = \frac{1}{m-1} \sum^m_{i=1}(\vec{x_i} - \overline{\vec{x}})^` \\ \overline{\vec{x}} = \frac{1}{m} \sum^m_{i=1} {\vec x_i} \]
馬氏距離具備平移不變性。
對於 \(\vec y = \vec x\)進行類變換即\(\vec y = A\vec x\),其中\(A\)爲非奇異矩陣,馬氏距離不變。
馬氏距離的性質: 對於一切非奇異線性變化都是不變的。即,具備座標系比例、旋轉、平移不變性,而且從統計意義上儘可能去掉了份量間的相關性。
例題
模式類似性測度
測度基礎: 以兩矢量的方向是否相近做爲考慮的基礎,矢量長度並不重要。設
\[ \vec x = (x_1, x_2, ...,x_n), \vec y = (y_1,y_2,...,y_n) \]
角度類似係數
\[ cos(\vec x, \vec y) = \frac{\vec x \vec y}{||\vec x|| ||\vec y||} = \frac{\vec x \vec y}{[(\vec x^` \vec x)(\vec x^` \vec x)]^{1/2}} \]
注意:座標系的旋轉和尺度的縮放是不變的,但對通常的線性變換和座標系的平移不具備不變性。
相關係數
其實是數據中心化後的矢量夾角餘弦
\[ r(\vec x, \vec y) =\frac{(\vec x - \overline{\vec x})^`(\vec y - \overline{\vec y})}{[(\vec x - \overline{\vec x})^`(\vec x - \overline{\vec x})(\vec y - \overline{\vec y})^`(\vec y - \overline{\vec y})]^{\frac{1}{2}}} \]
相關係數的取值在 [-1,1],取值爲1時,兩組數據最相關。
指數類似係數
\[ e(\vec x, \vec y) = \frac {1}{n} \sum^n_{i=1} exp[-\frac{3(x_i-y_i)^2}{4 \sigma^2_i}] \]
式中\(\sigma^2_i\)爲相應份量的協方差,\(n\)爲矢量維度,它不受量綱變化的影響。
對於二值\(n\)維特徵矢量可定義以下類似性測度
令 \(a = \sum_i x_iy_i\) 爲\(\vec x\)與\(\vec y\)的(1-1)匹配的特徵數目
令 \(b = \sum_i y_i(1-x_i)\) 爲\(\vec x\)與\(\vec y\)的(0-1)匹配的特徵數目
令 \(c = \sum_i x_i (1-y_i)\) 爲\(\vec x\)與\(\vec y\)的(1-0)匹配的特徵數目
令 \(e = \sum_i (1-x_i)(1-y_i)\) 爲\(\vec x\)與\(\vec y\)的(0-0)匹配的特徵數目
Tanimoto測度
\[ s(\vec x, \vec y) = \frac {a}{a+b+c} = \frac {\vec x^`\vec y}{\vec x^` \vec x + \vec y^` \vec y - \vec x^` \vec y} \]
例題
能夠看出,它等於共同具備的特徵數目與分別具備的特徵種類數目之比。這裏只考慮了(1-1)匹配而不考慮(0-0)匹配。
Rao測度
\[ s(\vec x, \vec y) = \frac{a}{a+b+c+e} = \frac{\vec x^` \vec y}{n} \]
注:(1-1)匹配特徵數目和所選用的特徵數目之比
簡單匹配係數
\[ m(\vec x, \vec y) = \frac {a+e}{n} \]
注:上式分子爲(1-1)匹配特徵數目與(0-0)匹配特徵數目之和,分母爲所考慮的特徵數目。
Dice係數
\[ m(\vec x, \vec y) = \frac{a}{2a+b+c} = \frac{\vec x^` \vec y}{\vec x^` \vec x + \vec y^` \vec y} = \frac {(1-1)匹配個數}{兩矢量中1的總數} \]
Kulzinsky係數
\[ m(\vec x, \vec y) = \frac{a}{b+c} = \frac{\vec x^` \vec y}{\vec x^` \vec x + \vec y^` \vec y - 2\vec x^` \vec y} = \frac{(1-1)匹配個數}{(0-1)+(1-0)匹配個數} \]
類的定義
定義1
若集合S中任意兩個元素\(x_i,x_i\)的距離\(d_{ij}\)有
\[ d_{ij} \leq h \]
則稱S相對於闕值h組成一類。
定義2
若集合S中任一元素\(x_i\)與其餘各元素\(x_j\)間的距離\(d_{ij}\)均知足
\[ \frac{1}{k-1} \sum_{x_j \in S} d_{ij} \leq h \]
則稱S相對於闕值h組成一類(k爲集合元素個數)
定義3
若集合S中任意兩個元素\(x_i, x_j\)的距離\(d_{ij}\)知足
\[ \frac {1}{k(k-1)} \sum_{x_i \in S} \sum_{x_j \in S} d_{ij} \leq h 且 d_{ij} \leq r \]
則稱S相對於闕值h,r組成一類
定義4
若集合S中元素知足對於任一 \(x_i \in S\),都存在某 \(x_j \in S\)使它們的距離
\[ d_{ij} \leq h \] 則稱S相對於闕值h組成一類。