一、HOG特徵:html
方向梯度直方圖(Histogram of Oriented Gradient, HOG)特徵是一種在計算機視覺和圖像處理中用來進行物體檢測的特徵描述子。它經過計算和統計圖像局部區域的梯度方向直方圖來構成特徵。Hog特徵結合SVM分類器已經被普遍應用於圖像識別中,尤爲在行人檢測中得到了極大的成功。須要提醒的是,HOG+SVM進行行人檢測的方法是法國研究人員Dalal在2005的CVPR上提出的,而現在雖然有不少行人檢測算法不斷提出,但基本都是以HOG+SVM的思路爲主。算法
(1)主要思想:數組
在一副圖像中,局部目標的表象和形狀(appearance and shape)可以被梯度或邊緣的方向密度分佈很好地描述。(本質:梯度的統計信息,而梯度主要存在於邊緣的地方)。微信
(2)具體的實現方法是:app
首先將圖像分紅小的連通區域,咱們把它叫細胞單元。而後採集細胞單元中各像素點的梯度的或邊緣的方向直方圖。最後把這些直方圖組合起來就能夠構成特徵描述器。機器學習
(3)提升性能:函數
把這些局部直方圖在圖像的更大的範圍內(咱們把它叫區間或block)進行對比度歸一化(contrast-normalized),所採用的方法是:先計算各直方圖在這個區間(block)中的密度,而後根據這個密度對區間中的各個細胞單元作歸一化。經過這個歸一化後,能對光照變化和陰影得到更好的效果。性能
(4)優勢:學習
與其餘的特徵描述方法相比,HOG有不少優勢。首先,因爲HOG是在圖像的局部方格單元上操做,因此它對圖像幾何的和光學的形變都能保持很好的不變性,這兩種形變只會出如今更大的空間領域上。其次,在粗的空域抽樣、精細的方向抽樣以及較強的局部光學歸一化等條件下,只要行人大致上可以保持直立的姿式,能夠允許行人有一些細微的肢體動做,這些細微的動做能夠被忽略而不影響檢測效果。所以HOG特徵是特別適合於作圖像中的人體檢測的。優化
二、HOG特徵提取算法的實現過程:
大概過程:
HOG特徵提取方法就是將一個image(你要檢測的目標或者掃描窗口):
1)灰度化(將圖像看作一個x,y,z(灰度)的三維圖像);
2)採用Gamma校訂法對輸入圖像進行顏色空間的標準化(歸一化);目的是調節圖像的對比度,下降圖像局部的陰影和光照變化所形成的影響,同時能夠抑制噪音的干擾;
3)計算圖像每一個像素的梯度(包括大小和方向);主要是爲了捕獲輪廓信息,同時進一步弱化光照的干擾。
4)將圖像劃分紅小cells(例如6*6像素/cell);
5)統計每一個cell的梯度直方圖(不一樣梯度的個數),便可造成每一個cell的descriptor;
6)將每幾個cell組成一個block(例如3*3個cell/block),一個block內全部cell的特徵descriptor串聯起來便獲得該block的HOG特徵descriptor。
7)將圖像image內的全部block的HOG特徵descriptor串聯起來就能夠獲得該image(你要檢測的目標)的HOG特徵descriptor了。這個就是最終的可供分類使用的特徵向量了。
具體每一步的詳細過程以下:
(1)標準化gamma空間和顏色空間
爲了減小光照因素的影響,首先須要將整個圖像進行規範化(歸一化)。在圖像的紋理強度中,局部的表層曝光貢獻的比重較大,因此,這種壓縮處理可以有效地下降圖像局部的陰影和光照變化。由於顏色信息做用不大,一般先轉化爲灰度圖;
Gamma壓縮公式:
好比能夠取Gamma=1/2;
看數據精華,關注數盟微信
(2)計算圖像梯度
計算圖像橫座標和縱座標方向的梯度,並據此計算每一個像素位置的梯度方向值;求導操做不只可以捕獲輪廓,人影和一些紋理信息,還能進一步弱化光照的影響。
圖像中像素點(x,y)的梯度爲:
最經常使用的方法是:首先用[-1,0,1]梯度算子對原圖像作卷積運算,獲得x方向(水平方向,以向右爲正方向)的梯度份量gradscalx,而後用[1,0,-1]T梯度算子對原圖像作卷積運算,獲得y方向(豎直方向,以向上爲正方向)的梯度份量gradscaly。而後再用以上公式計算該像素點的梯度大小和方向。
(3)爲每一個細胞單元構建梯度方向直方圖
第三步的目的是爲局部圖像區域提供一個編碼,同時可以保持對圖像中人體對象的姿式和外觀的弱敏感性。
咱們將圖像分紅若干個「單元格cell」,例如每一個cell爲6*6個像素。假設咱們採用9個bin的直方圖來統計這6*6個像素的梯度信息。也就是將cell的梯度方向360度分紅9個方向塊,如圖所示:例如:若是這個像素的梯度方向是20-40度,直方圖第2個bin的計數就加一,這樣,對cell內每一個像素用梯度方向在直方圖中進行加權投影(映射到固定的角度範圍),就能夠獲得這個cell的梯度方向直方圖了,就是該cell對應的9維特徵向量(由於有9個bin)。
像素梯度方向用到了,那麼梯度大小呢?梯度大小就是做爲投影的權值的。例如說:這個像素的梯度方向是20-40度,而後它的梯度大小是2(假設啊),那麼直方圖第2個bin的計數就不是加一了,而是加二(假設啊)。
細胞單元能夠是矩形的(rectangular),也能夠是星形的(radial)。
(4)把細胞單元組合成大的塊(block),塊內歸一化梯度直方圖
因爲局部光照的變化以及前景-背景對比度的變化,使得梯度強度的變化範圍很是大。這就須要對梯度強度作歸一化。歸一化可以進一步地對光照、陰影和邊緣進行壓縮。
做者採起的辦法是:把各個細胞單元組合成大的、空間上連通的區間(blocks)。這樣,一個block內全部cell的特徵向量串聯起來便獲得該block的HOG特徵。這些區間是互有重疊的,這就意味着:每個單元格的特徵會以不一樣的結果屢次出如今最後的特徵向量中。咱們將歸一化以後的塊描述符(向量)就稱之爲HOG描述符。
區間有兩個主要的幾何形狀——矩形區間(R-HOG)和環形區間(C-HOG)。R-HOG區間大致上是一些方形的格子,它能夠有三個參數來表徵:每一個區間中細胞單元的數目、每一個細胞單元中像素點的數目、每一個細胞的直方圖通道數目。
例如:行人檢測的最佳參數設置是:3×3細胞/區間、6×6像素/細胞、9個直方圖通道。則一塊的特徵數爲:3*3*9;
(5)收集HOG特徵
最後一步就是將檢測窗口中全部重疊的塊進行HOG特徵的收集,並將它們結合成最終的特徵向量供分類使用。
(6)那麼一個圖像的HOG特徵維數是多少呢?
順便作個總結:Dalal提出的Hog特徵提取的過程:把樣本圖像分割爲若干個像素的單元(cell),把梯度方向平均劃分爲9個區間(bin),在每一個單元裏面對全部像素的梯度方向在各個方向區間進行直方圖統計,獲得一個9維的特徵向量,每相鄰的4個單元構成一個塊(block),把一個塊內的特徵向量聯起來獲得36維的特徵向量,用塊對樣本圖像進行掃描,掃描步長爲一個單元。最後將全部塊的特徵串聯起來,就獲得了人體的特徵。例如,對於64*128的圖像而言,每16*16的像素組成一個cell,每2*2個cell組成一個塊,由於每一個cell有9個特徵,因此每一個塊內有4*9=36個特徵,以8個像素爲步長,那麼,水平方向將有7個掃描窗口,垂直方向將有15個掃描窗口。也就是說,64*128的圖片,總共有36*7*15=3780個特徵。
LBP(Local Binary Pattern,局部二值模式)是一種用來描述圖像局部紋理特徵的算子;它具備旋轉不變性和灰度不變性等顯著的優勢。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出,用於紋理特徵提取。並且,提取的特徵是圖像的局部的紋理特徵;
一、LBP特徵的描述
原始的LBP算子定義爲在3*3的窗口內,以窗口中心像素爲閾值,將相鄰的8個像素的灰度值與其進行比較,若周圍像素值大於中心像素值,則該像素點的位置被標記爲1,不然爲0。這樣,3*3鄰域內的8個點經比較可產生8位二進制數(一般轉換爲十進制數即LBP碼,共256種),即獲得該窗口中心像素點的LBP值,並用這個值來反映該區域的紋理信息。以下圖所示:
LBP的改進版本:
原始的LBP提出後,研究人員不斷對其提出了各類改進和優化。
(1)圓形LBP算子:
基本的 LBP算子的最大缺陷在於它只覆蓋了一個固定半徑範圍內的小區域,這顯然不能知足不一樣尺寸和頻率紋理的須要。爲了適應不一樣尺度的紋理特徵,並達到灰度和旋轉不變性的要求,Ojala等對 LBP 算子進行了改進,將 3×3鄰域擴展到任意鄰域,並用圓形鄰域代替了正方形鄰域,改進後的 LBP 算子容許在半徑爲 R 的圓形鄰域內有任意多個像素點。從而獲得了諸如半徑爲R的圓形區域內含有P個採樣點的LBP算子;
(2)LBP旋轉不變模式
從 LBP 的定義能夠看出,LBP 算子是灰度不變的,但卻不是旋轉不變的。圖像的旋轉就會獲得不一樣的 LBP值。
Maenpaa等人又將 LBP算子進行了擴展,提出了具備旋轉不變性的 LBP 算子,即不斷旋轉圓形鄰域獲得一系列初始定義的 LBP值,取其最小值做爲該鄰域的 LBP 值。
圖 2.5 給出了求取旋轉不變的 LBP 的過程示意圖,圖中算子下方的數字表示該算子對應的 LBP值,圖中所示的 8 種 LBP模式,通過旋轉不變的處理,最終獲得的具備旋轉不變性的 LBP值爲 15。也就是說,圖中的 8種 LBP 模式對應的旋轉不變的 LBP模式都是00001111。
(3)LBP等價模式
一個LBP算子能夠產生不一樣的二進制模式,對於半徑爲R的圓形區域內含有P個採樣點的LBP算子將會產生P2種模式。很顯然,隨着鄰域集內採樣點數的增長,二進制模式的種類是急劇增長的。例如:5×5鄰域內20個採樣點,有220=1,048,576種二進制模式。如此多的二值模式不管對於紋理的提取仍是對於紋理的識別、分類及信息的存取都是不利的。同時,過多的模式種類對於紋理的表達是不利的。例如,將LBP算子用於紋理分類或人臉識別時,常採用LBP模式的統計直方圖來表達圖像的信息,而較多的模式種類將使得數據量過大,且直方圖過於稀疏。所以,須要對原始的LBP模式進行降維,使得數據量減小的狀況下能最好的表明圖像的信息。
爲了解決二進制模式過多的問題,提升統計性,Ojala提出了採用一種「等價模式」(Uniform Pattern)來對LBP算子的模式種類進行降維。Ojala等認爲,在實際圖像中,絕大多數LBP模式最多隻包含兩次從1到0或從0到1的跳變。所以,Ojala將「等價模式」定義爲:當某個LBP所對應的循環二進制數從0到1或從1到0最多有兩次跳變時,該LBP所對應的二進制就稱爲一個等價模式類。如00000000(0次跳變),00000111(只含一次從0到1的跳變),10001111(先由1跳到0,再由0跳到1,共兩次跳變)都是等價模式類。除等價模式類之外的模式都歸爲另外一類,稱爲混合模式類,例如10010111(共四次跳變)(這是個人我的理解,不知道對不對)。
經過這樣的改進,二進制模式的種類大大減小,而不會丟失任何信息。模式數量由原來的2P種減小爲 P ( P-1)+2種,其中P表示鄰域集內的採樣點數。對於3×3鄰域內8個採樣點來講,二進制模式由原始的256種減小爲58種,這使得特徵向量的維數更少,而且能夠減小高頻噪聲帶來的影響。
二、LBP特徵用於檢測的原理
顯而易見的是,上述提取的LBP算子在每一個像素點均可以獲得一個LBP「編碼」,那麼,對一幅圖像(記錄的是每一個像素點的灰度值)提取其原始的LBP算子以後,獲得的原始LBP特徵依然是「一幅圖片」(記錄的是每一個像素點的LBP值)。
LBP的應用中,如紋理分類、人臉分析等,通常都不將LBP圖譜做爲特徵向量用於分類識別,而是採用LBP特徵譜的統計直方圖做爲特徵向量用於分類識別。
由於,從上面的分析咱們能夠看出,這個「特徵」跟位置信息是緊密相關的。直接對兩幅圖片提取這種「特徵」,並進行判別分析的話,會由於「位置沒有對準」而產生很大的偏差。後來,研究人員發現,能夠將一幅圖片劃分爲若干的子區域,對每一個子區域內的每一個像素點都提取LBP特徵,而後,在每一個子區域內創建LBP特徵的統計直方圖。如此一來,每一個子區域,就能夠用一個統計直方圖來進行描述;整個圖片就由若干個統計直方圖組成;
例如:一幅100*100像素大小的圖片,劃分爲10*10=100個子區域(能夠經過多種方式來劃分區域),每一個子區域的大小爲10*10像素;在每一個子區域內的每一個像素點,提取其LBP特徵,而後,創建統計直方圖;這樣,這幅圖片就有10*10個子區域,也就有了10*10個統計直方圖,利用這10*10個統計直方圖,就能夠描述這幅圖片了。以後,咱們利用各類類似性度量函數,就能夠判斷兩幅圖像之間的類似性了;
三、對LBP特徵向量進行提取的步驟
(1)首先將檢測窗口劃分爲16×16的小區域(cell);
(2)對於每一個cell中的一個像素,將相鄰的8個像素的灰度值與其進行比較,若周圍像素值大於中心像素值,則該像素點的位置被標記爲1,不然爲0。這樣,3*3鄰域內的8個點經比較可產生8位二進制數,即獲得該窗口中心像素點的LBP值;
(3)而後計算每一個cell的直方圖,即每一個數字(假定是十進制數LBP值)出現的頻率;而後對該直方圖進行歸一化處理。
(4)最後將獲得的每一個cell的統計直方圖進行鏈接成爲一個特徵向量,也就是整幅圖的LBP紋理特徵向量;
而後即可利用SVM或者其餘機器學習算法進行分類了。
一、Haar-like特徵
Haar-like特徵最先是由Papageorgiou等應用於人臉表示,Viola和Jones在此基礎上,使用3種類型4種形式的特徵。
Haar特徵分爲三類:邊緣特徵、線性特徵、中心特徵和對角線特徵,組合成特徵模板。特徵模板內有白色和黑色兩種矩形,並定義該模板的特徵值爲白色矩形像素和減去黑色矩形像素和。Haar特徵值反映了圖像的灰度變化狀況。例如:臉部的一些特徵能由矩形特徵簡單的描述,如:眼睛要比臉頰顏色要深,鼻樑兩側比鼻樑顏色要深,嘴巴比周圍顏色要深等。但矩形特徵只對一些簡單的圖形結構,如邊緣、線段較敏感,因此只能描述特定走向(水平、垂直、對角)的結構。
對於圖中的A, B和D這類特徵,特徵數值計算公式爲:v=Sum白-Sum黑,而對於C來講,計算公式以下:v=Sum白-2*Sum黑;之因此將黑色區域像素和乘以2,是爲了使兩種矩形區域中像素數目一致。
經過改變特徵模板的大小和位置,可在圖像子窗口中窮舉出大量的特徵。上圖的特徵模板稱爲「特徵原型」;特徵原型在圖像子窗口中擴展(平移伸縮)獲得的特徵稱爲「矩形特徵」;矩形特徵的值稱爲「特徵值」。
矩形特徵可位於圖像任意位置,大小也能夠任意改變,因此矩形特徵值是矩形模版類別、矩形位置和矩形大小這三個因素的函數。故類別、大小和位置的變化,使得很小的檢測窗口含有很是多的矩形特徵,如:在24*24像素大小的檢測窗口內矩形特徵數量能夠達到16萬個。這樣就有兩個問題須要解決了:(1)如何快速計算那麼多的特徵?—積分圖大顯神通;(2)哪些矩形特徵纔是對分類器分類最有效的?—如經過AdaBoost算法來訓練(這一塊這裏不討論,具體見http://blog.csdn.net/zouxy09/article/details/7922923)
二、Haar-like特徵的計算—積分圖
積分圖就是隻遍歷一次圖像就能夠求出圖像中全部區域像素和的快速算法,大大的提升了圖像特徵值計算的效率。
積分圖主要的思想是將圖像從起點開始到各個點所造成的矩形區域像素之和做爲一個數組的元素保存在內存中,當要計算某個區域的像素和時能夠直接索引數組的元素,不用從新計算這個區域的像素和,從而加快了計算(這有個相應的稱呼,叫作動態規劃算法)。積分圖可以在多種尺度下,使用相同的時間(常數時間)來計算不一樣的特徵,所以大大提升了檢測速度。
咱們來看看它是怎麼作到的。
積分圖是一種可以描述全局信息的矩陣表示方法。積分圖的構造方式是位置(i,j)處的值ii(i,j)是原圖像(i,j)左上角方向全部像素的和:
積分圖構建算法:
1)用s(i,j)表示行方向的累加和,初始化s(i,-1)=0;
2)用ii(i,j)表示一個積分圖像,初始化ii(-1,i)=0;
3)逐行掃描圖像,遞歸計算每一個像素(i,j)行方向的累加和s(i,j)和積分圖像ii(i,j)的值
s(i,j)=s(i,j-1)+f(i,j)
ii(i,j)=ii(i-1,j)+s(i,j)
4)掃描圖像一遍,當到達圖像右下角像素時,積分圖像ii就構造好了。
積分圖構造好以後,圖像中任何矩陣區域的像素累加和均可以經過簡單運算獲得如圖所示。
設D的四個頂點分別爲α、β、γ、δ,則D的像素和能夠表示爲
Dsum = ii( α )+ii( β)-(ii( γ)+ii( δ ));
而Haar-like特徵值無非就是兩個矩陣像素和的差,一樣能夠在常數時間內完成。因此矩形特徵的特徵值計算,只與此特徵矩形的端點的積分圖有關,因此無論此特徵矩形的尺度變換如何,特徵值的計算所消耗的時間都是常量。這樣只要遍歷圖像一次,就能夠求得全部子窗口的特徵值。
三、Haar-like矩形特徵拓展
Lienhart R.等對Haar-like矩形特徵庫做了進一步擴展,加入了旋轉45。角的矩形特徵。擴展後的特徵大體分爲4種類型:邊緣特徵、線特徵環、中心環繞特徵和對角線特徵:
在特徵值的計算過程當中,黑色區域的權值爲負值,白色區域的權值爲正值。並且權值與矩形面積成反比(使兩種矩形區域中像素數目一致);
豎直矩陣特徵值計算:
對於豎直矩陣,與上面2處說的同樣。
45°旋角的矩形特徵計算:
對於45°旋角的矩形,咱們定義RSAT(x,y)爲點(x,y)左上角45°區域和左下角45°區域的像素和。
用公式能夠表示爲:
爲了節約時間,減小重複計算,可按以下遞推公式計算:
而計算矩陣特徵的特徵值,是位於十字行矩形RSAT(x,y)之差。可參考下圖: