【數字圖像處理】目標檢測的圖像特徵提取之HOG特徵

時間 2019-11-08

標籤數字圖像處理目標檢測圖像特徵取之 hog 简体版

原文原文鏈接

一、HOG特徵

方向梯度直方圖（Histogram of Oriented Gradient, HOG）特徵是一種在計算機視覺和圖像處理中用來進行物體檢測的特徵描述子。它經過計算和統計圖像局部區域的梯度方向直方圖來構成特徵。Hog特徵結合SVM分類器已經被普遍應用於圖像識別中，尤爲在行人檢測中得到了極大的成功。須要提醒的是，HOG+SVM進行行人檢測的方法是法國研究人員Dalal在2005的CVPR上提出的，而現在雖然有不少行人檢測算法不斷提出，但基本都是以HOG+SVM的思路爲主。算法

（1）主要思想：app

在一副圖像中，局部目標的表象和形狀（appearance and shape）可以被梯度或邊緣的方向密度分佈很好地描述。（本質：梯度的統計信息，而梯度主要存在於邊緣的地方）。性能

（2）具體的實現方法是：編碼

首先將圖像分紅小的連通區域，咱們把它叫細胞單元。而後採集細胞單元中各像素點的梯度的或邊緣的方向直方圖。最後把這些直方圖組合起來就能夠構成特徵描述器。.net

（3）提升性能：3d

把這些局部直方圖在圖像的更大的範圍內（咱們把它叫區間或block）進行對比度歸一化（contrast-normalized），所採用的方法是：先計算各直方圖在這個區間（block）中的密度，而後根據這個密度對區間中的各個細胞單元作歸一化。經過這個歸一化後，能對光照變化和陰影得到更好的效果。orm

（4）優勢：對象

與其餘的特徵描述方法相比，HOG有不少優勢。首先，因爲HOG是在圖像的局部方格單元上操做，因此它對圖像幾何的和光學的形變都能保持很好的不變性，這兩種形變只會出如今更大的空間領域上。其次，在粗的空域抽樣、精細的方向抽樣以及較強的局部光學歸一化等條件下，只要行人大致上可以保持直立的姿式，能夠允許行人有一些細微的肢體動做，這些細微的動做能夠被忽略而不影響檢測效果。所以HOG特徵是特別適合於作圖像中的人體檢測的。blog

二、HOG特徵提取算法的實現過程

大概過程：token

HOG特徵提取方法就是將一個image（你要檢測的目標或者掃描窗口）：

1）灰度化（將圖像看作一個x,y,z（灰度）的三維圖像）；

2）採用Gamma校訂法對輸入圖像進行顏色空間的標準化（歸一化）；目的是調節圖像的對比度，下降圖像局部的陰影和光照變化所形成的影響，同時能夠抑制噪音的干擾；

3）計算圖像每一個像素的梯度（包括大小和方向）；主要是爲了捕獲輪廓信息，同時進一步弱化光照的干擾。

4）將圖像劃分紅小cells（例如8*8像素/cell）；

5）統計每一個cell的梯度直方圖（不一樣梯度的個數），便可造成每一個cell的descriptor；

6）將每幾個cell組成一個block（例如2*2個cell/block），一個block內全部cell的特徵descriptor串聯起來便獲得該block的HOG特徵descriptor。

7）將圖像image內的全部block的HOG特徵descriptor串聯起來就能夠獲得該image（你要檢測的目標）的HOG特徵descriptor了。這個就是最終的可供分類使用的特徵向量了。

3.詳細過程

（1）標準化gamma空間和顏色空間

爲了減小光照因素的影響，首先須要將整個圖像進行規範化（歸一化）。在圖像的紋理強度中，局部的表層曝光貢獻的比重較大，因此，這種壓縮處理可以有效地下降圖像局部的陰影和光照變化。由於顏色信息做用不大，一般先轉化爲灰度圖；

Gamma壓縮公式：

好比能夠取Gamma=1/2；

（2）計算圖像梯度

計算圖像橫座標和縱座標方向的梯度，並據此計算每一個像素位置的梯度方向值；求導操做不只可以捕獲輪廓，人影和一些紋理信息，還能進一步弱化光照的影響。

圖像中像素點(x,y)的梯度爲：

最經常使用的方法是：首先用[-1,0,1]梯度算子對原圖像作卷積運算，獲得x方向（水平方向，以向右爲正方向）的梯度份量gradscalx，而後用[1,0,-1]T梯度算子對原圖像作卷積運算，獲得y方向（豎直方向，以向上爲正方向）的梯度份量gradscaly。而後再用以上公式計算該像素點的梯度大小和方向。

（3）爲每一個細胞單元構建梯度方向直方圖

第三步的目的是爲局部圖像區域提供一個編碼，同時可以保持對圖像中人體對象的姿式和外觀的弱敏感性。

咱們將圖像分紅若干個「單元格cell」，例如每一個cell爲8*8個像素。假設咱們採用9個bin的直方圖來統計這8*8個像素的梯度信息。也就是將cell的梯度方向360度分紅9個方向塊，如圖所示：例如：若是這個像素的梯度方向是20-40度，直方圖第2個bin的計數就加一，這樣，對cell內每一個像素用梯度方向在直方圖中進行加權投影（映射到固定的角度範圍），就能夠獲得這個cell的梯度方向直方圖了，就是該cell對應的9維特徵向量（由於有9個bin）。

像素梯度方向用到了，那麼梯度大小呢？梯度大小就是做爲投影的權值的。例如說：這個像素的梯度方向是20-40度，而後它的梯度大小是2（假設啊），那麼直方圖第2個bin的計數就不是加一了，而是加二（假設啊）。

細胞單元能夠是矩形的（rectangular），也能夠是星形的（radial）。

（4）把細胞單元組合成大的塊（block），塊內歸一化梯度直方圖

因爲局部光照的變化以及前景-背景對比度的變化，使得梯度強度的變化範圍很是大。這就須要對梯度強度作歸一化。歸一化可以進一步地對光照、陰影和邊緣進行壓縮。

做者採起的辦法是：把各個細胞單元組合成大的、空間上連通的區間（blocks）。這樣，一個block內全部cell的特徵向量串聯起來便獲得該block的HOG特徵。這些區間是互有重疊的，這就意味着：每個單元格的特徵會以不一樣的結果屢次出如今最後的特徵向量中。咱們將歸一化以後的塊描述符（向量）就稱之爲HOG描述符。

區間有兩個主要的幾何形狀——矩形區間（R-HOG）和環形區間（C-HOG）。R-HOG區間大致上是一些方形的格子，它能夠有三個參數來表徵：每一個區間中細胞單元的數目、每一個細胞單元中像素點的數目、每一個細胞的直方圖通道數目。

例如：行人檢測的最佳參數設置是：2×2細胞/區間、8×8像素/細胞、9個直方圖通道。則一塊的特徵數爲：2*2*9；

（5）收集HOG特徵

最後一步就是將檢測窗口中全部重疊的塊進行HOG特徵的收集，並將它們結合成最終的特徵向量供分類使用。

（6）那麼一個圖像的HOG特徵維數是多少呢？

順便作個總結：Dalal提出的Hog特徵提取的過程：把樣本圖像分割爲若干個像素的單元（cell），把梯度方向平均劃分爲9個區間（bin），在每一個單元裏面對全部像素的梯度方向在各個方向區間進行直方圖統計，獲得一個9維的特徵向量，每相鄰的4個單元構成一個塊（block），把一個塊內的特徵向量聯起來獲得36維的特徵向量，用塊對樣本圖像進行掃描，掃描步長爲一個單元。最後將全部塊的特徵串聯起來，就獲得了人體的特徵。例如，對於64*128的圖像而言，每16*16的像素組成一個cell，每2*2個cell組成一個塊，由於每一個cell有9個特徵，因此每一個塊內有4*9=36個特徵，以8個像素爲步長，那麼，水平方向將有7個掃描窗口，垂直方向將有15個掃描窗口。也就是說，64*128的圖片，總共有36*7*15=3780個特徵。

轉載：目標檢測的圖像特徵提取之（一）HOG特徵

做者：zouxy09@qq.com