吳恩達深度學習筆記 course4 week3 目標檢測

時間 2019-11-07

標籤深度學習筆記 course4 course week3 week 目標檢測简体版

原文原文鏈接

1.Objection localization

圖片檢測問題分爲:算法

1.圖片分類:是否爲汽車(結果只爲單個對象)windows

2.分類與定位:是否爲汽車 ,汽車位置(結果只爲單個對象)網絡

3.目標檢測: 檢測不一樣物體並定位(結果可能含多個對象)dom

分類與定位的表示:函數

分類與定位的輸出層可用以下表示: 性能

1.Pc 是否存在測試

2.bx 目標中心的座標 xatom

3.by 目標中心的座標 yspa

4.bH 目標高度.net

5.bW 目標寬度

6.C1 是否爲分類1

7.C2 是否爲分類2

8.C3 是否爲分類3

模型訓練時，bx、by、bh、bw都由人爲肯定其數值。

損失函數:

Pc=1，即 $y_{1} = 1$

　　　　　　 $L (\hat{y}, y) = ({\hat{y}}_{1} - y_{1})^{2} + ({\hat{y}}_{2} - y_{2})^{2} + \dots + ({\hat{y}}_{8} - y_{8})^{2}$

Pc=0，即 $y_{1} = 0$

$y_{1} = 0$

固然在實際的目標定位應用中，咱們可使用更好的方式是：

對 $c_{1}$
對邊界框的四個值應用平方偏差或者相似的方法；
對 $P_{c}$

$P_{c}$

2.Landmark detection

除上述的矩形檢測外,還能夠對目標的關鍵點特徵進行一個檢測

其輸出爲:

1.Pc

2.l1_x,l1_y (記錄關鍵點點特徵的位置)

3.l2_x,l2_y

..........

咱們經過標定訓練數據集中特徵點的位置信息，來對人臉進行不一樣位置不一樣特徵的定位和標記。AR的應用就是基於人臉表情識別來設計的，如臉部扭曲、增長頭部配飾等。

在人體姿態檢測中，一樣能夠經過對人體不一樣的特徵位置關鍵點的標註，來記錄人體的姿態。

3.Objection detection

目標檢測的一種簡單算法是滑動窗口檢測

首先:蒐集一些目標圖片和非目標圖片做爲訓練集的樣本進行訓練獲得一個CNN模型以下圖:

注意:訓練集圖片尺寸較小，儘可能僅包含相應目標

而後從測試圖片選擇合適的窗口,進行從左到右,從上到下的滑動,對每個窗口使用已經訓練好的CNN模型,觀察是否有該目標.

若判斷有目標，則此窗口即爲目標區域；若判斷沒有目標，則此窗口爲非目標區域。

優勢:原理簡單，且不須要人爲選定目標區域（檢測出目標的滑動窗即爲目標區域）。

缺點:滑動窗口的大小,步長過大選取都會影響到目標檢測到的成功率. 因爲會對每一個選取的窗口進行CNN網絡計算,若是步長小,則會形成計算量大,性能低下.

總而言之,滑動窗口算法不夠快,不夠靈活

4.Convolutional implentation of sliding windows

卷積實現滑動窗口

將全鏈接層轉爲卷積層:

在上一週課程中，Ng講授過 $1 \times 1$

$1 \times 1$

咱們以訓練好的模型，輸入一個16x16x3大小的整幅圖片，圖中藍色部分表明滑動窗口的大小。咱們以2爲大小的步幅滑動窗口，分別與卷積核進行卷積運算，最後獲得4幅10×10×16大小的特徵圖，然而由於在滑動窗口的操做時，輸入部分有大量的重疊，也就是有不少重複的運算，致使在下一層中的特徵圖值也存在大量的重疊，因此最後獲得的第二層激活值（特徵圖）構成一副12×12×16大小的特徵圖。對於後面的池化層和全鏈接層也是一樣的過程。

那麼由此可知，滑動窗口在整幅圖片上進行滑動卷積的操做過程，就等同於在該圖片上直接進行卷積運算的過程。因此卷積層實現滑動窗口的這個過程，咱們不須要把輸入圖片分割成四個子集分別執行前向傳播，而是把他們做爲一張圖片輸入到卷積神經網絡中進行計算，其中的重疊部分（公共區域）能夠共享大量的計算.

值得一提的是，窗口步進長度與選擇的MAX POOL大小有關。若是須要步進長度爲4，只需設置MAX POOL爲4 x 4便可。

依據上面的方法，咱們將整張圖片輸入到訓練好的卷積神經網絡中。無需再利用滑動窗口分割圖片，只需一次前向傳播，咱們就能夠同時獲得全部圖片子集的預測值。