CVPR2016: You Only Look Once:Unified, Real-Time Object Detectiongit
轉載請註明做者:夢裏茶github
YOLO,You Only Look Once,摒棄了RCNN系列方法中的region proposal步驟,將detection問題轉爲一個迴歸問題網絡
輸入圖片:resize到448x448ide
整張圖片輸入卷積神經網絡(24層卷積+2層全鏈接,下面這張示意圖是Fast YOLO的)函數
因而輸出能夠表示爲一個SxSx(B*(4+1)+C)的tensor,訓練只須要根據數據集準備好這樣的tensor進行regression就行學習
YOLO裏最核心的東西就講完了,其實能夠把YOLO看做固定region proposal的Faster RCNN,因而能夠省掉Faster RCNN裏region proposal部分,分類和bounding box regression跟Faster RCNN是差很少的對象
網絡中只有最後的全鏈接層用了線性的激活函數,其餘層用了leaky Relu:f(x)=max(x, 0.1x)blog
對比Relu和leaky Relu圖片
在x小於0的時候,用了0.1x,避免使用relu的時候有些單元永遠得不到激活(Dead ReLU Problem)get
卷積層更少,只有9層卷積+2層全鏈接,每層filters也更少,因而速度更快
Fast YOLO速度最快,準確率不過高,但仍是比傳統方法好,YOLO則比較中庸,速度不慢,準確率也不過高,但也還行。
主要是定位不許(畢竟沒有精細的region proposal),可是在背景上出錯較少(不容易把背景當成對象)
Anyway,YOLO結構仍是挺優雅的,比Faster RCNN黑科技少多了,更重要的是,它是當時最快的深度學習檢測模型,也是很值得確定的。