Python實現YOLO目標檢測

做者:R語言和Python學堂git

連接:https://www.jianshu.com/p/35cfc959b37c

1. 什麼是目標檢測?

YOLO目標檢測的一個示例

啥是目標檢測?github

拿上圖 (用YOLOv3檢測) 來講,目標檢測 (Object Detection) 就是將圖片中的物體用一個個矩形框框出來,而且識別出每一個框中的物體是啥,並且最好的話是可以將圖片的全部物體都框出來。算法

再來看下YOLOv3在視頻上的效果:網絡

 

 

 

 

 

 

總之,目標檢測本質上包含兩個任務:物體識別物體定位app

2. 目標檢測技術的概述

目前,基於深度學習(deep learning)的目標檢測技術效果是最好的,這些技術模型能夠分紅三類:dom

  1. R-CNN系列,包括R-CNN,Fast R-CNN,以及Faster R-CNNide

  2. Single Shot Detector (SSD)函數

  3. You Only Look Once (YOLO)系列,其中YOLOv3是今天的主角學習

下面來簡單說一下這些模型,SSD這裏就不介紹了,感興趣的話可自行去了解。測試

R-CNN系列
Faster R-CNN的基本原理

 

 

上圖是Faster R-CNN模型的原理簡圖,技術細節可參考下面所說起的相關文章。

R-CNN系列的演化路徑爲:R-CNN → Fast R-CNN → Faster R-CNN

R-CNN 是第一個基於深度學習的目標檢測模型,它屬於two-stage方法,即將物體識別和物體定位分爲兩個步驟,分別完成。 詳情見Girshick等人的第一篇相關文章:https://arxiv.org/abs/1311.2524,其原理大概爲:(1) 預先找出圖中物體可能出現的位置,即候選區域 (Region Proposal) 。利用圖像中的紋理、邊緣、顏色等信息,能夠保證在選取較少窗口 (幾千甚至幾百) 的狀況下保持較高的召回率 (Recall) 。(2) 而後將這些候選框送入CNN網絡中進行識別分類。

R-CNN 方法的缺點是它太慢了;因爲它採用外部的候選框算法,它也不是一個完整的端到端 (end-to-end) 檢測器。

Girshick等人於2015年發表了第二篇論文 Fast R-CNN,連接爲:https://arxiv.org/abs/1504.08083。相對R-CNN,Fast R-CNN算法有了很大改進,即提升了精確度,並減小了執行前向網絡計算所需的時間;然而,該模型仍然依賴於外部的候選框算法。

直到2015年的後續模型 Faster R-CNN 的出現,連接爲:https://arxiv.org/abs/1506.01497。經過使用區域生成網絡 (Region Proposal Network, RPN)來取代候選框算法,Faster R-CNN 最終成爲真正的端到端目標檢測器。

雖然R-CNN系列的精確度不斷提升,可是R-CNN系列最大的問題是它的速度,即便使用GPU也只能達到5 FPS.

YOLO系列
YOLO的基本原理

上圖是YOLO模型的原理簡圖,技術細節可參考下面所說起的相關文章,YOLO官網爲:https://pjreddie.com/darknet/yolo/

爲了提升基於深度學習的目標檢測器的速度,SSD和YOLO都使用了one-stage策略。

這些算法將目標檢測做爲一個迴歸問題,對於給定的輸入圖像,同時給出邊界框位置以及相應的類別。

通常來講,one-stage策略比two-stage策略的精度低,但速度快得多。

YOLO是one-stage檢測器的一個很好的例子。

Redmon等人於2015年首次引入了YOLO,論文連接爲:https://arxiv.org/abs/1506.02640,詳細介紹了一個具備超實時目標檢測能力的檢測器,在GPU上得到了45 FPS。

YOLO已經經歷了許多不一樣版本的迭代,包括YOLO9000模型,經過聯合訓練,它可以檢測9000種不一樣類別的目標。雖然YOLO9000的表現有趣且新穎,但在COCO的156類數據集上,只達到了16%的平均精度(mAP)。雖然YOLO9000能夠檢測9000種類別,可是它的精度不是很理想。

最近,Redmon和Farhadi發表了一篇新的YOLO論文——YOLOv3: a Incremental Improvement(2018),連接爲:https://arxiv.org/abs/1804.02767。YOLOv3比以前的模型更大了,但在我看來,它是YOLO目標檢測器系列中最好的一個。

相比以前的算法,尤爲針對小目標狀況,YOLOv3的精度有顯著提高。

3. 基於OpenCV的快速實現

咱們將在這篇博客使用在COCO數據集上預訓練好的YOLOv3模型。

COCO 數據集包含80類,有people (人),bicycle(自行車),car(汽車)......,詳細類別可查看連接:https://github.com/pjreddie/darknet/blob/master/data/coco.names

測試程序中的文件:

百度雲:https://pan.baidu.com/s/1MPG89T6CrabYKLCsv_g5ZA

官網下載:https://pjreddie.com/darknet/yolo/

下面利用OpenCV來快速實現YOLO目標檢測,我將其封裝成一個叫yolo_detect()的函數,其使用說明可參考函數內部的註釋。網絡的模型和權重都已上傳至百度網盤。

# -*- coding: utf-8 -*- # 載入所需庫
import cv2 import numpy as np import os import time def yolo_detect(pathIn='', pathOut=None, label_path='./cfg/coco.names', config_path='./cfg/yolov3_coco.cfg', weights_path='./cfg/yolov3_coco.weights', confidence_thre=0.5, nms_thre=0.3, jpg_quality=80): ''' pathIn:原始圖片的路徑 pathOut:結果圖片的路徑 label_path:類別標籤文件的路徑 config_path:模型配置文件的路徑 weights_path:模型權重文件的路徑 confidence_thre:0-1,置信度(機率/打分)閾值,即保留機率大於這個值的邊界框,默認爲0.5 nms_thre:非極大值抑制的閾值,默認爲0.3 jpg_quality:設定輸出圖片的質量,範圍爲0到100,默認爲80,越大質量越好 '''

    # 加載類別標籤文件
    LABELS = open(label_path).read().strip().split("\n") nclass = len(LABELS) # 爲每一個類別的邊界框隨機匹配相應顏色
    np.random.seed(42) COLORS = np.random.randint(0, 255, size=(nclass, 3), dtype='uint8') # 載入圖片並獲取其維度
    base_path = os.path.basename(pathIn) img = cv2.imread(pathIn) (H, W) = img.shape[:2] # 加載模型配置和權重文件
    print('從硬盤加載YOLO......') net = cv2.dnn.readNetFromDarknet(config_path, weights_path) # 獲取YOLO輸出層的名字
    ln = net.getLayerNames() ln = [ln[i[0] - 1] for i in net.getUnconnectedOutLayers()] # 將圖片構建成一個blob,設置圖片尺寸,而後執行一次
    # YOLO前饋網絡計算,最終獲取邊界框和相應機率
    blob = cv2.dnn.blobFromImage(img, 1 / 255.0, (416, 416), swapRB=True, crop=False) net.setInput(blob) start = time.time() layerOutputs = net.forward(ln) end = time.time() # 顯示預測所花費時間
    print('YOLO模型花費 {:.2f} 秒來預測一張圖片'.format(end - start)) # 初始化邊界框,置信度(機率)以及類別
    boxes = [] confidences = [] classIDs = [] # 迭代每一個輸出層,總共三個
    for output in layerOutputs: # 迭代每一個檢測
        for detection in output: # 提取類別ID和置信度
            scores = detection[5:] classID = np.argmax(scores) confidence = scores[classID] # 只保留置信度大於某值的邊界框
            if confidence > confidence_thre: # 將邊界框的座標還原至與原圖片相匹配,記住YOLO返回的是
                # 邊界框的中心座標以及邊界框的寬度和高度
                box = detection[0:4] * np.array([W, H, W, H]) (centerX, centerY, width, height) = box.astype("int") # 計算邊界框的左上角位置
                x = int(centerX - (width / 2)) y = int(centerY - (height / 2)) # 更新邊界框,置信度(機率)以及類別
 boxes.append([x, y, int(width), int(height)]) confidences.append(float(confidence)) classIDs.append(classID) # 使用非極大值抑制方法抑制弱、重疊邊界框
    idxs = cv2.dnn.NMSBoxes(boxes, confidences, confidence_thre, nms_thre) # 確保至少一個邊界框
    if len(idxs) > 0: # 迭代每一個邊界框
        for i in idxs.flatten(): # 提取邊界框的座標
            (x, y) = (boxes[i][0], boxes[i][1]) (w, h) = (boxes[i][2], boxes[i][3]) # 繪製邊界框以及在左上角添加類別標籤和置信度
            color = [int(c) for c in COLORS[classIDs[i]]] cv2.rectangle(img, (x, y), (x + w, y + h), color, 2) text = '{}: {:.3f}'.format(LABELS[classIDs[i]], confidences[i]) (text_w, text_h), baseline = cv2.getTextSize(text, cv2.FONT_HERSHEY_SIMPLEX, 0.5, 2) cv2.rectangle(img, (x, y-text_h-baseline), (x + text_w, y), color, -1) cv2.putText(img, text, (x, y-5), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 0), 2) # 輸出結果圖片
    if pathOut is None: cv2.imwrite('with_box_'+base_path, img, [int(cv2.IMWRITE_JPEG_QUALITY), jpg_quality]) else: cv2.imwrite(pathOut, img, [int(cv2.IMWRITE_JPEG_QUALITY), jpg_quality])

來測試一下:

pathIn = './test_imgs/test1.jpg' pathOut = './result_imgs/test1.jpg' yolo_detect(pathIn,pathOut) >>> 從硬盤加載YOLO...... >>> YOLO模型花費 3.63 秒來預測一張圖片 pathIn = './test_imgs/test2.jpg' pathOut = './result_imgs/test2.jpg' yolo_detect(pathIn,pathOut) >>> 從硬盤加載YOLO...... >>> YOLO模型花費 3.55 秒來預測一張圖片 pathIn = './test_imgs/test3.jpg' pathOut = './result_imgs/test3.jpg' yolo_detect(pathIn,pathOut) >>> 從硬盤加載YOLO...... >>> YOLO模型花費 3.75 秒來預測一張圖片

結果爲:

 

 

 

 

從運行結果可知,在CPU上,檢測一張圖片所花的時間大概也就3到4秒。若是使用GPU,徹底能夠實時對視頻/攝像頭進行目標檢測。

結合以前的博客用Python提取視頻中的圖片,可將YOLOv3應用於視頻流。

YOLOv3最大的侷限性和缺點就是:對於小物體,有時檢測效果不佳;尤爲不善於處理靠得很近的物體。

這些缺點都是由YOLO自身的算法所致使的:首先YOLO將輸入圖像劃分爲一個SxS的網格,網格中的每一個單元格只預測一個對象。若是在一個單元格中存在多個小對象,那麼YOLO將沒法檢測它們,最終致使檢測對象的丟失。

所以,若是你知道你的數據集包含許多小物體,並且這些小物體也靠得很近,那麼你不該該使用YOLO目標檢測器。在小物體方面,Faster R-CNN效果是最好,儘管它的速度是最慢的。

相關文章
相關標籤/搜索