本文首發自集智專欄python
只需10行Python代碼,咱們就能實現計算機視覺中目標檢測。git
from imageai.Detection import ObjectDetection
import os
execution_path = os.getcwd()
detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
detections = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"))
for eachObject in detections:
print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
複製代碼
沒錯,用這寥寥10行代碼,就能實現目前AI產品中應用普遍的目標檢測技術。github
看完了代碼,下面容咱們聊聊目標檢測背後的技術背景,並解讀這10行Python代碼的由來和實現原理。算法
人工智能的一個重要領域就是計算機視覺,它是指計算機及軟件系統識別和理解圖像與視頻的科學。計算機視覺包含不少細分方向,好比圖像識別、目標檢測、圖像生成和圖像超分辨率等。其中目標檢測因爲用途普遍,在計算機視覺領域的意義最爲深遠。編程
目標檢測是指計算機和軟件系統可以定位出圖像/畫面中的物體,並識別出它們。目標檢測技術已經普遍應用於人臉檢測、車輛檢測、人流量統計、網絡圖像、安防系統和無人車等領域。和其它計算機視覺技術同樣,目標檢測將來會進一步成爲人工智能的重要組成部分,有着廣闊的發展前景。數組
不過,在軟件應用和系統中使用現代目標檢測方法以及根據這些方法建立應用,並不是簡單直接。早期的目標檢測實現主要是應用一些經典算法,好比OpenCV中支持的算法。然而這些算法的表現並不穩定,在不一樣狀況下差別巨大。bash
2012年深度學習技術的突破性進展,催生了一大批高度精準的目標檢測算法,好比R-CNN,Fast-RCNN,Faster-RCNN,RetinaNet和既快又準的SSD及YOLO。使用這些基於深度學習的方法和算法,須要理解大量的數學和深度學習框架。如今全世界有數以百萬計的開發者在藉助目標檢測技術創造新產品新項目,但因爲理解和使用較爲複雜困難,仍有不少人不得要領。網絡
爲了解決這個困擾開發者們的問題,計算機視覺專家Moses Olafenwa帶領團隊推出了Python庫ImageAI,能讓開發人員只需寥寥數行代碼就能很容易的將最早進的計算機視覺技術應用到本身的項目和產品中。框架
咱們開頭所示的10行代碼實現,就是要用到ImageAI。函數
使用ImageAI執行目標檢測,你只需如下4步:
1.在電腦上安裝Python
2.安裝ImageAI及其環境依賴
3.下載目標檢測模塊文件
4.運行示例代碼,就是咱們展現的那10行
下面咱們一步步詳細講解。
1)從Python官網下載和安裝Python 3
2)經過pip安裝以下環境依賴
1.Tensorflow
pip install tensorflow
複製代碼
2.Numpy
pip install numpy
複製代碼
3.SciPy
pip install scipy
複製代碼
4.OpenCV
pip install opencv-python
複製代碼
5.Pillow
pip install pillow
複製代碼
6.Matplotlib
pip install matplotlib
複製代碼
7.H5py
pip install h5py
複製代碼
8.Keras
pip install keras
複製代碼
9.ImageAI
pip install
複製代碼
3)經過該連接下載RetinaNet 模型文件用於目標檢測。
到了這裏咱們已經安裝好了全部依賴,就能夠準備寫本身的首個目標檢測代碼了。 建立一個Python文件,爲其命名(好比FirstDetection.py),而後將以下代碼寫到文件中,再把RetinaNet模型文件以及你想檢測的圖像拷貝到包含該Python文件的文件夾裏。
from imageai.Detection import ObjectDetection
import os
execution_path = os.getcwd()
detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
detections = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"))
for eachObject in detections:
print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
複製代碼
而後運行代碼,等待控制檯打印結果。等控制檯打印出結果後,就能夠打開FirstDetection.py所在的文件夾,你就會發現有新的圖像保存在了裏面。好比下面兩張示例圖像,以及執行目標檢測後保存的兩張新圖像。
目標檢測以前:
目標檢測以後:咱們能夠看到圖像上顯示了檢測出的物體名稱及機率。
解讀10行代碼
下面咱們解釋一下這10行代碼的工做原理。
from imageai.Detection import ObjectDetection
import os
execution_path = os.getcwd()
複製代碼
在上面3行代碼中,咱們在第一行導入了ImageAI目標檢測類,在第二行導入Python os類,在第三行定義了一個變量,獲取通往咱們的Python文件、RetinaNet模型文件和圖像所在文件夾的路徑。
detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
detections = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"))
複製代碼
在上面5行代碼中,咱們在第一行定義咱們的目標檢測類,在第二行設定RetinaNet的模型類型,在第三行將模型路徑設置爲RetinaNet模型的路徑,在第四行將模型加載到目標檢測類中,而後咱們在第五行調用檢測函數,並在輸入和輸出圖像路徑中進行解析。
for eachObject in detections:
print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
複製代碼
在上面兩行代碼中,咱們迭代了第一行中detector.detectObjectFromImage函數返回的全部結果,而後打印出第二行中模型對圖像上每一個物體的檢測結果(名稱和機率)。
ImageAI支持不少強大的目標檢測自定義功能,其中一項就是可以提取在圖像上檢測到的每一個物體的圖像。只需將附加參數extract_detected_objects=True解析爲detectObjectsFromImage函數,以下所示,目標檢測類就會爲圖像物體建立一個文件夾,提取每張圖像,將它們保存在新建立的文件夾中,並返回一個包含經過每張圖像的路徑的額外數組。
detections, extracted_images = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"), extract_detected_objects=True)
複製代碼
咱們用前面的第一張圖像做爲例子,能夠獲得圖像中檢測到的各個物體的單獨圖像:
ImageAI提供了不少功能,可以用於各種目標檢測任務的自定義和生產部署。包括:
-調整最小几率:默認機率小於50%的物體不會顯示,若有須要,你能夠自行調整這個數字。
-自定義目標檢測:使用提供的CustomObject類,你能夠檢測一個或多個特定物體。
-調整檢測速度:能夠經過將檢測速度設爲「快」「更快」「最快」三個不一樣等級,調整檢測速度。
-輸入輸出類型:你能夠自定義圖像的路徑,Numpy數組或圖像的文件流爲輸入輸出。
誠然,單看這10行代碼每一行,談不上驚豔,也藉助了很多庫,可是僅用10行代碼就能讓咱們輕鬆實現以前很麻煩的目標檢測,仍是能談得上「給力」二字。
更多功能和詳情,請查看GitHub
0806期《人工智能-從零開始到精通》
限時折扣中!
談笑風生 在線編程 瞭解一下? (前25位同窗還可領取¥200優惠券哦)