[譯] 如何輕鬆地在樹莓派上使用深度學習檢測對象

真實世界帶來的挑戰,是有限的數據以及小型硬件,諸如手機和樹莓派等,這些硬件沒法運行復雜的深度學習模型。這篇文章演示瞭如何使用樹莓派進行對象檢測,就像公路上的汽車,冰箱裏的橘子,文件上的簽名,太空中的特斯拉。

免責聲明:我正在用更少的數據和無硬件的方式構建 nanonets.com 來幫助創建機器學習。前端

若是你沒有耐心繼續閱讀下去,能夠直接翻閱到底部查看 Github 的倉庫。node

檢測孟買路上的車輛。python

爲何要檢測對象?爲何使用樹莓派?

樹莓派是一款優秀的硬件,它已經捕獲了與售賣 1500 萬臺設備同時代的人的心,甚至於黑客用其構建了更酷的項目。鑑於深度學習和樹莓派相機的流行,咱們認爲若是可以經過樹莓派進行深度學習來檢測任何對象,會是一件很是有意義的事情。android

如今你將可以在你的自拍中發現一個 potobomber,有人進入 Harambe 的籠子,在那裏有人讓 Sriracha 或 Amazon 送貨員進入你的房子。ios

什麼是對象檢測?

20M 年的進化令人類的視以爲到了至關大的進化。人類大腦有 30% 的神經元負責處理視覺(相比之下,觸覺和聽覺分別爲 8% 和 3%)。與機器相比,人類有兩大優點。一是立體視覺,二是近乎無限的訓練數據(一個 5 歲的嬰兒,以 30fps 的速度獲取大約 2.7B 的圖像)。git

爲了模仿人類層次的表現水平,科學家將視覺感知任務分解爲四個不一樣的類別。github

  1. 分類,爲整個圖像指定一個標籤
  2. Localization,爲特定標籤指定一個邊框
  3. 對象檢測,在圖像中繪製多個邊界框
  4. 圖像分割,建立圖像中物體所在位置的精確部分

對於各類應用來講,對象檢測已經足夠好了(即便圖像分割結果更爲精確,但它受到建立訓練數據的複雜性影響。對於一我的類標註者來講,分割圖像所花的時間比繪製邊界框要多 12 倍;這是更多的軼事,但缺少一個來源)。並且在檢測對象以後,能夠單獨從邊界框中分割對象。web

使用對象檢測:

對象檢測具備重要的現實意義,已經在各行業中被普遍使用。如下是相關示例:算法

我如何使用對象檢測來解決我本身的問題?

對象檢測可用來回答各類問題。這是粗略的分類:docker

  1. 在個人圖像中是否存在對象?例如,我家有入侵者麼。
  2. 對象在哪裏,在圖像中?例如,當一輛汽車試圖在世界各地行駛時,知道物體在哪裏是很重要的。
  3. 有多少個對象,它們都在圖像中麼? 對象檢測是計算物體的最有效的方法之一。例如,一個倉庫裏的架子上有多少箱子。
  4. 什麼是不一樣類型的對象在圖像中?好比哪一個動物在動物園的哪一個地方?
  5. 對象的大小是多少? 尤爲是使用靜態相機時,很容易計算出物體的大小。好比芒果的大小是多少?
  6. **不一樣對象如何相互做用?**足球場上的陣型如何影響結果?
  7. 與時間有關的對象在何處(追蹤對象)好比追蹤像火車這樣的移動物體,並計算它的速度等。

20 行如下代碼中的對象檢測

YOLO 算法可視化。

有多種用於對象檢測的模型/體系結構。在速度、尺寸和精度之間進行權衡。咱們選了一個最受歡迎的:YOLO(您只看了一次)。並在 20 行如下的代碼中展現了它的工做原理(若是忽略註釋的 haunted)。

注意:這是僞代碼,不會成爲一個有用的例子。它有一個接近 CNN 標準的部分黑盒,以下所示

你能夠在這裏閱讀全文:pjreddie.com/media/files…

YOLO 中的卷積神經網絡結構。

#this is an Image of size 140x140. We will assume it to be black and white (ie only one channel, it would have been 140x140x3 for rgb)
image = readImage()

#We will break the Image into 7 coloumns and 7 rows and process each of the 49 different parts independently
NoOfCells = 7

#we will try and predict if an image is a dog, cat, cow or wolf. Therfore the number of classes is 4
NoOfClasses = 4
threshold = 0.7

#step will be the size of step to take when moving across the image. Since the image has 7 cells step will be 140/7 = 20
step = height(image)/NoOfCells

#stores the class for each of the 49 cells, each cell will have 4 values which correspond to the probability of a cell being 1 of the 4 classes
#prediction_class_array[i,j] is a vector of size 4 which would look like [0.5 #cat, 0.3 #dog, 0.1 #wolf, 0.2 #cow]
prediction_class_array = new_array(size(NoOfCells,NoOfCells,NoOfClasses))

#stores 2 bounding box suggestions for each of the 49 cells, each cell will have 2 bounding boxes, with each bounding box having x, y, w ,h and c predictions. (x,y) are the coordinates of the center of the box, (w,h) are it's height and width and c is it's confidence
predictions_bounding_box_array = new_array(size(NoOfCells,NoOfCells,NoOfCells,NoOfCells))

#it's a blank array in which we will add the final list of predictions
final_predictions = []

#minimum confidence level we require to make a prediction
threshold = 0.7

for (i<0; i<NoOfCells; i=i+1):
	for (j<0; j<NoOfCells;j=j+1):
		#we will get each "cell" of size 20x20, 140(image height)/7(no of rows)=20 (step) (size of each cell)"
		#each cell will be of size (step, step)
		cell = image(i:i+step,j:j+step) 

		#we will first make a prediction on each cell as to what is the probability of it being one of cat, dog, cow, wolf
		#prediction_class_array[i,j] is a vector of size 4 which would look like [0.5 #cat, 0.3 #dog, 0.1 #wolf, 0.2 #cow]
		#sum(prediction_class_array[i,j]) = 1
		#this gives us our preidction as to what each of the different 49 cells are
		#class predictor is a neural network that has 9 convolutional layers that make a final prediction
		prediction_class_array[i,j] = class_predictor(cell)

		#predictions_bounding_box_array is an array of 2 bounding boxes made for each cell
		#size(predictions_bounding_box_array[i,j]) is [2,5]
		#predictions_bounding_box_array[i,j,1] is bounding box1, predictions_bounding_box_array[i,j,2] is bounding box 2
		#predictions_bounding_box_array[i,j,1] has 5 values for the bounding box [x,y,w,h,c]
		#the values are x, y (coordinates of the center of the bounding box) which are whithin the bounding box (values ranging between 0-20 in your case)
		#the values are h, w (height and width of the bounding box) they extend outside the cell and are in the range of [0-140]
		#the value is c a confidence of overlap with an acutal bounding box that should be predicted
		predictions_bounding_box_array[i,j] = bounding_box_predictor(cell)

		#predictions_bounding_box_array[i,j,0, 4] is the confidence value for the first bounding box prediction
		best_bounding_box =  [0 if predictions_bounding_box_array[i,j,0, 4] > predictions_bounding_box_array[i,j,1, 4] else 1]

		# we will get the class which has the highest probability, for [0.5 #cat, 0.3 #dog, 0.1 #wolf, 0.2 #cow], 0.5 is the highest probability corresponding to cat which is at position 0. So index_of_max_value will return 0
		predicted_class = index_of_max_value(prediction_class_array[i,j])

		#we will check if the prediction is above a certain threshold (could be something like 0.7)
		if predictions_bounding_box_array[i,j,best_bounding_box, 4] * max_value(prediction_class_array[i,j]) > threshold:

			#the prediction is an array which has the x,y coordinate of the box, the height and the width
			prediction = [predictions_bounding_box_array[i,j,best_bounding_box, 0:4], predicted_class]

			final_predictions.append(prediction)


print final_predictions
複製代碼

YOLO 在 <20 行代碼中的解釋。

咱們如何構建用於對象檢測的深度學習模型?

深度學習工做流的 6 個主要步驟將分紅 3 個階段

  1. 收集訓練數據
  2. 訓練模型
  3. 預測新圖像


階段 1 —— 收集訓練數據

第 1 步 收集圖像(每一個對象至少有 100 張圖像):

在這個任務中,每一個對象須要幾百張圖像。嘗試將數據捕獲到您最終要對其進行預測的數據上。

第 2 步 註解(手動繪製這些圖像):

在圖像上繪製邊界框。您可使用像 labelImg 這樣的工具。您須要一些人來註釋您的圖像。這是一個至關密集且耗時的任務。


階段 2 — 在 GPU 機器上訓練模型

第 3 步 尋找能夠遷移學習的預訓練模型

您能夠在 medium.com/nanonets/na… 中閱讀到更多有關這方面的信息。您須要一個預訓練模型,這樣您就能夠減小訓練所需的數據量。沒有它,您可能須要幾十萬張的圖像來訓練模型。

你能夠在這裏找到一些預訓練的模型

第 4 步驟, 在 GPU 上訓練(像 AWS/GCP 等雲服務或您本身的 GPU 機器):

Docker 鏡像

訓練模型的過程不是必要的,但建立 docker 鏡像使得訓練變得更加簡單的過程很難簡化。

你能夠經過運行以下內容來開始訓練模型:

sudo nvidia-docker run -p 8000:8000 -v `pwd`:data docker.nanonets.com/pi_training -m train -a ssd_mobilenet_v1_coco -e ssd_mobilenet_v1_coco_0 -p '{"batch_size":8,"learning_rate":0.003}' 
複製代碼

有關如何使用的詳細信息,請參閱此連接

docker 鏡像擁有一個能夠用如下參數調用的 run.sh 腳本

run.sh [-m mode] [-a architecture] [-h help] [-e experiment_id] [-c checkpoint] [-p hyperparameters]

-h          display this help and exit
-m          mode: should be either `train` or `export`
-p          key value pairs of hyperparameters as json string
-e          experiment id. Used as path inside data folder to run current experiment
-c          applicable when mode is export, used to specify checkpoint to use for export
複製代碼

您能夠在如下找到更多細節:

爲了訓練模型,您須要選擇正確的超參數。

找到正確的參數

「深度學習」的藝術含有一點點諷刺,但它會嘗試找出哪些會爲您的模型得到最高精度的最佳參數。與此相關的是某些程度的黑魔法以及一點理論。這是找到正確參數的好資源

量化模型(使其更小以適應像樹莓派或手機這樣的小型設備)

諸如手機和樹莓派這樣的小型設備,內存和計算能力都很小。

訓練神經網絡是經過對權重施加許多微小推動完成的,而這些微小的增量一般須要浮點精度才能工做(儘管這裏也有研究努力使用量化表示)。

採用預先訓練模型並運行推理是很是不一樣的。深度神經網絡的神奇特性之一是,它們每每能很好地處理輸入中的高噪聲。

爲何要量化?

例如,神經網絡模型會佔用大量磁盤空間,起初 AlexNet 是 200 MB 以上的浮點格式。由於在單個模型中常常有數百萬個神經鏈接,所以幾乎全部大小都被神經鏈接的權重所決定。

神經網絡的節點和權重起初被存儲爲 32-bit 浮點數,最簡單的量化動機是經過存儲每一個層的最小和最大值來縮小文件大小,而後將每一個浮點值壓縮爲一個 8 位整數,文件大小所以減少了 75%。

量化代碼:

curl -L "https://storage.googleapis.com/download.tensorflow.org/models/inception_v3_2016_08_28_frozen.pb.tar.gz" |
  tar -C tensorflow/examples/label_image/data -xz
bazel build tensorflow/tools/graph_transforms:transform_graph
bazel-bin/tensorflow/tools/graph_transforms/transform_graph \
--in_graph=tensorflow/examples/label_image/data/inception_v3_2016_08_28_frozen.pb \
  --out_graph=/tmp/quantized_graph.pb \
  --inputs=input \
  --outputs=InceptionV3/Predictions/Reshape_1 \
  --transforms='add_default_attributes strip_unused_nodes(type=float, shape="1,299,299,3") remove_nodes(op=Identity, op=CheckNumerics) fold_constants(ignore_errors=true) fold_batch_norms fold_old_batch_norms quantize_weights quantize_nodes strip_unused_nodes sort_by_execution_order 複製代碼

第 3 階段:使用樹莓派預測新圖像

第 5 步,經過相機捕捉新圖像

你須要樹莓派生活和工做。而後捕獲一個新圖像

安裝說明參見此連接

import picamera, os
from PIL import Image, ImageDraw
camera = picamera.PiCamera()
camera.capture('image1.jpg')
os.system("xdg-open image1.jpg")
複製代碼

捕獲新圖像的代碼。

第 6 步,預測新圖像

下載模型

一旦你完成了模型的訓練,你就能夠把它下載到你的樹莓派上了。要導出模型運行:

sudo nvidia-docker run -v `pwd`:data docker.nanonets.com/pi_training -m export -a ssd_mobilenet_v1_coco -e ssd_mobilenet_v1_coco_0 -c /data/0/model.ckpt-8998
複製代碼

而後將模型下載到樹莓派上。

在樹莓派上下載 Tensorflow

根據設備的不一樣,您可能須要稍微更改安裝

sudo apt-get install libblas-dev liblapack-dev python-dev libatlas-base-dev gfortran python-setuptools libjpeg-dev

sudo pip install Pillow

sudo pip install http://ci.tensorflow.org/view/Nightly/job/nightly-pi-zero/lastSuccessfulBuild/artifact/output-artifacts/tensorflow-1.4.0-cp27-none-any.whl

git clone [https://github.com/tensorflow/models.git](https://github.com/tensorflow/models.git)

sudo apt-get install -y protobuf-compiler

cd models/research/protoc object_detection/protos/*.proto --python_out=.

export PYTHONPATH=$PYTHONPATH:/home/pi/models/research:/home/pi/models/research/slim
複製代碼

運行模型以預測新圖像

python ObjectDetectionPredict.py --model data/0/quantized_graph.pb --labels data/label_map.pbtxt --images /data/image1.jpg /data/image2.jpg
複製代碼

樹莓派的性能基準測試

樹莓派對內存和計算都有限制(與樹莓派 GPU 兼容的 Tensorflow 版本仍然不可用)。所以,對基準測試來講,每一個模型須要多少時間才能對新圖像進行預測很是重要。

在樹莓派中運行不一樣對象檢測的基準測試。


咱們在 NanoNets 的目標是使深度學習工做更加簡單。對象檢測是咱們關注的一個主要領域,咱們已經制定了一個工做流來解決實現深度學習模型的許多挑戰。

NanoNets 如何使過程更簡單:

1. 無需註解

咱們已經刪除了註釋圖像的需求,咱們有專業的註釋人員爲爲您的圖像註釋

2. 自動優化模型與超參數的選擇

咱們爲您自動化訓練最好的模型。爲了實現這個,咱們運行一組具備不一樣參數的模型,來爲您的數據選擇最佳模型。

3. 不須要昂貴的硬件和 GPU

NanoNets 徹底在雲端運行並且無需任何硬件。這使得它更容易使用。

4. 適合像樹莓派這樣的移動設備

由於像樹莓派和手機這樣的設備並非爲了運行復雜的計算任務而構建的,因此您能夠把工做量外包給咱們的雲,它會爲您完成全部的計算

這裏是使用 NanoNets API 對圖像進行預測的簡單片斷

import picamera, json, requests, os, random
from time import sleep
from PIL import Image, ImageDraw

#capture an image
camera = picamera.PiCamera()
camera.capture('image1.jpg')
print('caputred image')

#make a prediction on the image
url = 'https://app.nanonets.com/api/v2/ObjectDetection/LabelFile/'
data = {'file': open('image1.jpg', 'rb'), \
    'modelId': ('', 'YOUR_MODEL_ID')}
response = requests.post(url, auth=requests.auth.HTTPBasicAuth('YOUR_API_KEY', ''), files=data)
print(response.text)

#draw boxes on the image
response = json.loads(response.text)
im = Image.open("image1.jpg")
draw = ImageDraw.Draw(im, mode="RGBA")
prediction = response["result"][0]["prediction"]
for i in prediction:
    draw.rectangle((i["xmin"],i["ymin"], i["xmax"],i["ymax"]), fill=(random.randint(1, 255),random.randint(1, 255),random.randint(1, 255),127))
im.save("image2.jpg")
os.system("xdg-open image2.jpg")
複製代碼

使用 NanoNets 對新圖像進行預測的代碼

構建您本身的 NanoNet

您能夠嘗試從如下幾點來構建屬於本身的模型:

1. 使用 GUI(也能夠自動註釋圖像):nanonets.com/objectdetec…

2. 使用咱們的 API:github.com/NanoNets/ob…

第 1 步:克隆倉庫

git clone [https://github.com/NanoNets/object-detection-sample-python.git](https://github.com/NanoNets/object-detection-sample-python.git)
cd object-detection-sample-python
sudo pip install requests
複製代碼

第 2 步:獲取您的免費 API 的密鑰

app.nanonets.com/user/api_ke… 中獲取您的免費 API 密鑰

第 3 步:將 API 密鑰設置爲環境變量

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE
複製代碼

第 4 步:建立新模型

python ./code/create-model.py
複製代碼

注意:這將生成下一步所需的模型 ID

第 5 步:添加模型 ID 做爲環境變量

export NANONETS_MODEL_ID=YOUR_MODEL_ID
複製代碼

第 6 步:上傳訓練數據

收集您想要檢測對象的圖像。您可使用咱們的 web UI(https://app.nanonets.com/ObjectAnnotation/?appId=YOUR_MODEL_ID) 對其進行註釋,或者使用像 labelImg 這樣的開源工具。一旦在文件夾中準備好數據集,images(圖像文件)和 annotations(圖像文件註解),就能夠開始上傳數據集了。

python ./code/upload-training.py
複製代碼

第 7 步:訓練模型

一旦圖像上傳完畢,就開始訓練模型

python ./code/train-model.py
複製代碼

第 8 步:獲取模型狀態

模型訓練須要 2 個小時。一旦模型被訓練,您將收到一封電子郵件。同時檢查模型的狀態

watch -n 100 python ./code/model-state.py
複製代碼

第 9 步:預測

一旦模型訓練好了,您就可使用來進行預測

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg
複製代碼

代碼(GitHub 倉庫)

訓練模型的 Github 倉庫:

  1. 用於模型訓練和量化的 Tensorflow 代碼
  2. NanoNets 模型訓練代碼

爲樹莓派作出預測的 GitHub 倉庫(即檢測新對象):

  1. 在樹莓派上用於預測的 Tensorflow 代碼
  2. 在樹莓派上用於預測的 NanoNets 代碼

帶有註釋的數據集:

  1. 印度公路可見的車輛,從印度道路圖像中提取車輛的數據集
  2. Coco 數據集

掘金翻譯計劃 是一個翻譯優質互聯網技術文章的社區,文章來源爲 掘金 上的英文分享文章。內容覆蓋 AndroidiOS前端後端區塊鏈產品設計人工智能等領域,想要查看更多優質譯文請持續關注 掘金翻譯計劃官方微博知乎專欄

相關文章
相關標籤/搜索