- 原文地址:How to easily Detect Objects with Deep Learning on Raspberry Pi
- 原文做者:Sarthak Jain
- 譯文出自:掘金翻譯計劃
- 本文永久連接:github.com/xitu/gold-m…
- 譯者:Starrier
- 校對者:luochen1992、jasonxia23
免責聲明:我正在用更少的數據和無硬件的方式構建 nanonets.com 來幫助創建機器學習。前端
若是你沒有耐心繼續閱讀下去,能夠直接翻閱到底部查看 Github 的倉庫。node
檢測孟買路上的車輛。python
樹莓派是一款優秀的硬件,它已經捕獲了與售賣 1500 萬臺設備同時代的人的心,甚至於黑客用其構建了更酷的項目。鑑於深度學習和樹莓派相機的流行,咱們認爲若是可以經過樹莓派進行深度學習來檢測任何對象,會是一件很是有意義的事情。android
如今你將可以在你的自拍中發現一個 potobomber,有人進入 Harambe 的籠子,在那裏有人讓 Sriracha 或 Amazon 送貨員進入你的房子。ios
20M 年的進化令人類的視以爲到了至關大的進化。人類大腦有 30% 的神經元負責處理視覺(相比之下,觸覺和聽覺分別爲 8% 和 3%)。與機器相比,人類有兩大優點。一是立體視覺,二是近乎無限的訓練數據(一個 5 歲的嬰兒,以 30fps 的速度獲取大約 2.7B 的圖像)。git
爲了模仿人類層次的表現水平,科學家將視覺感知任務分解爲四個不一樣的類別。github
對於各類應用來講,對象檢測已經足夠好了(即便圖像分割結果更爲精確,但它受到建立訓練數據的複雜性影響。對於一我的類標註者來講,分割圖像所花的時間比繪製邊界框要多 12 倍;這是更多的軼事,但缺少一個來源)。並且在檢測對象以後,能夠單獨從邊界框中分割對象。web
對象檢測具備重要的現實意義,已經在各行業中被普遍使用。如下是相關示例:算法
對象檢測可用來回答各類問題。這是粗略的分類:docker
YOLO 算法可視化。
有多種用於對象檢測的模型/體系結構。在速度、尺寸和精度之間進行權衡。咱們選了一個最受歡迎的:YOLO(您只看了一次)。並在 20 行如下的代碼中展現了它的工做原理(若是忽略註釋的 haunted)。
注意:這是僞代碼,不會成爲一個有用的例子。它有一個接近 CNN 標準的部分黑盒,以下所示。
你能夠在這裏閱讀全文:pjreddie.com/media/files…
YOLO 中的卷積神經網絡結構。
#this is an Image of size 140x140. We will assume it to be black and white (ie only one channel, it would have been 140x140x3 for rgb)
image = readImage()
#We will break the Image into 7 coloumns and 7 rows and process each of the 49 different parts independently
NoOfCells = 7
#we will try and predict if an image is a dog, cat, cow or wolf. Therfore the number of classes is 4
NoOfClasses = 4
threshold = 0.7
#step will be the size of step to take when moving across the image. Since the image has 7 cells step will be 140/7 = 20
step = height(image)/NoOfCells
#stores the class for each of the 49 cells, each cell will have 4 values which correspond to the probability of a cell being 1 of the 4 classes
#prediction_class_array[i,j] is a vector of size 4 which would look like [0.5 #cat, 0.3 #dog, 0.1 #wolf, 0.2 #cow]
prediction_class_array = new_array(size(NoOfCells,NoOfCells,NoOfClasses))
#stores 2 bounding box suggestions for each of the 49 cells, each cell will have 2 bounding boxes, with each bounding box having x, y, w ,h and c predictions. (x,y) are the coordinates of the center of the box, (w,h) are it's height and width and c is it's confidence
predictions_bounding_box_array = new_array(size(NoOfCells,NoOfCells,NoOfCells,NoOfCells))
#it's a blank array in which we will add the final list of predictions
final_predictions = []
#minimum confidence level we require to make a prediction
threshold = 0.7
for (i<0; i<NoOfCells; i=i+1):
for (j<0; j<NoOfCells;j=j+1):
#we will get each "cell" of size 20x20, 140(image height)/7(no of rows)=20 (step) (size of each cell)"
#each cell will be of size (step, step)
cell = image(i:i+step,j:j+step)
#we will first make a prediction on each cell as to what is the probability of it being one of cat, dog, cow, wolf
#prediction_class_array[i,j] is a vector of size 4 which would look like [0.5 #cat, 0.3 #dog, 0.1 #wolf, 0.2 #cow]
#sum(prediction_class_array[i,j]) = 1
#this gives us our preidction as to what each of the different 49 cells are
#class predictor is a neural network that has 9 convolutional layers that make a final prediction
prediction_class_array[i,j] = class_predictor(cell)
#predictions_bounding_box_array is an array of 2 bounding boxes made for each cell
#size(predictions_bounding_box_array[i,j]) is [2,5]
#predictions_bounding_box_array[i,j,1] is bounding box1, predictions_bounding_box_array[i,j,2] is bounding box 2
#predictions_bounding_box_array[i,j,1] has 5 values for the bounding box [x,y,w,h,c]
#the values are x, y (coordinates of the center of the bounding box) which are whithin the bounding box (values ranging between 0-20 in your case)
#the values are h, w (height and width of the bounding box) they extend outside the cell and are in the range of [0-140]
#the value is c a confidence of overlap with an acutal bounding box that should be predicted
predictions_bounding_box_array[i,j] = bounding_box_predictor(cell)
#predictions_bounding_box_array[i,j,0, 4] is the confidence value for the first bounding box prediction
best_bounding_box = [0 if predictions_bounding_box_array[i,j,0, 4] > predictions_bounding_box_array[i,j,1, 4] else 1]
# we will get the class which has the highest probability, for [0.5 #cat, 0.3 #dog, 0.1 #wolf, 0.2 #cow], 0.5 is the highest probability corresponding to cat which is at position 0. So index_of_max_value will return 0
predicted_class = index_of_max_value(prediction_class_array[i,j])
#we will check if the prediction is above a certain threshold (could be something like 0.7)
if predictions_bounding_box_array[i,j,best_bounding_box, 4] * max_value(prediction_class_array[i,j]) > threshold:
#the prediction is an array which has the x,y coordinate of the box, the height and the width
prediction = [predictions_bounding_box_array[i,j,best_bounding_box, 0:4], predicted_class]
final_predictions.append(prediction)
print final_predictions
複製代碼
YOLO 在 <20 行代碼中的解釋。
在這個任務中,每一個對象須要幾百張圖像。嘗試將數據捕獲到您最終要對其進行預測的數據上。
在圖像上繪製邊界框。您可使用像 labelImg 這樣的工具。您須要一些人來註釋您的圖像。這是一個至關密集且耗時的任務。
您能夠在 medium.com/nanonets/na… 中閱讀到更多有關這方面的信息。您須要一個預訓練模型,這樣您就能夠減小訓練所需的數據量。沒有它,您可能須要幾十萬張的圖像來訓練模型。
訓練模型的過程不是必要的,但建立 docker 鏡像使得訓練變得更加簡單的過程很難簡化。
你能夠經過運行以下內容來開始訓練模型:
sudo nvidia-docker run -p 8000:8000 -v `pwd`:data docker.nanonets.com/pi_training -m train -a ssd_mobilenet_v1_coco -e ssd_mobilenet_v1_coco_0 -p '{"batch_size":8,"learning_rate":0.003}'
複製代碼
docker 鏡像擁有一個能夠用如下參數調用的 run.sh 腳本
run.sh [-m mode] [-a architecture] [-h help] [-e experiment_id] [-c checkpoint] [-p hyperparameters]
-h display this help and exit
-m mode: should be either `train` or `export`
-p key value pairs of hyperparameters as json string
-e experiment id. Used as path inside data folder to run current experiment
-c applicable when mode is export, used to specify checkpoint to use for export
複製代碼
您能夠在如下找到更多細節:
爲了訓練模型,您須要選擇正確的超參數。
找到正確的參數
「深度學習」的藝術含有一點點諷刺,但它會嘗試找出哪些會爲您的模型得到最高精度的最佳參數。與此相關的是某些程度的黑魔法以及一點理論。這是找到正確參數的好資源。
量化模型(使其更小以適應像樹莓派或手機這樣的小型設備)
諸如手機和樹莓派這樣的小型設備,內存和計算能力都很小。
訓練神經網絡是經過對權重施加許多微小推動完成的,而這些微小的增量一般須要浮點精度才能工做(儘管這裏也有研究努力使用量化表示)。
採用預先訓練模型並運行推理是很是不一樣的。深度神經網絡的神奇特性之一是,它們每每能很好地處理輸入中的高噪聲。
爲何要量化?
例如,神經網絡模型會佔用大量磁盤空間,起初 AlexNet 是 200 MB 以上的浮點格式。由於在單個模型中常常有數百萬個神經鏈接,所以幾乎全部大小都被神經鏈接的權重所決定。
神經網絡的節點和權重起初被存儲爲 32-bit 浮點數,最簡單的量化動機是經過存儲每一個層的最小和最大值來縮小文件大小,而後將每一個浮點值壓縮爲一個 8 位整數,文件大小所以減少了 75%。
量化代碼:
curl -L "https://storage.googleapis.com/download.tensorflow.org/models/inception_v3_2016_08_28_frozen.pb.tar.gz" |
tar -C tensorflow/examples/label_image/data -xz
bazel build tensorflow/tools/graph_transforms:transform_graph
bazel-bin/tensorflow/tools/graph_transforms/transform_graph \
--in_graph=tensorflow/examples/label_image/data/inception_v3_2016_08_28_frozen.pb \
--out_graph=/tmp/quantized_graph.pb \
--inputs=input \
--outputs=InceptionV3/Predictions/Reshape_1 \
--transforms='add_default_attributes strip_unused_nodes(type=float, shape="1,299,299,3") remove_nodes(op=Identity, op=CheckNumerics) fold_constants(ignore_errors=true) fold_batch_norms fold_old_batch_norms quantize_weights quantize_nodes strip_unused_nodes sort_by_execution_order 複製代碼
你須要樹莓派生活和工做。而後捕獲一個新圖像
安裝說明參見此連接
import picamera, os
from PIL import Image, ImageDraw
camera = picamera.PiCamera()
camera.capture('image1.jpg')
os.system("xdg-open image1.jpg")
複製代碼
捕獲新圖像的代碼。
下載模型
一旦你完成了模型的訓練,你就能夠把它下載到你的樹莓派上了。要導出模型運行:
sudo nvidia-docker run -v `pwd`:data docker.nanonets.com/pi_training -m export -a ssd_mobilenet_v1_coco -e ssd_mobilenet_v1_coco_0 -c /data/0/model.ckpt-8998
複製代碼
而後將模型下載到樹莓派上。
在樹莓派上下載 Tensorflow
根據設備的不一樣,您可能須要稍微更改安裝
sudo apt-get install libblas-dev liblapack-dev python-dev libatlas-base-dev gfortran python-setuptools libjpeg-dev
sudo pip install Pillow
sudo pip install http://ci.tensorflow.org/view/Nightly/job/nightly-pi-zero/lastSuccessfulBuild/artifact/output-artifacts/tensorflow-1.4.0-cp27-none-any.whl
git clone [https://github.com/tensorflow/models.git](https://github.com/tensorflow/models.git)
sudo apt-get install -y protobuf-compiler
cd models/research/protoc object_detection/protos/*.proto --python_out=.
export PYTHONPATH=$PYTHONPATH:/home/pi/models/research:/home/pi/models/research/slim
複製代碼
運行模型以預測新圖像
python ObjectDetectionPredict.py --model data/0/quantized_graph.pb --labels data/label_map.pbtxt --images /data/image1.jpg /data/image2.jpg
複製代碼
樹莓派對內存和計算都有限制(與樹莓派 GPU 兼容的 Tensorflow 版本仍然不可用)。所以,對基準測試來講,每一個模型須要多少時間才能對新圖像進行預測很是重要。
在樹莓派中運行不一樣對象檢測的基準測試。
咱們已經刪除了註釋圖像的需求,咱們有專業的註釋人員爲爲您的圖像註釋。
咱們爲您自動化訓練最好的模型。爲了實現這個,咱們運行一組具備不一樣參數的模型,來爲您的數據選擇最佳模型。
NanoNets 徹底在雲端運行並且無需任何硬件。這使得它更容易使用。
由於像樹莓派和手機這樣的設備並非爲了運行復雜的計算任務而構建的,因此您能夠把工做量外包給咱們的雲,它會爲您完成全部的計算
import picamera, json, requests, os, random
from time import sleep
from PIL import Image, ImageDraw
#capture an image
camera = picamera.PiCamera()
camera.capture('image1.jpg')
print('caputred image')
#make a prediction on the image
url = 'https://app.nanonets.com/api/v2/ObjectDetection/LabelFile/'
data = {'file': open('image1.jpg', 'rb'), \
'modelId': ('', 'YOUR_MODEL_ID')}
response = requests.post(url, auth=requests.auth.HTTPBasicAuth('YOUR_API_KEY', ''), files=data)
print(response.text)
#draw boxes on the image
response = json.loads(response.text)
im = Image.open("image1.jpg")
draw = ImageDraw.Draw(im, mode="RGBA")
prediction = response["result"][0]["prediction"]
for i in prediction:
draw.rectangle((i["xmin"],i["ymin"], i["xmax"],i["ymax"]), fill=(random.randint(1, 255),random.randint(1, 255),random.randint(1, 255),127))
im.save("image2.jpg")
os.system("xdg-open image2.jpg")
複製代碼
使用 NanoNets 對新圖像進行預測的代碼
git clone [https://github.com/NanoNets/object-detection-sample-python.git](https://github.com/NanoNets/object-detection-sample-python.git)
cd object-detection-sample-python
sudo pip install requests
複製代碼
從 app.nanonets.com/user/api_ke… 中獲取您的免費 API 密鑰
export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE
複製代碼
python ./code/create-model.py
複製代碼
注意:這將生成下一步所需的模型 ID
export NANONETS_MODEL_ID=YOUR_MODEL_ID
複製代碼
收集您想要檢測對象的圖像。您可使用咱們的 web UI(https://app.nanonets.com/ObjectAnnotation/?appId=YOUR_MODEL_ID) 對其進行註釋,或者使用像 labelImg 這樣的開源工具。一旦在文件夾中準備好數據集,images
(圖像文件)和 annotations
(圖像文件註解),就能夠開始上傳數據集了。
python ./code/upload-training.py
複製代碼
一旦圖像上傳完畢,就開始訓練模型
python ./code/train-model.py
複製代碼
模型訓練須要 2 個小時。一旦模型被訓練,您將收到一封電子郵件。同時檢查模型的狀態
watch -n 100 python ./code/model-state.py
複製代碼
一旦模型訓練好了,您就可使用來進行預測
python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg
複製代碼
掘金翻譯計劃 是一個翻譯優質互聯網技術文章的社區,文章來源爲 掘金 上的英文分享文章。內容覆蓋 Android、iOS、前端、後端、區塊鏈、產品、設計、人工智能等領域,想要查看更多優質譯文請持續關注 掘金翻譯計劃、官方微博、知乎專欄。