用實力給本身正名，YOLOv5：道路損傷檢測我最強！GRDDC'2020大賽報告

做者：Deeksha Arya等git

編譯：CV君github

報道：我愛計算機視覺公衆號（id:aicvml）算法

向你們推薦一篇論文『Global Road Damage Detection: State-of-the-art Solutions』，它總結了在 IEEE International Conference on Big Data'2020 會議中舉辦的「Global Road Damage Detection Challenge (GRDDC) ,全球道路損壞檢測挑戰賽」中前 12 名的解決方案。微信

其不只給出了各參賽隊的方案，並且這些代碼也所有開源了，相信對於學術和工業界的朋友都會頗有幫助。
app

本次挑戰賽的任務是對幾種道路損傷進行檢測，不只要分類出損傷類別，還要定位到損傷的位置，故該比賽實質是一個目標檢測問題。編輯器

01 學習

數據集

GRDDC'2020 數據集是從印度、日本和捷克收集的道路圖像。包括三個部分：Train, Test1, Test2。訓練集包括帶有 PASCAL VOC 格式 XML 文件標註的道路圖像。在給參賽者的數據Test1 和 Test2 中是沒有標註。train則包含標註。測試

數據分佈以下：flex

三個數據集和三個國家的圖像分佈統計網站

訓練數據中每種損壞類型的實例數

評估方法

GRDD 挑戰賽的評估標準是F1-Score。

對於參賽者提交的預測結果，若是預測知足如下兩個標準，則認爲它是正確的。

predicted bounding box 與 ground truth bounding box 之間的重疊區域超過 50%，即 IoU > 0.5。
預測的標籤與實際的標籤相匹配，如圖像的標註文件中所指定的（ground truth）。

評估腳本比較兩個輸入文件以及計算所提交的 F1-Score。F1-Score 爲精確率和召回率的調和平均數，精確度是真陽性與全部預測陽性的比率。召回率是真正的陽性結果與全部實際陽性結果的比率。

各參數的細節以下：

真陽性（TP）：ground truth 中存在一個損害實例，而且該實例的標籤和邊界框被正確預測，IoU>0.5。
假陽性（FP）：當模型預測了圖像中某一特定位置的損害實例，但該實例並不存在於圖像的 ground truth 中。也包括了預測標籤與實際標籤不匹配的狀況。
假陰性（FN）：當一個損害實例出如今 ground truth 中，但模型沒法預測正確的標籤或該實例的邊界框。

召回率：

精確度：

F1-Score：

F1指標對召回和精度的權重相等。所以，參賽者須要在二者都有中等水平的表現，而不是在其中一個方面表現突出，在另外一個方面表現不佳。對 test1 和test2 分別計算 F1。最後，用兩個分數的平均值對各隊進行排名。

結果和排名

本次挑戰賽共有來自世界各地的 121 支隊伍報名參加，有13 支隊伍根據提出的解決方案和提交的源代碼所達到的平均 F1-score 入圍，其中有12 支隊伍進入了決賽。

排名前三的團隊平均 F1-score 超過60%，並提出了使用集成學習和多種數據加強技術的高效方法。

冠軍團隊是： IMSC團隊 (Hedge等，來自美國南加州大學和約旦德國約旦大學)，提出方法基於 ultralytics-YOLO (u-YOLO) [YOLOv5, 2020]，並應用了測試時數據加強（TTA），提升了模型的魯棒性。TTA 經過對每張測試圖像進行屢次變換（如水平翻轉、提升圖像分辨率）並生成新的圖像來進行數據增廣。

新的圖像與現有圖像一塊兒被輸入到訓練好的 u-YOLO 模型中。所以，對應於每個測試圖像，使用加強的圖像生成多個預測。在此過程當中產生的重複或重疊的預測使用非極大抑制（NMS）算法進行過濾。整個方法被稱爲集成預測（Ensemble Prediction，EP）。

除了 EP，該團隊還提出了另外一種方法，稱爲集成模型（EM）。顧名思義，EM是將 u-YOLO 模型的不一樣變體進行集成。鑑於訓練一個 u-YOLO 模型涉及到調整不一樣的超參數，使用這些參數的不一樣組合會產生不一樣的訓練模型。做者選擇這些模型的一個子集，以使它們的總體精度最大化。每幅圖像都會在全部選定的模型上測試，而後對每一個模型的預測結果進行平均，最後應用非極大抑制。這種集成技術經過下降預測方差實現了更好的準確性。

團隊的最終方案是將這兩種方法結合起來，Ensemble Model with Ensemble Prediction（EM+EP）。能夠想象每幅圖像的測試時間確定是很長的，但好在這只是比賽。

固然做者也比較了三種方法(EM、EP和EM+EP)在速度和精度方面的表現。統計結果顯示，雖然在(EM+EP)的狀況下，準確率獲得了提升，達到了最高的 F1-score(測試1爲0.67)（大力出奇跡啊！），而若是用每幅圖像的檢測時間來衡量，該方法在檢測速度方面是最差的。

獲勝團隊的最後得分及代碼以下：

Test1-Score：0.6748

Test2-Score：0.6662

（這個結果是遠超第二名的！）

做者已經公開了代碼：

https://github.com/USC-InfoLab/rddc2020

第二名

團隊：SIS Lab

方案：以 YOLO-v4 爲基礎模型的集成模型，數據增廣用到隨機裁剪加強算法，每張訓練圖像輸出三張圖像。另外，其也探索用到過不一樣輸入圖像分辨率的 YOLO-v4檢測。

Test1-Score：0.6275

Test2-Score：0.6358

代碼：https://github.com/kevaldoshi17/IEEE-Big-Data-2020

第三名

團隊：DD-VISION
方案：以Cascade R-CNN爲基礎模型的模型集合。數據增廣用到：道路分割、混合、CLAHE、 RGB shift。該團隊也探索使用過的其餘算法：Faster-RCNN, ResNeXt101, HR-Net, CBNet, ResNet-50。

Test1-Score：0.629

Test2-Score：0.6219

代碼：https://pan.baidu.com/share/init?surl=VjLuNBVJGS34mMMpDkDRGQ password: xzc6

Cascade R-CNN曾在多個目標檢測比賽中博得頭籌，此次的表現略遜一籌。

第四名

團隊：titan_mu
方案：CSPDarknet53主幹網上訓練的YOLO模型。無數據增廣。其還探索使用過 Hourglass104和 EfficientNet 主幹網上訓練的 CenterNet 和 EfficientDet 模型。

Test1-Score：0.5814

Test2-Score：0.5751

代碼：https://github.com/titanmu/RoadCrackDetection

第五名

團隊：Dongjuns
方案：主方法是：YOLOv5x。對於數據增廣：圖像HSV、圖像轉換、圖像比例、水平翻轉、馬賽克。

Test1-Score：0.5683

Test2-Score：0.5710

代碼：https://github.com/dongjuns/RoadDamageDetector

第六名

團隊：SUTPC
方案：Ensemble(YOLO-v4 + Faster-RCNN)。

Test1-Score：0.5636

Test2-Score：0.5707

代碼：https://github.com/ZhangXG001/RoadDamgeDetection

第七名

團隊：RICS
方案：EfficientDet 。

Test1-Score：0.565

Test2-Score：0.547

論文An Efficient and scalable deep learning approach for road damage detection

代碼：https://github.com/mahdi65/

roadDamageDetection2020

第八名

團隊：AIRS-CSR
方案：主方法 YOLOv4，以及其它數據增廣方法：經過調整亮度、對比度、色調、飽和度和噪聲進行圖像轉換。隨機縮放和 Mosaic 數據加強，條件GAN。

Test1-Score：0.554

Test2-Score：0.541

代碼：https://github.com/ZhangXG001/RoadDamgeDetection

注：不知是不是原論文做者筆誤，第八名與第六名的代碼庫是同一個

第九名

團隊：CS17
方案：Faster RCNN+ Resnet-18/Resnet-50。使用過數據增廣但沒有改善精度。

Test1-Score：0.5413

Test2-Score：0.5430

代碼：https://github.com/TristHas/road

第十名

團隊：BDASL
方案：使用Resnet-50和Resnet-101主幹網的多級 Faster R-CNN，以及以CSPNet 爲主幹網的 Yolov5。數據增廣：對路面進行尺寸調整和語義分割（這樣只檢測路面部分）。

Test1-Score：0.5368

Test2-Score：0.5426

代碼：https://github.com/vishwakarmarhl/rdd2020

第十一名

團隊：IDVL
方案：Detectron2 和 Faster R-CNN。數據增廣使用了水平鏡像和縮放。

Test1-Score：0.51

Test2-Score：0.514

代碼https://github.com/iDataVisualizationLab/

roaddamagedetector

第十二名

團隊：E-LAB
方案：FR-CNN。

Test1-Score：0.4720

Test2-Score：0.4656

代碼：https://github.com/MagischeMiesmuschel/E-LAB_IEEE_BDC_GRDD_2020_submission

前 12 支團隊所取得的排名及得分狀況

前 12 支隊伍信息

結果討論

YOLOv五、YOLOv4是比賽中經常使用的模型，u版YOLOv5很優秀;
幾乎全部團隊都使用了數據增廣，其能夠顯著改善精度，但也有用了沒效果的時候；
目標檢測中的集成學習：
多圖像輸入+多模型測試+結果送入NMS。

在【我愛計算機視覺】公衆號後臺回覆「 GRDD」,便可下載該論文報告和前三名的參賽代碼。

備註：目標檢測

目標檢測交流羣

2D、3D目標檢測等最新資訊，若已爲CV君其餘帳號好友請直接私信。

我愛計算機視覺

微信號:aicvml

QQ羣:805388940

微博知乎:@我愛計算機視覺

投稿:amos@52cv.net

網站:www.52cv.net

在看，讓更多人看到

本文分享自微信公衆號 - 我愛計算機視覺（aicvml）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。