[閱讀筆記]EfficientDet

EfficientDet

文章閱讀

Google的網絡結構不錯,老是會考慮計算性能的問題,從mobilenet v1到mobile net v2.這篇文章主要對近來的FPN結構進行了改進,實現了一種效果和性能兼顧的BiFPN,同時提供了D0-D7不一樣的配置,計算量和精度都逐級增大.相比maskrcnn,retinanet,更低的計算量還能達到更好的效果.網絡

BiFPN

主要有亮點:高效的雙向不一樣尺度的特徵融合,帶權重的特徵融合性能

多尺度特徵的融合

​ 首先是各類FPN結構的演進和比較,(a)普通的FPN只有自頂向下的鏈接 (b)PANet還加了自底向上的鏈接,(c)NAS-FPN經過搜索找到一種不規則的鏈接結構.(d-f)是本文探討的結構,(d)全部的尺度使用最全的鏈接,計算也最複雜,(e)PANet簡化,去除只有一個輸入的結點,(f)本文最終的BiFPN結構orm

  • PANet效果好於FPN和NAS-FPN,計算代價也更高
  • 若是一個結點自己沒有融合的特徵,那麼對以特徵融合爲目標的結構貢獻就不大(why?).因此(e)中移除了P3,P7的中間結點
  • 同一尺度的輸入和輸出又加了一個鏈接,由於計算量不大.獲得(f)
  • (f)中虛線框內做爲一層,會重複屢次,以獲得high-level feature fusion.

加權融合

從Pyramid attention networks獲得啓發,不一樣尺度的特徵的貢獻是不同的,因此鏈接時須要加上權重,而權重經過網絡學到的.blog

文章比較了三種加權的方法,Fast normalized fusion相比Softmax-based fusion方法,效果一致,但速度更快.backbone

網絡結構

backbone取自ImageNet-pretrained EfficientNet.P3-P7接本文的BiFPN Layer,重複屢次.class and box分支共享權重.ci

爲了適應不一樣的精度和性能,文章提出了Compound Scaling方法,只需一個參數控制input size, backbone, BiFPN layers和channels, Box/class depth.獲得了D0-D7不一樣計算量的模型.input

實驗和試驗結果

  • D0與YOLOv3一樣精度下,FLOPs少28x
  • D1與RetinaNet , Mask-RCNN比較,參數少8x,FLOP少25x,精度相似.
  • D7達到51mAP,同時更快參數更少.

Ablation Study

  • 相比Resnet50,EfficientNet B3 backbone提高3mAP.BiFPN比FPN提高4mAP
  • 加權比不加權鏈接,提高0.45mAP.
  • Fast Normalized Fusion對比Softmax,表現接近,速度快30%
相關文章
相關標籤/搜索