亞馬遜提出:用於人羣計數的尺度感知注意力網絡

前戲網絡

最近出了真的不少論文,各類SOTA。好比前天po的商湯等提出:統一多目標跟蹤框架,今天po的人羣計數(Crowd Counting),又稱人羣密度估計。下次應該會po一篇目標檢測方向的SOTA論文。架構

注意最新的論文,Amusi就不詳細解讀了(可能本身也不會)。更主要的是論文這玩意,仍是要本身去品纔有滋味。或許過兩天,論文的做者團隊會解讀一番,對照着做者的解答來理解,這才原滋原味。app

正文
框架

《Scale-Aware Attention Network for Crowd Counting》ide

亞馬遜提出:用於人羣計數的尺度感知注意力網絡

arXiv:https://arxiv.org/abs/1901.06026函數

做者團隊:Amazon學習

注:2019年01月21日剛出爐的paperui

Abstract:In crowd counting datasets, people appear at different scales, depending on their distance to the camera. To address this issue, we propose a novel multi-branch scale-aware attention network that exploits the hierarchical structure of convolutional neural networks and generates, in a single forward pass, multi-scale density predictions from different layers of the architecture. To aggregate these maps into our final prediction, we present a new soft attention mechanism that learns a set of gating masks. Furthermore, we introduce a scale-aware loss function to regularize the training of different branches and guide them to specialize on a particular scale. As this new training requires ground-truth annotations for the size of each head, we also propose a simple, yet effective technique to estimate it automatically. Finally, we present an ablation study on each of these components and compare our approach against the literature on 4 crowd counting datasets: UCF-QNRF, ShanghaiTech A & B and UCF_CC_50. Without bells and whistles, our approach achieves state-of-the-art on all these datasets. We observe a remarkable improvement on the UCF-QNRF (25%) and a significant one on the others (around 10%).this

摘要:在人羣計數的數據集中,人們以不一樣的尺度(scales)出現,具體取決於他們與攝像頭的距離。爲了解決這個問題,咱們提出了一種新的多分支尺度感知注意網絡,它利用卷積神經網絡的層次結構,並在單個前向傳播中生成來自架構不一樣層的多尺度密度預測。爲了將這些 maps 聚合到咱們的最終預測中,咱們提出了一種新的 soft 注意力機制,其能夠學習一組 gating masks。此外,咱們引入了規模感知損失函數來規範不一樣分支的訓練並指導它們專門研究特定的尺度。因爲這種新訓練須要對每一個頭部的大小進行 ground-truth 標註,咱們還提出了一種簡單而有效的技術來自動估計它。最後,咱們對每一個部分進行ablation study ,並將咱們的方法與4我的羣計數數據集的文獻進行比較:UCF-QNRF,ShanghaiTech A&B和UCF_CC_50。實驗結果代表,咱們的方法在這些數據集上取得最早進技術的水平(state-of-the-art,SOTA)。咱們觀察到UCF-QNRF顯著提升(25%),其餘顯著提升(約10%)。3d

亞馬遜提出:用於人羣計數的尺度感知注意力網絡

亞馬遜提出:用於人羣計數的尺度感知注意力網絡
Our multi-branch architecture

亞馬遜提出:用於人羣計數的尺度感知注意力網絡

創新點

Baseline network for crowd counting

Scale-aware soft attention masks

Scale-aware loss regularization

Estimating the size of each head

實驗結果

亞馬遜提出:用於人羣計數的尺度感知注意力網絡

亞馬遜提出:用於人羣計數的尺度感知注意力網絡

想要了解最新最快最好的論文速遞、開源項目和乾貨資料,歡迎加入CVer學術交流羣,旨在提供一個便於全部CVers進行學術交流的平臺。涉及圖像分類、目標檢測、圖像分割、人臉檢測&識別、目標跟蹤、GANs、學術競賽交流、Re-ID、風格遷移、醫學影像分析、姿態估計、OCR、SLAM、場景文字檢測&識別和超分辨率等方向。

相關文章
相關標籤/搜索