用於目標檢測的半自動視頻標註

點擊上方小白學視覺」,選擇加"星標"或「置頂git

重磅乾貨,第一時間送達github


小白導讀算法

論文是學術研究的精華和將來發展的明燈。小白決心天天爲你們帶來經典或者最新論文的解讀和分享,旨在幫助各位讀者快速瞭解論文內容。我的能力有限,理解不免出現誤差,建議對文章內容感興趣的讀者,必定要下載原文,瞭解具體內容。微信


摘要

大多數現有的基於點雲的3D對象檢測器使用相似卷積的操做符在一個固定權重的核中處理信息,並分層聚合全局上下文。然而,最近關於2D視覺的非局部神經網絡和自我注意的研究代表,明確地建模全局環境和位置之間的遠程交互能夠致使更穩健和更具競爭力的模型。在本文中,咱們經過使用自我注意特徵加強卷積特徵,探索了兩種自我注意變量用於3D物體檢測中的上下文建模。咱們首先將成對自我注意機制整合到目前最早進的BEV、體素和基於點的檢測器中,並顯示出與強基線模型相比的一致改進,同時顯著減小了它們的參數足跡和計算成本。咱們還提出了一種自我注意變量,它經過學習變形在隨機抽樣的位置上抽樣最具表明性的特徵子集。這不只容許咱們將顯式的全局上下文建模擴展到更大的點雲,並且還致使更有區別性和更有信息的特徵描述符。咱們的方法能夠靈活地應用於大多數最早進的探測器,提升了精度、參數和計算效率。咱們在KITTI和nuScenes數據集上實現了新的最早進的檢測性能。


論文代碼:https://github.com/AutoVision-cloud/SA-Det3D


論文創新點

咱們在KITTI[9]和大規模nuScenes[5]數據集上測試了咱們的方法,跨越了不一樣計算預算下的普遍架構。咱們展現在圖2中,減小的總數卷積過濾器和添加FSA和DSA模塊致使參數和計算效率模型,不斷超越他們的基線用相似的參數來實現,同時也優於原來的表現實現。在下圖中,咱們提供了定性的例子顯示上下文建模的好處。最後,咱們還展現了KITTI和nuScenes測試集上最早進的結果。
咱們提出了第一個基於自我注意的3D對象檢測器的上下文聚合模塊,該模塊可應用於一系列現代體系結構,包括BEV[18]、voxel[48]、point[35]和pointvoxel[34]基於檢測器。咱們證實,咱們能夠用更少的參數和KITTI驗證集上的計算成原本優於強大的基線實現。
咱們設計了一個可擴展的自我注意變量,它學習變形隨機抽樣的位置,以覆蓋最具表明性和信息最豐富的部分,並在這個子集上聚合上下文。這容許咱們在像nuScenes[5]這樣的大型點雲中聚合全局上下文。
大量的實驗證實了使用咱們提出的三維目標檢測方法進行上下文信息聚合的好處。咱們的網絡在KITTI[9]和nuScenes[5]數據集上都優於最早進的方法。
KITTI數據集表現結果。紅色包圍框表明地面真理;綠色表示檢測器輸出。從左到右:(a)挑戰性場景的RGB圖像。(b)最新方法的結果:PointPillars [18],SECOND [48],Point-RCNN [35],PV-RCNN[34]。(c)咱們徹底自我注意(FSA)加強基線的結果,它使用的參數和失敗顯著減小。FSA處理整個點雲,以產生全局上下文感知的特徵表示。咱們的方法識別漏檢並消除假陽性。


框架結構

建議的FSA和DSA模塊的架構網絡

針對不一樣骨幹網提出的FSA/DSA模塊加強網絡架構架構

中等難度汽車類的性能比較app


結論

在本文中,咱們提出了一個簡單靈活的基於自我注意的框架,以加強卷積特徵與全局上下文信息的三維目標檢測。咱們提出的模塊是通用的,參數和計算效率,並能夠集成到一系列的3D探測器。咱們的工做探討了兩種形式的自我注意:徹底(FSA)和可變形(DSA)。FSA模塊對全部3D實體之間的成對關係進行編碼,而DSA操做一個具備表明性的子集,爲全局上下文建模提供一個可伸縮的替代方案。定量和定性實驗代表,該體系結構系統地提升了三維物體檢測器的性能。


論文鏈https://arxiv.org/pdf/2101.02672.pdf框架


下載1:OpenCV-Contrib擴展模塊中文版教程
在「小白學視覺」公衆號後臺回覆: 擴展模塊中文教程 便可下載全網第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。

下載2:Python視覺實戰項目31講
小白學視覺公衆號後臺回覆: Python視覺實戰項目31講 便可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰項目,助力快速學校計算機視覺。

下載3:OpenCV實戰項目20講
小白學視覺公衆號後臺回覆:OpenCV實戰項目20講便可下載含有20個基於OpenCV實現20個實戰項目,實現OpenCV學習進階。

下載4:leetcode算法開源書
小白學視覺公衆號後臺回覆:leetcode 便可下載。 每題都 runtime beats 100% 的開源好書,你值得擁有!





交流羣
less


歡迎加入公衆號讀者羣一塊兒和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫學影像、GAN算法競賽等微信羣(之後會逐漸細分),請掃描下面微信號加羣,備註:」暱稱+學校/公司+研究方向「,例如:」張三 + 上海交大 + 視覺SLAM「。請按照格式備註,不然不予經過。添加成功後會根據研究方向邀請進入相關微信羣。請勿在羣內發送廣告,不然會請出羣,謝謝理解~性能


本文分享自微信公衆號 - 小白學視覺(NoobCV)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索