[計算機視覺論文速遞] 2018-03-30

通知:這篇文章有9篇論文速遞信息,涉及目標檢測、圖像分割、目標跟蹤、三維重建和立體匹配等方向
PS:因爲時間問題,本文沒有附上相應圖示,還請見諒git

前文回顧github

TensorFlow和深度學習入門教程算法

YOLOv3:你必定不能錯過網絡

你如今應該閱讀的7本最好的深度學習書籍app

目標檢測框架

[1]《Optimizing the Trade-off between Single-Stage and Two-Stage Object Detectors using Image Difficulty Prediction》ide

Abstract:主要有兩種類型的最早進的物體探測器。一方面,咱們two-stage探測器,好比Faster R-CNN(基於區域的卷積神經網絡)或Mask R-CNN,它們(i)使用區域提議網絡在第一階段產生興趣區域, (ii)將區域提案發送到pipeline中以進行對象分類和邊界框迴歸。這樣的模型達到了最高的準確率,但一般較慢。另外一方面,咱們有YOLO(You Only Look Once)和SSD(Singe Shot MultiBox Detector)等single-stage探測器,將物體探測做爲一個簡單的迴歸問題,它將輸入圖像做爲輸入圖像並學習類機率,邊界框座標。這種模型的準確率較低,但比two-stage物體探測器快得多。在本文中,咱們建議使用圖像難度預測器來實現目標檢測中精度和速度之間的最佳平衡。將圖像難度預測器應用到測試圖像上,將其分解爲簡易圖像和困難圖像。一旦分離後,簡單的圖像將被髮送到更快的single-stage探測器,而困難圖像被髮送到更精確的two-stage探測器。咱們在PASCAL VOC 2007上進行的實驗代表,使用圖像難度與圖像的隨機分割相比絕不遜色。咱們的方法是靈活的,由於它容許選擇一個指望的閾值,將圖像分紅簡單和較難。性能

注:還能有這種操做?!感受就是一個預處理,但實際中仍是要訓練兩個模型,咦!不過若是整體測試,精度和速度若達到均衡也很棒!學習

arXiv:https://arxiv.org/abs/1803.08707測試

[2]《Speeding-up Object Detection Training for Robotics with FALKON》

Abstract:最新的物體檢測深度學習方法獲得了顯著的性能提高,但在機器人應用中使用時會受到限制。最相關的問題之一是訓練時間長,這是因爲相關訓練集的大小和不平衡形成的,其特徵在於不多的正樣本和負樣本(即背景)例子。提出的方法,不管是基於反向傳播的端對端學習[22],or standard kernel methods trained with Hard Negatives Mining on top of deep features [8],都證實是有效的,但對於在線應用卻不合適。在本文中,咱們提出了一種新穎的物體檢測pipeline,克服了這個問題,並提供了與60倍訓練加速至關的性能。咱們的流程結合了(i)區域提議網絡和[22]中的深度特徵提取器,以有效地選擇候選RoI並將它們編碼成強大的表示,(ii)最近提出的FALKON [23]算法,一種新的基於內核的方法能夠快速訓練數百萬分。咱們經過利用方法中固有的隨機子採樣,結合一種新穎,快速的自舉方法來解決訓練數據的大小和不平衡問題。咱們評估標準計算機視覺設置(PASCAL VOC 2007 [5])中該方法的有效性,並證實其適用於由iCubWorld Transformations [18]數據集表示的真實機器人場景。

arXiv:https://arxiv.org/abs/1803.08740

[3]《Object Detection for Comics using Manga109 Annotations》

Abstract:隨着數字化漫畫的發展,圖像理解技術變得愈來愈重要。在本文中,咱們着重於對象檢測,這是圖像理解的基礎任務。儘管基於卷積神經網絡(CNN)的方法在天然圖像的對象檢測中存檔良好,但在將這些方法應用於漫畫對象檢測任務時存在兩個問題。首先,沒有大規模的帶註釋的漫畫數據集。基於CNN的方法須要大規模的註釋用於訓練。其次,與天然圖像相比,漫畫中的物體高度重疊。這種重疊會致使現有的基於CNN的方法中的分配問題。爲了解決這些問題,咱們提出了一個新的註釋數據集和一個新的CNN模型。咱們註釋了現有的漫畫圖像數據集,並建立了最大的註釋數據集Manga109-annotations。對於分配問題,咱們提出了一種新的基於CNN的探測器SSD300-fork。咱們使用Manga109註釋比較SSD300-fork與其餘檢測方法,並確認咱們的模型基於mAP得分賽過了它們。

注:上述將annotation翻譯成了註釋,有些不妥,但思來想去,翻譯成標籤、標記都仍是很差。講真,仍是意會比較好。

arXiv:https://arxiv.org/abs/1803.08670

圖像分割

[4]《Context Encoding for Semantic Segmentation》

CVPR 2018

Abstract:最近的工做已經在利用全卷積網絡(FCN)框架經過使用擴張/Atrous 卷積,利用多尺度特徵和細化邊界來提升用於像素標記的空間分辨率方面取得重大進展。在本文中,咱們經過引入上下文編碼模塊來探索全局上下文信息在語義分割中的影響,上下文編碼模塊捕獲場景的語義上下文並選擇性地突出顯示與類相關的特徵圖。所提出的上下文編碼模塊顯著改善了語義分割結果,而且在FCN上僅有邊際額外計算成本。咱們的方法在PASCAL-Context上得到了51.7%的最新成果,在PASCAL VOC 2012上得到了85.9%的mIoU。咱們的單一模型在ADE20K測試集上取得了0.5567的最終成績,超過了COCO 2017冠軍此外,咱們還探討了上下文編碼模塊如何改進CIFAR-10數據集上圖像分類的相對淺層網絡的特徵表示。咱們的14層網絡已經實現了3.45%的錯誤率,這與具備10倍以上層數的最早進方法至關。完整系統的源代碼是公開可用的。

注:期待源碼早點公開!

arXiv:https://arxiv.org/abs/1803.08904

[5]《Deep learning and its application to medical image segmentation》

Abstract:在醫學成像中最多見的任務之一是語義分割。自動實現這種分割一直是一個活躍的研究領域,但因爲不一樣患者的解剖結構差別很大,這項任務已被證實很是具備挑戰性。然而,深度學習的最新進展使得顯著提升了計算機視覺領域中的圖像識別和語義分割方法的性能。因爲在深度學習框架中採用數據驅動的分層特徵學習方法,這些進步能夠絕不費力地轉化爲醫學圖像。深卷積神經網絡的幾種變體已成功應用於醫學圖像。特別是徹底卷積體系結構已被證實是有效的3D醫學圖像分割。在本文中,咱們將介紹如何構建一個能夠處理3D圖像以產生自動語義分割的3D徹底卷積網絡(FCN)。該模型通過臨牀計算機斷層掃描(CT)數據集的訓練和評估,並顯示了多器官分割的最新性能。

arXiv:https://arxiv.org/abs/1803.08691

目標跟蹤

[6]《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》

CVPR 2018

Abstract:鑑別相關濾波器(DCF)在視覺追蹤中是有效的,但遭受不須要的邊界效應。已經提出空間正則化DCF(SRDCF)來經過對DCF係數執行空間懲罰來解決這個問題,這不可避免地以複雜性增長的價格提升了跟蹤性能。爲了處理在線更新,SRDCF在多個訓練圖像上制定了模型,進一步增長了提升效率的難度。在這項工做中,經過將單個樣本的時間正則化引入SRDCF,咱們提出了咱們的空間 - 時間正則化相關濾波器(STRCF)。受到在線被動 - 積極(PA)算法的啓發,咱們將時間正則化引入單樣本SRDCF,從而產生咱們的時空正則化相關濾波器(STRCF)。 STRCF公式不只能夠做爲SRDCF與多個訓練樣本的合理近似,並且在外觀變化大的狀況下也能夠提供比SRDCF更強大的外觀模型。此外,它能夠經過乘法器的交替方向法(ADMM)有效解決。經過結合時間和空間正則化,咱們的STRCF能夠處理邊界效應,而不會產生太多的效率損失,而且在精確度和速度方面比SRDCF實現更好的性能。實驗在三個基準數據集上進行:OTB-2015,Temple-Color和VOT-2016。與SRDCF相比,具備手工特徵的STRCF提供了5倍的加速,分別在OTB-2015和Temple-Color上得到了5.4%和3.6%的AUC分數。此外,STRCF與CNN功能相結合,對於最早進的基於CNN的跟蹤器也表現出色,而且在OTB-2015上得到了68.3%的AUC評分。

arXiv:https://arxiv.org/abs/1803.08679

[7]《Region-filtering Correlation Tracking》

Abstract:最近,相關濾波器已經證實了在視覺跟蹤方面的出色表現。可是,基本訓練樣本區域大於目標區域,包括干涉區域(IR)。基訓練樣本的循環移位訓練樣本中的IR嚴重下降了跟蹤模型的質量。在本文中,咱們提出了新穎的區域濾波相關跟蹤(RFCT)來解決這個問題。咱們當即經過將空間圖引入標準CF配方來過濾訓練樣本。與現有的相關濾波跟蹤器相比,咱們提出的跟蹤器具備如下優勢:(1)能夠在較大的搜索區域上學習相關濾波器,而不受空間映射的干擾。 (2)因爲經過空間圖處理訓練樣本,在訓練樣本中控制背景信息和目標信息是更通常的方法。空間圖的值不受限制,那麼能夠探索更好的空間圖。 (3)增長精確過濾器的重量比例以減輕模型corruption。在兩個基準數據集上進行實驗:OTB-2013和OTB-2015。對這些基準的定量評估代表,所提出的RFCT算法對於幾種最早進的方法有良好的表現。

arXiv:https://arxiv.org/abs/1803.08687

三維重建

ICIP 2017

[8]《CSfM: Community-based Structure from Motion》

Abstract:動態結構方法大體能夠分爲兩類:增量式和全局式。雖然增量式方法對異常值具備魯棒性,但會受到偏差累積和大量計算負擔的影響。全局方式具備同時估計全部相機姿態的優勢,但它一般對極外幾何異常值很敏感。在本文中,咱們提出了一個基於自適應社區的SfM(CSfM)方法,該方法既考慮到魯棒性又考慮效率。首先,極線幾何圖形被劃分爲不一樣的社區。而後,並行解決每一個community 的重建問題。最後,重構結果由一種新的全局類似性平均方法合併,解決了三個凸L1優化問題。實驗結果代表,咱們的方法在計算效率方面比許多先進的SfM方法執行得更好,同時得到與許多最早進的增量SfM類似或更好的重構精度和魯棒性方法。

arXiv:https://arxiv.org/abs/1803.08716

立體匹配

[9]《Pyramid Stereo Matching Network》

CVPR 2018

Abstract:最近的研究代表,從一對立體圖像進行深度估計能夠被制定爲一個監督學習任務,用卷積神經網絡(CNN)來解決。 然而,目前的體系結構依賴於基於parch的Siamese網絡,缺少利用上下文信息來查找在所示區域的對應關係的手段。爲了解決這個問題,咱們提出PSMNet,一個由兩個主要模塊組成的金字塔立體匹配網絡:空間金字塔池和3D CNN。空間金字塔池模塊經過聚合不一樣尺度和位置的上下文來利用全局上下文信息的能力來造成cost volume。3D CNN學習使用堆疊的多個hourglass網絡結合中間監督來調整cost volume。所提出的方法在幾個基準數據集上進行了評估。 咱們的方法在2018年3月18日以前的KITTI 2012和2015排行榜中排名第一。

arXiv:https://arxiv.org/abs/1803.08669

github:https://github.com/JiaRenChang/PSMNet

相關文章
相關標籤/搜索