通知:這篇推文有14篇論文速遞信息,涉及目標檢測、圖像分割、顯著性目標檢測、人臉識別和GAN等方向算法
最近有些忙,論文速遞頻率快降低至兩天一更了,但願你們能夠體諒。數據庫
前文回顧網絡
[計算機視覺] 入門學習資料架構
[計算機視覺論文速遞] 2018-03-14框架
[計算機視覺論文速遞] 2018-03-11機器學習
目標檢測ide
[1]《Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection》模塊化
Abstract:對於行人檢測來講,色彩 - 熱量對的多光譜圖像比單一顏色通道更有效,特別是在具備挑戰性的照明條件下。可是,如何有效融合這兩種模式仍然缺少研究。在本文中,咱們深刻比較了六種不一樣的卷積網絡融合體系結構並分析了它們的適應性,使得vanilla architecture可以得到與最新結果相媲美的檢測性能。此外,咱們發現,來自彩色或熱圖像的行人檢測可信度與照明條件相關。考慮到這一點,咱們提出了一種照明感知更快的R-CNN(IAF RCNN)。具體而言,引入照明感知網絡來給出輸入圖像的照明度量。Then we adaptively merge color and thermal sub-networks via a gate function defined over the illumination value. The experimental results on KAIST Multispectral Pedestrian Benchmark validate the effectiveness of the proposed IAF R-CNN.函數
arXiv:https://arxiv.org/abs/1803.05347工具
[2]《Rotation-Sensitive Regression for Oriented Scene Text Detection》
CVPR 2018
Abstract:天然圖像中的文本具備任意方向,須要根據定向邊界框進行檢測。一般狀況下,多導向的文本檢測器每每涉及兩個關鍵任務:1)文本存在檢測,這是一個無視文本方向的分類問題; 2)面向邊界框的迴歸,它關注文本的方向。之前的方法依賴於這兩個任務的共享功能,因爲兩個任務不兼容致使性能降低。爲了解決這個問題,咱們提出對不一樣設計的兩個網絡分支提取不一樣特徵的特徵進行分類和迴歸。具體而言,迴歸分支經過主動旋轉卷積濾波器來提取旋轉敏感特徵,而分類分支經過聚集旋轉敏感特徵來提取旋轉不變特徵。所提出的方法名爲旋轉敏感迴歸檢測器(RRD),在三個面向文本的基準數據集(包括ICDAR 2015,MSRA-TD500,RCTW-17和COCO-Text)上實現了最早進的性能。此外,RRD在船舶採集數據集上實現了重大改進,證實了其在面向對象檢測方面的通常性。
arXiv:https://arxiv.org/abs/1803.05265
[3]《Knowledge-based Recurrent Attentive Neural Network for Traffic Sign Detection》
Abstract:準確的交通標誌檢測(TSD)能夠幫助駕駛員根據交通規則作出更好的決策。 TSD做爲一種典型的小型物體檢測問題,在自動駕駛和先進的駕駛輔助系統領域是很是重要的。 可是,小物體檢測仍然是一個懸而未決的問題。 在本文中,咱們提出了一我的腦啓發網絡來處理這個問題。 注意機制是咱們大腦的基本功能,咱們使用了一種新穎的週期性注意神經網絡,以精細得到的方式提升檢測精度。 此外,因爲咱們人類能夠結合領域特定知識和直覺知識來解決棘手的任務,所以咱們提出了一個假設,即交通標誌的位置服從反向高斯分佈,這意味着位置在每張圖片的中心偏向附近。 實驗結果代表,咱們的方法比目標檢測中使用的幾種經常使用方法取得了更好的性能。
arXiv:https://arxiv.org/abs/1803.05263
[4]《Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects》
Abstract:顯著目標檢測是一個已被詳細考慮的問題,並提出了許多解決方案。在本文中,咱們認爲迄今爲止的工做已經解決了一個相對不合適的問題。具體而言,當多個觀察者被詢問時,對於什麼構成顯著目標並無廣泛的一致意見。這意味着一些目標比其餘目標更有可能被判斷爲顯著,而且意味着顯著物體上存在相對等級。本文提出的解決方案解決了考慮相對等級的這個更通常的問題,而且咱們提出了適合測量相對對象顯著性landscape成功的數據和度量。基於相對顯著性和分階段細化的分層表示,提出了一種新穎的深度學習解決方案。咱們還代表,顯著對象subitizing的問題能夠用同一網絡來解決,並且咱們的方法超越了全部考慮的指標(傳統和新提出的)的任何先前工做的性能。
arXiv:https://arxiv.org/abs/1803.05082
圖像分割
[5]《Combining Multi-level Contexts of Superpixel using Convolutional Neural Networks to perform Natural Scene Labeling》
Abstract:現代深度學習算法引起了各類圖像分割方法。 然而,其中大多數涉及基於像素的分割。 可是,超像素提供了必定程度的上下文信息,同時下降了計算成本。 在咱們的方法中,咱們已經執行了超像素級別的語義分割,考慮3個不一樣層次做爲語義上下文的鄰居。 此外,咱們已經招募了一些集合方法,如最大投票和加權平均。 咱們還使用了Dempster-Shafer不肯定性理論來分析各類類別之間的混淆。 咱們的方法已被證實在同一數據集上優於許多不一樣的現代方法。
注:厲害厲害,superpixel semantic segmentation
arXiv:https://arxiv.org/abs/1803.05200
[6]《Topology guaranteed segmentation of the human retina from OCT using convolutional neural networks》
Abstract:光學相干斷層掃描(OCT)是一種無創成像模式,可用於獲取視網膜的深度圖像。所以能夠經過分析這些OCT圖像來量化變化的層厚度,並且已經顯示這些變化與多發性硬化症中的疾病進展相關。最近的自動視網膜層分割工具使用機器學習方法來執行像素方式標記和圖形方法以保證圖層分層結構或拓撲結構。然而,像距離和平滑度約束等圖形參數必須經過視網膜區域和病理進行實驗指定,從而下降整個框架的靈活性和時間效率。在本文中,咱們開發了級聯深度網絡,以在單前饋傳播中提供拓撲正確的視網膜層分割。第一個網絡(S-Net)執行按像素標記,第二個迴歸網絡(R-Net)採用拓撲不受約束的S-Net結果,並輸出每層和每一個位置的層厚度。 Relu激活被用做R-Net的最終操做,其保證了輸出層厚度的非負性。因爲分割邊界位置是經過對相應的非負層厚度求和而得到的,因此即便在邊界之間的距離能夠爲零的中心凹處也保證了重構邊界的層次排序(即,拓撲結構)。 R-Net使用模擬掩模進行訓練,所以能夠推廣到爲其餘分層結構提供拓撲保證分割。這個深度網絡已經達到可比較的平均絕對邊界偏差(2.82微米)到最早進的圖形方法(2.83微米)。
arXiv:https://arxiv.org/abs/1803.05120
人臉
[7]《Face-MagNet: Magnifying Feature Maps to Detect Small Faces》
Abstract:在本文中,咱們介紹面部放大器網絡(Face-MageNet),它是一種基於Faster-RCNN框架的人臉檢測器,能夠將小尺度人臉的識別信息流傳送給分類器,而不會出現任何跳躍或殘留鏈接。爲了實現這個目標,Face-MagNet在區域提議網絡(RPN)中部署了一套ConvTranspose(也稱爲去卷積)層,並在感興趣區域(RoI)池層以前部署了另外一套ConvTranspose,以便於檢測更精細的人臉。此外,咱們還設計,培訓和評估其餘三個精心設計的架構,這些架構表明了規模問題的常規解決方案:上下文池,跳過鏈接和縮放分區。這三個網絡中的每個均可以得到與最早進的面部檢測器相媲美的結果。通過大量實驗,咱們證實基於VGG16架構的Face-MagNet比最近提出的基於ResNet101的HR方法在WIDER數據集上的人臉檢測任務上得到了更好的結果,而且在hard set上也得到了與咱們的其餘方法SSH相似的結果。
arXiv:https://arxiv.org/abs/1803.05258
GAN
[8]《Image Colorization with Generative Adversarial Networks》
Abstract:在過去的十年中,灰度圖像的彩色化和老化和/或退化圖像的恢復,自動着色的過程已經被完全研究。 因爲顏色信息分配過程當中的自由度很是大,所以這個問題很是不恰當。 自動彩色化的近期發展包括在整個培訓期間包含共同主題的圖像,和/或須要高度處理的數據(如語義地圖)做爲輸入數據。 在咱們的方法中,咱們試圖使用有條件的深度卷積生成對抗網絡(DCGAN)徹底歸納這個過程。 該網絡經過公開可用的數據集進行培訓,如CIFAR-10和Places365。 比較生成模型和傳統深層神經網絡的結果。
arXiv:https://arxiv.org/abs/1803.05400
其它
[9]《Deep Image Demosaicking using a Cascade of Convolutional Residual Denoising Networks》
Abstract:去馬賽克和去噪是現代數碼相機pipelines中最關鍵的步驟之一。同時,聯合圖像去噪 - 去馬賽克是一種很是不適合的反演問題,其中至少有三分之二的信息丟失,其他的信息被噪聲破壞。這對於得到有意義的重建提出了巨大的挑戰,而且須要特別注意有效處理該問題。雖然最近有幾種機器學習方法被用來解決這個問題,但在這項工做中,咱們提出了一種新穎的深度學習體系結構,它受到強大的經典圖像正則化方法和大規模凸面優化技術的啓發。所以,與其餘競爭深度學習方法相比,咱們派生的網絡更加透明而且有着明確的解釋。咱們普遍的實驗代表,咱們的網絡在噪聲和無噪數據方面都優於之前的任何方法。重建質量的這種提升歸功於咱們設計網絡架構的原則性方式,與當前最早進的深度網絡解決方案相比,這種方法所需的可訓練參數也更少。最後,咱們代表,即便在小數據集上進行訓練時,咱們的網絡仍具備良好的泛化能力,同時保持低參數總數。
arXiv:https://arxiv.org/abs/1803.05215
[10]《Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning》
Abstract:視覺問題回答須要圖像的高階推理,這是機器系統遵循複雜指令所需的基本能力。最近,模塊化網絡已被證實是執行視覺推理任務的有效框架。雖然模塊化網絡最初設計時具備必定程度的模型透明度,但它們在複雜的視覺推理基準上的表現還很欠缺。當前最早進的方法不能提供理解推理過程的有效機制。在本文中,咱們關閉了可解釋模型和最早進的視覺推理方法之間的性能差距。咱們提出了一組視覺推理原語,它們在組成時表現爲可以以明確可解釋的方式執行復雜推理任務的模型。基元輸出的保真度和可解釋性使得無與倫比的能力能夠診斷所得模型的優勢和缺點。重要的是,咱們顯示這些原始數據是高性能的,在CLEVR數據集上達到了99.1%的最高精確度。咱們還代表,當提供包含新穎對象屬性的少許數據時,咱們的模型可以有效地學習廣義表示。使用CoGenT歸納任務,咱們顯示出比現有技術水平提升了20個百分點。
注:視覺推理VOA再次Mark
arXiv:https://arxiv.org/abs/1803.05268
[11]《EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching》
Abstract:最近卷積神經網絡(CNN)極大地促進了立體匹配的發展。特別是那些端到端的立體方法實現最佳性能。然而,對編碼上下文信息的關注較少,簡化了兩階段視差學習管道,並改善了視差圖中的細節。不一樣的是,咱們專一於這些問題。首先,咱們提出了一種基於一階段上下文金字塔的殘差金字塔網絡(CP-RPN)進行視差估計,其中嵌入了上下文金字塔以明確地對多尺度上下文線索進行編碼。接下來,咱們設計了一個名爲EdgeStereo的基於CNN的多任務學習網絡,利用邊緣檢測任務中的中級特徵來恢復視差圖中的缺失細節。在EdgeStereo中,CP-RPN與基於雙重多任務交互的建議邊緣檢測器HEDβ集成在一塊兒。端到端EdgeStereo直接從立體對輸出邊緣地圖和視差圖,而無需任何後期處理或正則化。咱們發現邊緣檢測任務和立體匹配任務能夠在咱們的EdgeStereo框架中互相幫助。諸如Scene Flow和KITTI 2015等立體基準的全面實驗代表,咱們的方法達到了最早進的性能。
arXiv:https://arxiv.org/abs/1803.05196
[12]《LCANet: End-to-End Lipreading with Cascaded Attention-CTC》
Abstract:機器脣部讀取是一種特殊類型的自動語音識別(ASR),它經過視覺解釋包括嘴脣,臉部和舌頭在內的相關臉部區域的運動來轉錄人類言語。最近,基於深度神經網絡的脣線閱讀方法顯示出巨大的潛力,而且在一些基準數據集中超過了經驗豐富的人類脣線筆的準確性。然而,脣讀仍遠未解決,現有方法對野生數據的錯誤率每每較高。在本文中,咱們提出LCANet,一種基於端到端深度神經網絡的脣讀系統。 LCANet使用堆疊的3D卷積神經網絡(CNN),高速公路網絡和雙向GRU網絡對輸入視頻幀進行編碼。編碼器有效捕獲短時和長時空時信息。更重要的是,LCANet集成了一個級聯注意-CTC解碼器來生成輸出文本。經過級聯CTC注意力,它能夠部分消除隱藏的神經層中CTC的條件獨立性假設的缺陷,而且這產生顯着的性能改進以及更快的收斂。實驗結果代表,所提出的系統在GRID語料庫數據庫上實現了1.3%的CER和3.0%的WER,與最早進的方法相比,致使了12.3%的改進。
注:CNN都能用到脣讀上了,膩害膩害!
arXiv:https://arxiv.org/abs/1803.04988
[13]《Averaging Weights Leads to Wider Optima and Better Generalization》
Abstract:深度神經網絡一般經過使用SGD變量優化損失函數以及衰減學習率來訓練,直到收斂。 咱們代表,沿着SGD的軌跡的多個點的簡單平均,具備週期性或恆定的學習率,致使比傳統訓練更好的泛化。 咱們還代表,這種隨機加權平均(SWA)程序發現比SGD更普遍的最優化,而且近似於最近的使用單個模型的快速幾何集成(FGE)方法。 使用SWA,咱們在CIFAR-10,CIFAR-100和ImageNet上與傳統的SGD培訓相比,在一系列最早進的殘留網絡,PyramidNets,DenseNets和Shake-Shake網絡上實現了測試精度的顯着提升。 簡而言之,SWA很是容易實現,改進了泛化,幾乎沒有計算開銷。
注:SWA???
arXiv:https://arxiv.org/abs/1803.05407
[14]《Approximate Query Matching for Image Retrieval》
Abstract:傳統圖像識別涉及經過單個對象焦點(ILSVRC,AlexNet和VGG)識別縱向型圖像中的關鍵對象。更近期的方法考慮密集圖像識別 - 用合適的邊界框分割圖像並在這些邊界框內執行圖像識別(語義分割)。 Visual Genome數據集[5]試圖將這些不一樣的方法鏈接到每一個子任務邊界框生成,圖像識別,字幕和一項新操做(場景圖生成)的粘性數據集上。咱們的重點是使用這樣的場景圖來對圖像數據庫執行圖搜索以基於搜索標準總體檢索圖像。咱們開發了一種方法,在圖形數據庫(使用Neo4J)中存儲場景圖形和元數據,並基於圖形搜索查詢執行圖像的快速近似檢索。咱們處理比單個對象搜索更復雜的查詢,例如「女孩吃蛋糕」檢索包含指定關係以及變體的圖像。
arXiv:https://arxiv.org/abs/1803.05401