通知:這篇文章有6篇論文速遞信息,涉及CNN新網絡、人臉檢測、目標檢測和超分辨率等方向(含2篇CVPR論文)git
CNNgithub
[1]《DCAN: Dual Channel-wise Alignment Networks for Unsupervised Scene Adaptation》安全
Abstract:收集(Harvesting)密集的像素級註釋以訓練深度神經網絡進行語義分割代價很是大且難以處理的。儘管從容易得到標籤的合成數據中學習聽起來頗有但願,但因爲域差別(domain discrepancies)而對新穎的實際數據進行測試時性能明顯降低。咱們提出了雙通道對準網絡(Dual Channel-wise Alignment Networks,DCAN),這是一種簡單而有效的方法,可減小像素級和特徵級的域偏移。探索CNN特徵map的每一個通道的統計數據,咱們的框架在圖像生成器和分割網絡中執行通道方式(channel-wise)的特徵對齊,從而保留空間結構和語義信息。具體來講,給定來自源域的圖像和來自目標域的未標記樣本,生成器即時合成新圖像以在外觀上相似於來自目標域的樣本,而且分割網絡在預測語義以前進一步細化高級特徵它們都利用來自目標域的採樣圖像的特徵統計。與近期依靠對抗訓練的工做不一樣,咱們的框架很是輕巧,易於訓練。將通過合成分割基準訓練的模型與適合真實城市場景的大量實驗證實了該框架的有效性。網絡
arXiv:https://arxiv.org/abs/1804.05827架構
[2]《IGCV2: Interleaved Structured Sparse Convolutional Neural Networks》框架
CVPR 2018dom
Abstract:在本文中,咱們研究了設計有效的卷積神經網絡結構,這些結構的目的在於消除卷積核中的冗餘。除告終構化稀疏內核,低階(low-rank)內核和低階內核的產品以外,結構化稀疏內核(structured sparse kernels)的產品是結構化的,它是解釋最近開發的交錯羣卷積(interleaved group convolutions,IGC)及其變體(例如,Xception ),吸引了愈來愈多的關注。ide
受觀察結果的啓發,包含在IGC中的卷積中的卷積能夠用相同的方式進一步分解,咱們提出了一個模塊化構建塊{IGCV2:}交錯結構化稀疏卷積。它將由兩個結構化稀疏內核組成的交織羣卷積推廣到更多結構化稀疏內核的產品,進一步消除冗餘。咱們提出了互補條件和平衡條件來指導結構化稀疏核的設計,在模型大小,計算複雜度和分類精度三個方面取得平衡。實驗結果證實了與交錯羣卷積和Xception相比,這三個方面的平衡優點,以及與其餘最早進的架構設計方法相比的競爭性能。模塊化
arXiv:https://arxiv.org/abs/1804.06202性能
Face
[3]《Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks》
CVPR 2018
Abstract:旋轉不變人臉檢測,即檢測具備任意旋轉平面(RIP)角度的人臉,在不受約束的應用中普遍須要,但因爲人臉外觀的巨大變化仍然是一項具備挑戰性的任務。大多數現有方法都以速度或準確度來處理大型RIP變體。爲了更有效地解決這個問題,咱們提出逐步校準網絡(PCN)以粗到細的方式執行旋轉不變的人臉檢測。 PCN由三個階段組成,每一個階段不只能夠區分人臉和非人臉,還能夠逐個校準每一個人臉候選人的RIP方向。經過將校準過程分爲幾個漸進步驟,而且只在早期階段預測粗略方向,PCN能夠實現精確和快速的校準。經過逐步減小RIP範圍對面部和非面部進行二元分類,PCN能夠以360°全角RIP角度精確檢測面部。這種設計致使實時旋轉不變的人臉檢測器。在多向FDDB和包含普遍旋轉面部的WIDER FACE的具備挑戰性的子集上的實驗代表,咱們的PCN實現了至關高的性能。
arXiv:https://arxiv.org/abs/1804.06039
github:https://github.com/Jack-CV/PCN
Object Detection
[4]《Towards High Performance Video Object Detection for Mobiles》
Abstract:儘管最近在桌面GPU上成功實現了視頻對象檢測,但它的體系結構對手機來講仍然過於沉重。 稀疏特徵傳播和多幀特徵聚合的關鍵原理是否適用於很是有限的計算資源也不清楚。 在本文中,咱們提出了一個輕量級網絡體系結構,用於在手機上進行視頻對象檢測。 輕量級圖像對象檢測器應用於稀疏關鍵幀。 一個很是小的網絡Light Flow旨在跨幀創建對應關係。 流引導的GRU模塊旨在有效地聚合關鍵幀上的特徵。 對於非關鍵幀,執行稀疏特徵傳播。 整個網絡能夠進行端到端的培訓。 所提出的系統在移動設備(例如,HuaWei Mate 8)上以25.6fps的速度得到60.2%的mAP分數。
arXiv:https://arxiv.org/abs/1804.05830
注:華爲Mate8上跑,厲害了!
[5]《Robust Physical Adversarial Attack on Faster R-CNN Object Detector》
Abstract:鑑於直接操做數字輸入空間中的圖像像素的能力,敵手可能容易產生不可察覺的干擾以愚弄深度神經網絡(DNN)圖像分類器,如之前的工做中所證實的那樣。在這項工做中,咱們解決了製造物理對抗性擾動的更具挑戰性的問題,以愚弄基於圖像的物體探測器,如Faster R-CNN。***一個目標檢測器比***一個圖像分類器要困可貴多,由於它須要誤導不一樣尺度的多個邊界框中的分類結果。將數字***擴展到物理世界增長了另外一層困難,由於它要求擾動足夠強大,以適應不一樣的觀看距離和角度,照明條件和攝像機限制形成的真實世界的失真。咱們代表,最初提出的用於加強圖像分類中對抗性擾動魯棒性的轉換指望技術可成功適用於對象檢測設置。咱們的方法可能會產生對抗擾動的停車標誌,這些標誌一直被Faster R-CNN誤檢爲其餘物體,對自動駕駛車輛和其餘安全關鍵型計算機視覺系統構成潛在威脅。
arXiv:https://arxiv.org/abs/1804.05810
Super Resolution
[6]《Densely Connected High Order Residual Network for Single Frame Image Super Resolution》
Abstract:深度卷積神經網絡(DCNN)近來在超分辨率研究中被普遍採用,但之前的工做主要集中在模型中儘量多的層次上,本文中咱們提出了一種關於圖像恢復問題的新觀點,能夠構造反映圖像恢復過程的物理意義的神經網絡模型,即將圖像復原的先驗知識直接嵌入到神經網絡模型的結構中,咱們採用對稱非線性色空間(symmetric non-linear colorspace),S形(sigmoidal)傳遞, 爲取代諸如sRGB,Rec.709等非對稱非線性顏色空間的傳統轉換,咱們還提出了一種「reuse plus patch」方法來處理不一樣縮放因子的超分辨率,咱們提出的方法和模型表現出整體上優越的性能,even though our model was only roughly trained and could still be underfitting the training set.