[計算機視覺論文速遞] 2018-03-31

時間 2021-02-01

標籤 git github 算法網絡架構 ide 函數工具性能學習欄目快樂工作简体版

原文原文鏈接

通知：這篇文章有10篇論文速遞信息，涉及Re-ID、深度估計、超分辨率、顯著性檢測、GAN、VOA和卷積神經網絡綜述等方向git

往期回顧github

[計算機視覺論文速遞] 2018-03-30算法

TensorFlow和深度學習入門教程網絡

你如今應該閱讀的7本最好的深度學習書籍架構

Re-IDide

[1]《Pose-Driven Deep Models for Person Re-Identification》函數

Abstract：行人重識別（re-id）是識別和匹配不重疊視圖的攝像機記錄的不一樣位置人員的任務。re-id的主要挑戰之一是人物姿態和攝像機角度的巨大差別，由於它們都不會受re-id系統的影響。在這項工做中，介紹了一種有效的方法來將粗略的相機視圖信息和細粒度姿態信息整合到用於學習區分性從新嵌入的卷積神經網絡（CNN）模型中。在最近的工做中，姿式信息或者在從新識別系統內被明確地建模，或者明確地用於預處理，例如經過姿式規範化人員圖像。相反，所提出的方法代表，將相機視圖以及檢測到的身體關節位置直接用於標準CNN能夠用於顯著提升所學習的re-id嵌入的魯棒性。在四個具備挑戰性的監控和視頻從新標識數據集上，已經實現了對當前技術水平的重大改進。此外，引入了MARS數據集的一種新的從新排序，稱爲X-MARS，以容許在軌跡數據上進行鍼對單圖像從新識別訓練的模型的交叉驗證。工具

arXiv：https://arxiv.org/abs/1803.08709性能

[2]《Weighted Bilinear Coding over Salient Body Parts for Person Re-identification》學習

Abstract：深度卷積神經網絡（CNN）已經證實了在行人重識別（Re-ID）方面的有很大的做用。現有的基於CNN的方法利用全局平均池（GAP）來聚合Re-ID的中間卷積特徵。可是，該策略僅考慮局部特徵的一階統計量，並將同一重要位置處的局部特徵視爲同等重要，致使次優特徵表示。爲了解決這些問題，咱們提出了一種新穎的用於CNN網絡中局部特徵聚合的加權雙線性編碼（WBC）模型，以追求更具表明性和區分性的特徵表示。具體而言，雙線性編碼被用於編碼信道方面的特徵相關性以捕獲更豐富的特徵交互。同時，對雙線性編碼應用加權方案，根據識別的重要性自適應調整不一樣位置的局部特徵權值，進一步提升特徵聚合的可辨性。爲了處理空間誤差問題，咱們使用顯著的部分網絡來導出顯著的身體部位，並將WBC模型應用於每一個部分。經過鏈接每一個部分的WBC編碼特徵造成的最終表示既具備區分性又能抵抗空間不對齊。包括Market-1501，DukeMMC-reID和CUHK03三個基準的實驗證實了咱們的方法與其餘最早進的方法的良好表現。

arXiv：https://arxiv.org/abs/1803.08580

深度估計

[3]《Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps with Accurate Object Boundaries》

Abstract：咱們從新討論從單個RGB圖像估計場景深度的問題。儘管近期深度學習方法取得了成功，但咱們代表，經過訓練由兩個子網絡組成的深層網絡，在兩個方面仍有改進的空間; 用於提供初始深度估計的基礎網絡，以及用於提煉它的精化網絡。首先，可使用以順序方式訓練的子網絡之間的跳躍鏈接來改進估計的深度圖的空間分辨率。其次，咱們能夠經過使用建議的使用深度梯度的損失函數來提升場景中物體邊界的估計精度。實驗結果代表，所提出的網絡和方法提升了基線網絡的深度估計性能，特別是對於小物體的重建和邊緣失真的細化，而且優於基準數據集上的最新方法。

arXiv：https://arxiv.org/abs/1803.08673

超分辨率

[4]《Fast, Accurate, and, Lightweight Super-Resolution with Cascading Residual Network》

Abstract：近年來，深度學習方法已成功應用於單幅圖像超分辨率任務。儘管它們表現出色，但因爲計算量大，因此深度學習方法沒法輕易應用到實際應用中。在本文中，咱們經過提出一個準確而輕量級的圖像超分辨率深度學習模型來解決這個問題。詳細來講，咱們設計了一個在殘差網絡上實現級聯機制的架構。咱們還提出了提出的級聯殘餘網絡的變體模型，以進一步提升效率。咱們普遍的實驗代表，即便參數和操做少得多，咱們的模型也能達到與最早進方法相媲美的性能。

arXiv：https://arxiv.org/abs/1803.08664

顯著性檢測

[5]《PDNet: Prior-model Guided Depth-enhanced Network for Salient Object Detection》

ICME 2018

Abstract：全卷積神經網絡（FCNs）在包括顯著物體檢測在內的許多計算機視覺任務中表現出色。然而，在基於深度學習的顯著性檢測中仍然須要解決兩個問題。一個是缺少大量的註釋數據來訓練網絡。另外一個是缺少魯棒性來提取包含複雜場景的圖像中的顯著物體。在本文中，咱們提出了一種新的體系結構-PDNet，這是一種用於RGB-D顯著物體檢測的強大的先前模型引導深度加強網絡。與現有的將圖像像素的RGB-D值直接饋送到網絡的做用相比，所提出的體系結構由用於處理RGB值的主網絡和充分利用深度提示幷包含深度的子網絡組成基於網絡的功能。爲了克服用於訓練的標記RGB-D數據集的有限尺寸，咱們使用大的傳統RGB數據集來預訓練主網絡，這證實對最終準確度有很大貢獻。對五個基準數據集進行普遍的評估代表，咱們提出的方法對於最早進的方法有良好的表現。

arXiv：https://arxiv.org/abs/1803.08636

github：https://github.com/cai199626/PDNet

GAN

[6]《Generative Adversarial Autoencoder Networks》

Abstract：咱們引入一個有效的模型來克服訓練生成對抗網絡（GAN）時模式崩潰的問題。首先，咱們提出一個新的生成器，發現它更好地處理模式崩潰。而且，咱們應用獨立的自動編碼器（AE）來約束髮生器，並將其重構樣本視爲「真實」樣本，以減慢鑑別器的收斂，從而減小梯度消失問題並穩定模型。其次，從AE提供的潛在和數據空間之間的映射，咱們進一步經過潛在和數據樣本之間的相對距離來規範AE，以明確防止發生器陷入模式崩潰設置。當咱們找到一種可視化MNIST數據集模式崩潰的新方法時，這個想法就來了。就咱們所知，咱們的方法是第一個成功提出並應用潛在和數據樣本的相對距離來穩定GAN的方法。第三，咱們提出的模型，即生成對抗自動編碼器網絡（GAAN），在合成，MNIST，MNIST-1K，CelebA和CIFAR-10數據集上經驗證實，它是穩定的，既沒有梯度消失也沒有模式崩潰問題。實驗結果代表，咱們的方法能夠近似良好的多模態分佈，並取得比這些基準數據集上最早進的方法更好的結果。

arXiv：https://arxiv.org/abs/1803.08887

github：https://github.com/tntrung/gaan

[7]《Fictitious GAN: Training GANs with Historical Model》

Abstract：生成對抗網絡（GAN）是學習生成模型的強大工具。實際上，訓練可能會因缺少convergence而受到影響。 GAN一般被視爲兩個神經網絡之間的two player zero-sum遊戲。在這裏，咱們利用這種博弈論的觀點來研究訓練過程的收斂行爲。受虛擬遊戲學習過程的啓發，引入了一種稱爲Fictitious GAN的新型訓練方法。 Ficititous GAN使用歷史模型的混合來訓練深度神經網絡。具體來講，鑑別器（或生成器）根據對來自一系列先前訓練的生成器（或鑑別器）的混合輸出的最佳響應而被更新。結果代表，Fictitious GAN能夠有效解決標準訓練方法沒法解決的一些收斂問題。證實，生成器輸出的平均值與數據樣本具備相同的分佈。

arXiv：https://arxiv.org/abs/1803.08647

VOA

[8]《Explicit Reasoning over End-to-End Neural Architectures for Visual Question Answering》

AAAI 2018

Abstract：除了數據驅動的圖像和天然語言處理外，許多視覺和語言任務都須要常識推理。在這裏，咱們採用視覺問答（VQA）做爲示例任務，系統須要用天然語言回答關於圖像的問題。當前最早進的系統嘗試使用深度神經架構來解決任務，並取得了使人滿意的性能。可是，由此產生的系統一般是不透明的，他們很難理解須要額外知識的問題。在本文中，咱們在一組倒數第二個基於神經網絡的系統之上提出了一個明確的推理層。推理層能夠在須要額外知識的狀況下推理和回答問題，同時爲最終用戶提供可解釋的界面。具體而言，推理層採用基於機率軟邏輯（PSL）的引擎來推理一籃子輸入：視覺關係，問題的語義解析以及來自word2vec和ConceptNet的背景知識本體。在VQA數據集上生成的答案和關鍵證據預測的實驗分析驗證了咱們的方法。

arXiv：https://arxiv.org/abs/1803.08896

綜述

[9]《What Do We Understand About Convolutional Networks?》

Abstract：本文將回顧使用多層卷積體系結構的最重要的方法。重要的是，典型的卷積網絡的各個組成部分將經過回顧不一樣的方法來進行討論，這些方法的設計決策基於生物學發現和/或合理的理論基礎。此外，將經過可視化和實證研究來了解ConvNets的不一樣嘗試。最終目標是闡明ConvNet體系結構中每一層處理的做用，提煉咱們目前對ConvNets的理解，並強調關鍵的開放問題。

arXiv：https://arxiv.org/abs/1803.08834

其它

[10]《Geometric and Physical Constraints for Head Plane Crowd Density Estimation in Videos》

Abstract：在擁擠的場景中進行人數統計的最早進的方法依賴於深度網絡來估計圖像平面中的人員密度。透視失真（perspective distortion）效果能夠經過學習尺度不變特徵或者估計不一樣尺寸小片的密度來隱式處理，這二者都不能說明尺度變化必須在整個場景中保持一致的事實。在本文中，咱們代表，向網絡提供一個顯著的尺度變化模型會顯著提升性能。另一個好處是，它可讓咱們根據每平方米地面上的人數進行推理，從而使咱們可以實施不須要學習的物理啓發性時間一致性約束。這產生了一種算法，在擁擠的場景中賽過最早進的方法，尤爲是當透視效果很強時。

arXiv：https://arxiv.org/abs/1803.08805