[計算機論文速遞] 2018-03-23

通知:這篇文章有15篇論文速遞信息,涉及目標檢測、目標跟蹤、姿態估計、SLAM、GAN、行爲識別、去霧、網絡優化等方向git

創辦CVer公衆號,漸漸半個多月了,很感謝獲得這麼多童鞋的關注和支持。特別是看到後臺有人給我留言:加油,我很喜歡你的公衆號。我內心很知足,也頗有動力。github

我儘可能維持1.5day頻率的更新速度,但寫一篇推文確實太耗時間了,哪怕暫時是以「譯文」爲主的文章。在此向那些奉獻知識的工做者表示致敬。算法

最近有同窗建議我,能夠開啓打賞功能,分享知識的同時,得到物質上的讚揚,也是做爲對你的工做一種確定。我沒有想過靠此盈利,由於這是我我的的公衆號,因此想問一下你們對此的態度(算是一種調研吧)網絡

[計算機論文速遞] 2018-03-23

目標檢測架構

[1]《Single-Shot Bidirectional Pyramid Networks for High-Quality Object Detection》框架

Abstract:近年來,使用深度學習技術在物體檢測領域取得了使人振奮的成就。儘管取得了重大進展,可是大多數現有的檢測器被設計用於檢測具備相對低質量的位置預測的對象,即,一般在默認狀況下用交叉點聯合(IoU)閾值設置爲0.5來訓練,這能夠產生低質量或者甚至是低質量嘈雜的檢測。如何在不犧牲檢測性能的狀況下設計和訓練可以實現更精肯定位(即IoU [數學處理偏差] 0.5)的高質量檢測器仍然是一個公開挑戰。在本文中,咱們提出了一種雙向金字塔網絡(BPN)的新型單發檢測框架,以實現高質量的目標檢測,該框架由兩個新穎的組件組成:(i)雙向特徵金字塔結構,用於更有效和更魯棒的特徵表示;和(ii)梯級錨定細化,以逐步改善預先設計的錨點的質量以進行更有效的訓練。咱們的實驗代表,所提出的BPN在PASCAL VOC和MS COCO數據集上的全部單級物體檢測器中都達到了最佳性能,特別是對於高質量檢測。分佈式

注:咦,提升IoU的目標檢測器!仍是Single-Shot類型!Bidirectional Pyramid Networks (BPN)!!!實驗結果IoU在0.五、0.6和0.7下的mAp是最高的!比two-stage還高!ide

arXiv:https://arxiv.org/abs/1803.08208函數

[計算機論文速遞] 2018-03-23

[計算機論文速遞] 2018-03-23

目標跟蹤性能

[2]《Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World》

Abstract:在開放的世界環境中進行多人追蹤須要特別的努力來進行精確的檢測。此外,當場景混亂引入遮擋目標的具備挑戰性的問題時,檢測階段的時間連續性變得更加劇要。爲此,咱們提出了一個深度網絡體系結構,它能夠共同提取人體部位,並在短暫的時間跨度內將它們關聯起來。咱們的模型明確地處理閉塞的身體部位,經過幻覺看不見關節的合理解決方案。咱們提出了由\ textit提供的四個分支(\ textit {可見heatmaps},\ textit {occluded heatmaps},\ textit {零件關聯字段}和\ textit {時間關聯字段})組成的新的端到端體系結構{時間連接器}功能提取器。爲了克服跟蹤,身體部分和遮擋註釋缺少監視數據,咱們建立了最快的計算機圖形數據集,用於人們在城市場景中進行跟蹤,經過利用真實感的視頻遊戲進行跟蹤。它是迄今爲止在城市情景中跟蹤人體的最快數據集(大約500,000幀,超過1000萬個身體姿態)。咱們在虛擬數據方面進行培訓的體系結構在公共實際跟蹤基準上具備良好的泛化能力,當圖像分辨率和清晰度足夠高時,可生成可用於進一步批量數據關聯或從新標識模塊的可靠tracklets。

arXiv:https://arxiv.org/abs/1803.08319

[計算機論文速遞] 2018-03-23

[計算機論文速遞] 2018-03-23

姿態估計

[3]《Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations》

Abstract:從單個圖像中進行三維(3D)人體姿態估計的任務能夠被分紅兩部分:(1)從圖像中的二維(2D)人體關節檢測和(2)根據二維關節估計3D姿態。這裏,咱們關注第二部分,即,來自2D關節位置的3D姿態估計。現有方法存在的問題是它們須要(1)從視頻序列中獲取的連續幀中的3D姿態數據集或(2)2D關節位置。咱們旨在解決這些問題。咱們第一次提出一種在沒有任何3D數據集的狀況下學習3D人體姿式的方法。咱們的方法能夠預測單個圖像中2D關節位置的3D姿態。咱們的系統基於生成的敵對網絡,網絡以無監督的方式進行訓練。咱們的主要想法是,若是網絡能夠正確預測3D人體姿態,則投射到2D平面上的3D姿態即便垂直旋轉也不該該塌陷。咱們使用Human3.6M和MPII數據集評估了咱們方法的性能,結果代表咱們的網絡能夠很好地預測3D姿態,即便3D數據集在訓練期間不可用。

arXiv:https://arxiv.org/abs/1803.08244

[計算機論文速遞] 2018-03-23

[4]《PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model》

Abstract:咱們提出了一個無盒自下而上的方法,用於使用高效的單次模型對多人圖像中的人進行姿態估計和實例分割。建議的PersonLab模型使用基於部件的建模來處理語義層推理和對象部分關聯。咱們的模型採用了卷積網絡,能夠學習檢測各個關鍵點並預測它們的相對位移,從而使咱們可以將關鍵點分組爲人物姿式實例。此外,咱們提出了一個部分誘導的幾何嵌入描述符,它容許咱們將語義人像素與其相應的人員實例相關聯,從而提供實例級別的人員分段。咱們的系統基於徹底卷積體系結構,能夠進行高效的推理,運行時間基本上與場景中出現的人數無關。僅依靠COCO數據訓練,咱們的系統經過單尺度推理得到了0.665的COCO測試 - 開發關鍵點平均精度,使用多尺度推理實現了0.687的COCO測試 - 開發關鍵點平均精度,明顯優於全部之前的自下而上的姿式估計系統。咱們也是第一種自下而上的自下而上方法來報告COCO實例細分任務中人員類別的競爭結果,實現人類分類平均精度爲0.417。

arXiv:https://arxiv.org/abs/1803.08225

[計算機論文速遞] 2018-03-23

[5]《Deep Pose Consensus Networks》

Abstract:在本文中,咱們解決了從單個圖像估計三維人體姿態的問題,這很重要但很難解決,緣由不少,如遮擋,外觀變化以及二維3D估計的固有模糊性線索。這些困難使這個問題不適當,這已經變得愈來愈複雜的估計人員須要提升績效。另外一方面,大多數現有的方法都是基於單個複雜的估計器來處理這個問題,這可能不是很好的解決方案。在本文中,爲了解決這個問題,咱們提出了一個基於多部分假設的框架,用於從單個圖像估計3D人體姿態的問題,能夠以端到端的方式進行微調。咱們首先使用所提出的採樣方案從人類關節模型中選擇幾個關節組,並基於深度神經網絡分別估計每一個關節組的三維姿態。以後,使用建議的魯棒優化公式來聚合它們以得到最終的3D姿式。整個過程能夠以端到端的方式進行微調,從而得到更好的性能。在實驗中,所提出的框架顯示了在流行的基準數據集上的最新性能,即Human3.6M和HumanEva,它們證實了所提出的框架的有效性。

arXiv:https://arxiv.org/abs/1803.08190

[計算機論文速遞] 2018-03-23

[6]《A Unified Framework for Multi-View Multi-Class Object Pose Estimation》

Abstract:對象姿態估計的一個核心挑戰是確保在複雜的背景雜波中爲大量不一樣的前景對象提供精確和穩健的性能。在這項工做中,咱們提出了一個可擴展的框架,能夠爲單個或多個視圖中的大量對象類準確推斷六個自由度(6-DoF)姿態。爲了學習辨別性姿態特徵,咱們將三種新功能集成到深度卷積神經網絡(CNN)中:一種推理方案,它基於SE(3)的統一曲面細分將分類和姿態迴歸相結合,將先前類別融入訓練經過平鋪的類地圖進行處理,以及使用深度監視和對象蒙版的附加正則化。此外,制定了一個有效的多視圖框架來解決單視圖模糊。咱們證實這一向地改善了單視圖網絡的性能。咱們在三個大型基準測試中評估咱們的方法:YCB-Video,JHUScene-50和ObjectNet-3D。咱們的方法比目前最早進的方法實現了競爭力或卓越的性能。

arXiv:https://arxiv.org/abs/1803.08103

[計算機論文速遞] 2018-03-23

GAN

[7]《Branched Generative Adversarial Networks for Multi-Scale Image Manifold Learning》

Submitted to ECCV 2018

Abstract:咱們引入了BranchGAN,一種新穎的訓練方法,使無條件的生成對抗網絡(GAN)可以學習多尺度的圖像流形。 BranchGAN的獨特之處在於它在多個分支進行了培訓,隨着培訓圖像分辨率的增長,逐漸覆蓋網絡的廣度和深度,以顯示更精細的特徵。具體而言,做爲輸入到發生器網絡的每一個噪聲向量被明確地分紅幾個子向量,每一個子向量對應於而且被訓練以學習特定尺度的圖像表示。在訓練過程當中,咱們逐步「逐步」解凍子矢量,由於一組新的高分辨率圖像被用於訓練,而且添加了更多的網絡層。這種明確的子矢量指定的結果是咱們能夠直接操縱甚至組合與特定特徵尺度關聯的潛在(子矢量)代碼。實驗證實了咱們的訓練方法在圖像流形和合成的多尺度,解體學習中的有效性,沒有任何額外的標籤,而且不會損害合成的高分辨率圖像的質量。咱們進一步演示了BranchGAN啓用的兩個新應用程序。

arXiv:https://arxiv.org/abs/1803.08467

[計算機論文速遞] 2018-03-23

[計算機論文速遞] 2018-03-23

行爲識別

[8]《Towards Universal Representation for Unseen Action Recognition》

Accepted at CVPR 2018

Abstract:看不見的行爲識別(UAR)旨在識別新的行爲類別,沒有訓練的例子。 雖然之前的方法專一於內部數據集看到/看不見的分裂,但本文提出了一種使用大規模訓練源來實現通用表示(UR)的流水線,該泛化表示可推廣到更現實的跨數據集UAR(CD-UAR)場景。 咱們首先將UAR稱爲廣義多實例學習(GMIL)問題,並使用分佈式內核從大規模ActivityNet數據集中發現「構建塊」。 必要的視覺和語義組件被保存在一個共享空間中,以實現能夠高效地推廣到新數據集的UR。 經過簡單的語義適應能夠改進預測的UR範例,而後在測試過程當中使用UR能夠直接識別出看不見的動做。 在沒有進一步培訓的狀況下,普遍的實驗顯示出UCF101和HMDB51基準測試的顯著改進。

arXiv:https://arxiv.org/abs/1803.08460

[計算機論文速遞] 2018-03-23

SLAM

[9]《PlaneMatch: Patch Coplanarity Prediction for Robust RGB-D Reconstruction》

Abstract:咱們引入了一種新穎的RGB-D patch描述符,設計用於在SLAM重建中檢測共面曲面。 咱們方法的核心是一個深卷積神經網絡,它接收圖像中平面斑點的RGB,深度和正常信息,並輸出可用於從其餘圖像找到共面斑點的描述符。咱們訓練網絡10 百萬三平面共面和非共面面片,並評估由商品RGB-D掃描產生的新共面性基準。 實驗代表,咱們的學習描述符賽過了爲這個新任務擴展的備選方案,並且效果明顯。 此外,咱們證實了在一個穩健的RGBD重建公式中共面性匹配的好處。咱們發現用咱們的方法檢測到的共面性約束足以得到與大多數場景中最早進的框架相媲美的重建結果,但優於其餘方法 在與簡單的關鍵點方法相結合的標準基準測試中。

arXiv:https://arxiv.org/abs/1803.08407

[計算機論文速遞] 2018-03-23

優化

[10]《Group Normalization》

Abstract:批量標準化(BN)是深度學習發展中的一項里程碑式技術,可以讓各類網絡進行培訓。可是,沿着批量維度進行歸一化會帶來一些問題---批量統計估算不許確致使批量變小時,BN的偏差會迅速增長。這限制了BN用於培訓更大型號的功能,並將功能轉移到計算機視覺任務,包括檢測,分割和視頻,這些任務都須要小批量的內存消耗。在本文中,咱們提出組標準化(GN)做爲BN的簡單替代方案。 GN將通道分紅組,並在每組內計算標準化的均值和方差。 GN的計算與批量大小無關,而且其準確度在各類批量大小下都很穩定。在ImageNet上訓練的ResNet-50上,GN使用批量大小爲2時的錯誤率比BN對手低10.6%;當使用典型的批量時,GN與BN至關,而且優於其餘標準化變量。並且,GN能夠天然地從預培訓轉向微調。 GN能夠賽過其競爭對手,或者與其在國陣的對手進行COCO中的目標檢測和分割以及Kinetics中的視頻分類競爭,代表GN能夠在各類任務中有效地取代強大的BN。 GN能夠經過現代庫中的幾行代碼輕鬆實現。

注:Yuxin Wu和何凱明的大做啊!!!Facebook AI出品,必屬精品,期待論文復現的童鞋好好表現!

arXiv:https://arxiv.org/abs/1803.08494

[計算機論文速遞] 2018-03-23

[計算機論文速遞] 2018-03-23
[計算機論文速遞] 2018-03-23

綜述

[11]《A Comprehensive Analysis of Deep Regression》

submitted to TPAMI

Abstract:深度學習使數據科學發生了革命性的變化,最近它的受歡迎程度呈指數級增加,使用深度網絡的論文數量也呈指數增加。諸如人體姿式估計等視覺任務並無擺脫這種方法上的改變。大量的深層架構致使過多的方法在不一樣的實驗協議下評估。此外,網絡體系結構或數據預處理過程當中的微小變化以及優化方法的隨機性致使了顯着不一樣的結果,使得篩選出明顯優於其餘方法的方法變得很是困難。所以,當提出迴歸算法時,從業者能夠經過反覆試驗來進行。這種狀況激發了目前的研究,咱們對香草深層迴歸的性能進行了系統評估和統計分析 - 對於具備線性迴歸頂層的卷積神經網絡來講,這是一個縮寫。據咱們所知,這是對深度迴歸技術的首次綜合分析。咱們對三個視覺問題進行實驗,並報告中值性能的置信區間以及結果的統計顯着性(若是有的話)。使人驚訝的是,因爲不一樣的數據預處理程序引發的變化性一般掩蓋了因爲網絡體系結構中的修改而致使的變化性。

注:硬梆梆的文章!介紹並分析了VGGG-1六、ResNet-50網絡,AdaGrad、RMSProp、AdaDelta、Adam等優化器,Batch size、Batch Normalization和Dropout的做用。

arXiv:https://arxiv.org/abs/1803.08450

[計算機論文速遞] 2018-03-23

其它

[12]《Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings》

Abstract:咱們提出一種從天然語言生成彩色3D形狀的方法。 爲此,咱們首先學習自由文本描述和彩色3D形狀的聯合嵌入。 咱們的模型結合並擴展了經過關聯和度量學習方法進行的學習,以學習隱式的跨模態鏈接,併產生了一個聯合表示,它捕捉語言和3D形狀的物理屬性(如顏色和形狀)之間的多對多關係。 爲了評估咱們的方法,咱們收集ShapeNet數據集中物理3D對象的天然語言描述的大型數據集。 經過這種學習的聯合嵌入,咱們展現了比基線方法更好的文本到形狀檢索。 使用咱們的帶有新穎條件Wasserstein GAN框架的嵌入,咱們從文本生成彩色3D形狀。 咱們的方法是第一個將天然語言文本與真實的3D對象鏈接起來,呈現豐富的顏色,紋理和形狀細節變化。

注:太硬的文章!!!

arXiv:https://arxiv.org/abs/1803.08495

[計算機論文速遞] 2018-03-23

[13]《Group Sparsity Residual with Non-Local Samples for Image Denoising》

Abstract:受到基於羣組的稀疏編碼的啓發,最近提出的羣體稀疏殘差(GSR)方案在圖像處理中表現出優越的性能。 然而,GSR中的一個挑戰是經過使用基於組的稀疏編碼(GSC)的適當參考來估計殘差,但願儘量接近真實。 之前的研究利用了其餘算法(即GMM或BM3D)的估計,這些算法不許確或太慢。 在本文中,咱們建議使用非局部樣本(NLS)做爲GSR機制中的圖像去噪的參考,所以稱爲GSR-NLS。 更具體地說,咱們首先經過圖像非局部自類似性得到組稀疏係數的良好估計,而後經過有效的迭代收縮算法求解GSR模型。 實驗結果代表,所提出的GSR-NLS不只賽過許多最早進的方法,並且還提供了速度的競爭優點。

arXiv:https://arxiv.org/abs/1803.08412

[計算機論文速遞] 2018-03-23

[14]《Densely Connected Pyramid Dehazing Network》

CVPR 2018

Abstract:咱們提出了一種稱爲密集鏈接金字塔除霧網絡(DCPDN)的新型端到端單圖像去霧方法,它能夠共同窗習透射圖,大氣光和去霧。端到端學習是經過將大氣散射模型直接嵌入到網絡中來實現的,從而確保所提出的方法嚴格遵循物理驅動的散射模型。受密集網絡的啓發,能夠最大限度地利用不一樣層次特徵的信息流,咱們提出了一種新的邊緣保持密集鏈接的編碼器 - 解碼器結構,其中包含用於估計傳輸圖的多層金字塔池模塊。該網絡使用新引入的邊緣保留損失函數進行了優化。爲了進一步在估計的傳輸圖和去抖動結果之間結合相互結構信息,咱們提出了一種基於生成對抗網絡框架的聯合鑑別器,以肯定相應的去霧圖像和估計的傳輸圖是真實的仍是假的。進行消融研究以證實在估計的傳輸圖和去除顫動結果時評估的每一個模塊的有效性。大量的實驗證實,所提出的方法比現有技術的方法有顯着的改進。

arXiv:https://arxiv.org/abs/1803.08396

github:https://github.com/hezhangsprinter/DCPDN

[計算機論文速遞] 2018-03-23

[15]《Deep Learning using Rectified Linear Units (ReLU)》

Abstract:咱們引入修正線性單元(ReLU)做爲深度神經網絡(DNN)中的分類函數。 傳統上,ReLU被用做DNN中的激活功能,其中Softmax功能做爲其分類功能。 可是,有幾項關於使用除Softmax之外的分類功能的研究,本研究是對這些研究的補充。 咱們經過在神經網絡中激活倒數第二層hn-1,而後將其乘以權重參數θ來得到原始分數oi。 以後,咱們將原始分數oi設爲0,即f(o)= max(0,oi),其中f(o)是ReLU函數。 咱們經過argmax函數,即argmax f(x)提供類別預測y ^。

注:Amazing!!!ReLU直接作分類函數了!來,雙擊666666

arXiv:https://arxiv.org/abs/1803.08375

[計算機論文速遞] 2018-03-23[計算機論文速遞] 2018-03-23

相關文章
相關標籤/搜索