通知:這篇文章有6篇論文速遞信息,涉及前景檢測、行爲分類、3D、SLAM和去模糊等方向(含2篇CVPR論文和一篇TIP論文)html
編輯:Amusigit
審稿:Amusigithub
Foreground Detection算法
[1]《A Fusion Framework for Camouflaged Moving Foreground Detection in the Wavelet Domain》數據庫
IEEE TIP 2018網絡
Abstract:因爲前景物體和背景之間的類似性,檢測假裝的(camouflaged)移動前景物體是很是困難的。傳統方法因爲它們之間的差別很小,因此不能區分前景和背景,所以對於假裝的(camouflaged)前景對象的檢測率很低。在本文中,咱們提出了一個融合框架來解決小波域(wavelet domain)中的這個問題。咱們首先代表,圖像域的小差別能夠在某些小波帶中突出顯示(highlight)。而後經過爲每一個小波帶制定前景和背景模型來估計每一個小波係數爲前景的可能性。所提出的框架基於小波變換的特徵有效地聚合來自不一樣小波帶的可能性。實驗結果代表,該方法在檢測假裝前景物體方面明顯優於現有方法。具體而言,該算法的平均F-measure爲0.87,而其餘最早進的方法則爲0.71至0.8。架構
注:文中的假裝(camouflaged)實際上是指前景和背景顏色和紋理等信息很相近框架
arXiv:https://arxiv.org/abs/1804.05984dom
Activity Classification異步
[2]《M-PACT: Michigan Platform for Activity Classification in Tensorflow》
Abstract:行動分類是一項廣爲人知的研究領域,它提供了一種視頻理解的方法。如今並無包含最新技術(SOTA)模型且易於使用的平臺供給大衆使用。考慮到單個研究代碼並非考慮最終用戶編寫的,而且在某些狀況下代碼沒有發佈,即便是已發佈的文章,在減輕開發整個系統負擔的同時,可以提供結果的通用統一平臺的重要性不能誇大。爲了嘗試和解決這些問題,咱們開發一個基於tensorflow端到端的pipeline安裝方面,統一平臺減小了沒必要要的開銷,以容許用戶快速,輕鬆地prototype action classification models。經過在不一樣模型之間使用一致的編碼風格以及各類子模塊之間的無縫數據流,該平臺適用於各類數據集的各類SOTA方法的快速生成結果。全部這些功能都經過使用創建在一個小而強大的一套處理異步數據加載模塊的功能,模式初始化,指標計算的頂部徹底預先定義的培訓和測試模塊成爲可能,保存和檢查站的負荷,並記錄結果。該平臺旨在輕鬆建立模型,最低要求是定義網絡體系結構,並從大量自定義層選擇和預處理功能中預處理步驟。 M-PACT目前擁有4個SOTA活動分類模型,其中包括I3D,C3D,ResNet50 + LSTM和TSN。對於HMDB51,ResNet50 + LSTM的分類性能達到43.86%,而C3D和TSN分別達到UCF101的93.66%和85.25%。
arXiv:https://arxiv.org/abs/1804.05879
github:https://github.com/MichiganCOG/M-PACT
注:很強大的code
3D
[3]《Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction》
CVPR 2018
Abstract:本論文的目的是比較基於表面的(surface-based)和基於體積的3D對象形狀表示,以及用於單視圖3D形狀預測的以觀察者爲中心和以對象爲中心的參考框架。咱們提出了一種用於從多個視點預測深度圖的新算法,其中單個深度或RGB圖像做爲輸入。經過修改網絡和評估模型的方式,咱們能夠直接比較體素(voxels)與表面(surfaces)的優勢,以及從RGB或深度圖像預測的熟悉與陌生物體的以觀察者爲中心與以物體爲中心的優勢。在咱們的研究結果中,咱們顯示基於表面的方法賽過來自新類別的對象的體素表示併產生更高分辨率的輸出。咱們還發現,使用以觀察者爲中心的座標對於新穎的物體是有利的,而以物體爲中心的表示對於更熟悉的物體更好。有趣的是,座標系顯著地影響所學的形狀表示,以物體爲中心更重視隱式識別物體類別和以觀察者爲中心的生成形狀表示,而對類別識別的依賴較小。
arXiv:https://arxiv.org/abs/1804.06032
SLAM
[4]《The TUM VI Benchmark for Evaluating Visual-Inertial Odometry》
Abstract:視覺測距和SLAM方法在諸如加強現實或機器人等領域具備大量的應用。利用慣性測量補充視覺傳感器極大地提升了跟蹤精度和魯棒性,所以引發了人們對視覺 - 慣性(VI)測距方法發展的極大興趣。在本文中,咱們提出了TUM VI基準,這是一種新穎的數據集,它在不一樣的場景中具備多種序列,用於評估VI odometry。它提供20 Hz下的1024x1024分辨率的照相機圖像,高動態範圍和光度校準。一個IMU測量3個軸上200Hz的加速度和角速度,而攝像頭和IMU傳感器在硬件上進行時間同步。對於軌跡評估,咱們還能夠在運動捕捉系統中以高頻(120 Hz)在序列的開始和結束處提供精確的姿態地面實況,這些序列與攝像機和IMU測量精確對齊。包含原始和校準數據的完整數據集是公開可用的。咱們還在咱們的數據集上評估了最早進的VI odometry方法。
arXiv:https://arxiv.org/abs/1804.06120
datasets:https://vision.in.tum.de/data/datasets/visual-inertial-dataset
Debluring
[5]《A Concatenated Residual Network for Image Deblurring》
Rejected by IJCAI 2018
Abstract:基於深度卷積神經網絡(CNN)的恢復(restoration)方法最近在低級視覺任務中得到了至關大的進展,例如去噪,超分辨率,修復。然而,普通的CNN因爲模糊退化形成嚴重的像素重疊而沒法進行圖像去模糊。在本文中,咱們提出了一種新穎的級聯殘餘CNN用於圖像去模糊。在基於最小均方偏差(MMSE)的區分性學習的驅動下,圖像去模糊的解決方案被有趣地展開爲一系列迭代殘差份量,而且被分析以展現迭代殘餘去卷積(IRD)的貢獻。此外,IRD激發了咱們向前邁進一步,爲圖像去模糊設計CNN。具體來講,採用剩餘的CNN單元來替代殘差迭代,而後將它們鏈接起來並最終進行積分,從而產生鏈接的殘餘卷積網絡(CRCNet)。實驗結果代表,CRCNet不只能夠實現更好的定量指標,還能夠恢復更多視覺上合理的紋理細節。
arXiv:https://arxiv.org/abs/1804.06042
注:這篇文章雖然被IJCAI拒了,但我以爲仍是有點意思的
Reconstruction
[6]《PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image》
CVPR 2018
Abstract:本文提出了一種深度神經網絡(DNN),用於從單個RGB圖像中進行分段平面深度圖重構。儘管DNN在單圖像深度預測方面取得了顯著進展,但分段(piece-wise)平面深度圖重建須要結構化幾何表示,而且即便對於DNN也須要掌握不少任務。所提出的端到端DNN學習從單個RGB圖像直接推斷一組平面參數和相應的平面分割掩模。 咱們已經爲大規模RGBD視頻數據庫ScanNet的ScanNet培訓和測試生成了超過50,000個分段平面深度圖。咱們的定性和定量評估代表,所提出的方法在平面分割和深度估計精度方面均優於基線方法。據咱們所知,本文介紹了從單個RGB圖像中分段平面重建的第一個端到端神經架構。
arXiv:
https://arxiv.org/abs/1804.06278
github:
https://github.com/art-programmer/PlaneNet
homepage:
http://art-programmer.github.io/planenet.html
注:一項很cool的工做,但Amusi不知道piecewise planar是個啥?!但願有童鞋能夠補充一下