通知:這篇推文有13篇論文速遞信息,涉及圖像分割、SLAM、顯著性、深度估計、車輛計數等方向前端
往期回顧git
[計算機視覺] 入門學習資料github
[計算機視覺論文速遞] 2018-03-18算法
[計算機視覺論文速遞] 2018-03-16api
圖像分割網絡
[1]《Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Scene Semantic Segmentation》架構
Abstract:咱們提出了一種具備分層分類器的卷積網絡,用於每像素語義分割,可以在多個異構數據集上訓練並利用其語義層次結構。 咱們的網絡是第一個同時訓練來自智能車輛領域的三個不一樣數據集,即Cityscapes,GTSDB和Mapillary Vistas,而且可以處理不一樣的語義細節層次,類別不平衡和不一樣的註釋類型,即密集的 每像素和稀疏邊界框標籤。 咱們經過比較平面非分層分類器評估咱們的分層方法,而且咱們顯示Cityscapes類的平均像素精度爲13.0%,Vistas類爲2.4%,GTSDB類爲32.3%。 咱們的實如今GPU上運行108個類的分辨率爲520 x 706時可實現17 fps的推導速率。app
arXiv:https://arxiv.org/abs/1803.05675框架
[2]《An application of cascaded 3D fully convolutional networks for medical image segmentation》dom
Abstract:3D全卷積網絡(FCN)的最新進展已經使得生成體積圖像的密集體素預測成爲可能。在這項工做中,咱們展現了一個多級三維FCN訓練手動標記的幾個解剖結構(從大型器官到薄血管)的CT掃描能夠實現競爭性分割結果,同時避免手工製做功能或培訓課程的須要,具體型號。
爲此,咱們提出了一個兩階段的,從粗到精的方法,它將首先使用3D FCN粗略定義候選區域,而後將其用做第二個3D FCN的輸入。這減小了第二個FCN必須分類的體素數量至〜10%,並容許它將重點放在更詳細的器官和血管分割上。
咱們利用由331個臨牀CT影像組成的訓練和驗證集合,並對包含150次CT掃描的不一樣醫院採集的徹底不可見的數據集進行測試,針對三個解剖器官(肝臟,脾臟和胰腺)。在胰腺等具備挑戰性的器官中,咱們的級聯方法將骰子平均得分從68.5提升到82.2%,實現了此數據集報告的最高平均得分。咱們在240個CT掃描的18個類別的獨立數據集上比較2D FCN方法,並在小器官和血管中實現顯着更高的性能。此外,咱們探索微調咱們的模型到不一樣的數據集。
咱們的實驗說明了當前基於三維FCN的醫學圖像語義分割的前景和穩健性,實現了最早進的結果。咱們的代碼和訓練有素的模型可供下載:https://github.com/holgerroth/3Dunet_abdomen_cascade
arXiv:https://arxiv.org/abs/1803.05431
github:https://github.com/holgerroth/3Dunet_abdomen_cascade
SLAM
[3]《Vision-Aided Absolute Trajectory Estimation Using an Unsupervised Deep Network with Online Error Correction》
IROS 2018
Abstract:咱們提出了一種無監督的深度神經網絡方法來融合RGB-D圖像與慣性測量的絕對軌跡估計。 咱們的網絡被稱爲Visual-Inertial-Odometry Learner(VIOLearner),它學習在沒有慣性測量單元(IMU)固有參數(對應於陀螺儀和加速度計誤差或白噪聲)或者外部校準之間執行視覺慣性測距法(VIO) IMU和相機。 網絡學習整合IMU測量結果並生成假設軌跡,而後根據相對於像素座標的空間網格的縮放圖像投影偏差的雅可比行爲在線校訂假設軌跡。 咱們根據最早進的(SOA)視覺慣性測距法,視覺測距法以及KITTI Odometry數據集上的視覺同時定位和映射(VSLAM)方法評估咱們的網絡,並展現競爭性測距性能。
arXiv:https://arxiv.org/abs/1803.05850
顯著性
[4]《Salient Region Segmentation》
Abstract:顯著性預測在計算機視覺中是一個研究得很好的問題。早期顯著性模型是基於從神經科學和心理物理學中得到的看法中得到的低級別手工特徵。在深度學習突破以後,基於神經網絡架構提出了一個新的模型隊列,在全部度量標準上容許比先前的淺層模型有更高的注視預測。
然而,大多數模型將顯著性預測視爲\ textit {regression}問題,而且高維數據的準確迴歸已知是一個難題。此外,還不清楚顯着程度的中間水平(即既很是高也非很是低)是有意義的:某些事情要麼是顯著的,要麼是顯著的,或者不是顯著的。
從這兩個觀察得出,咱們將顯著性預測問題從新描述爲顯著區域\ textit {分割}問題。咱們證實重構容許比經典迴歸問題更快的收斂性,而性能能夠與最早進的技術相媲美。
咱們還可視化模型學到的通常特徵,這些特徵與心理物理學的看法一致。
arXiv:https://arxiv.org/abs/1803.05759
[5]《What Catches the Eye? Visualizing and Understanding Deep Saliency Models》
Abstract:深卷積神經網絡近年來在固視預測中表現出了很高的性能。然而,他們如何實現這一目標卻沒有多少探索,他們仍然是黑匣子模型。在這裏,咱們試圖揭示深度顯著性模型的內部結構,並研究它們提取的固定預測的特徵。具體來講,咱們使用一個簡單但功能強大的架構,僅包含一個CNN和一個分辨率輸入,並結合一個新的丟失函數,用於自由觀看天然場景期間的像素式固定預測。咱們代表,咱們的簡單方法與最早進的複雜顯著性模型相比甚至更好。此外,咱們提出了一種與顯著性模型評估指標相關的方法,以便對固定預測的深度模型進行可視化。咱們的方法揭示了用於固定預測的深層模型的內部表示,並提供證據代表,人類所經歷的顯著性除了低級感知線索以外可能涉及高級語義知識。咱們的結果能夠用來衡量當前顯著性模型和人類觀察者間模型之間的差距,並創建新的模型來縮小差距。
arXiv:https://arxiv.org/abs/1803.05753
[6]《VEGAC: Visual Saliency-based Age, Gender, and Facial Expression Classification Using Convolutional Neural Networks》
Submitted to CVPR 2018
Abstract:本文探討了使用視覺顯著性來分類面部圖像的年齡,性別和麪部表情。 對於多任務分類,咱們提出了基於視覺顯著性的VEGAC方法。 使用Deep Multi-level Network [17]和現成的人臉檢測器[2],咱們提出的方法首先檢測測試圖像中的人臉,並提取裁剪人臉上的CNN預測。 VEGAC的CNN在來自不一樣基準的收集數據集上進行了微調。 咱們的卷積神經網絡(CNN)使用VGG-16架構[3],並在ImageNet上預先訓練用於圖像分類。 咱們證實了咱們的方法在年齡估計,性別分類和麪部表情分類中的有用性。 咱們代表,咱們在選定的基準上使用咱們的方法得到了競爭結果。 咱們全部的型號和代碼都將公開發布。
注:期待源碼!!!
arXiv:https://arxiv.org/abs/1803.05719
深度估計
[7]《Self-Supervised Monocular Image Depth Learning and Confidence Estimation》
Abstract:卷積神經網絡(CNN)須要大量的具備地面真實註釋的數據,這是一個具備挑戰性的問題,它限制了許多計算機視覺任務的CNNs的開發和快速部署。 咱們提出了一種新穎的基於單目圖像的深度估計框架,而且具備相應的自我監督方式的信心。 基於零均值歸一化互相關(ZNCC)提出了一種全差分基於塊的成本函數,該算法將多尺度貼片做爲匹配策略。 這種方法大大提升了深度學習的準確性和魯棒性。 此外,所提出的基於補丁的成本函數能夠提供0到1的置信度,而後用它來監督並行網絡的訓練以進行置信度學習和估計。 對KITTI數據集的評估代表,咱們的方法賽過了最早進的結果。
arXiv:https://arxiv.org/abs/1803.05530
其它
[8]《DeepN-JPEG: A Deep Neural Network Favorable JPEG-based Image Compression Framework》
DAC 2018
Abstract:做爲最引人入勝的機器學習技術之一,深度神經網絡(DNN)在諸如圖像分類等各類智能任務中表現出優異的性能。 DNN在很大程度上經過對大量訓練數據進行昂貴的培訓來實現這種性能。爲了減小智能資源受限物聯網(IoT)系統中的數據存儲和傳輸開銷,在傳輸實時生成的數據集以進行培訓或分類以前,有效的數據壓縮是「必備」功能。雖然有許多着名的圖像壓縮方法(如JPEG),但咱們首次發現基於人類視覺的圖像壓縮方法(如JPEG壓縮)不是DNN系統的優化解決方案,特別是在高壓縮比。爲此,咱們開發了一個專爲DNN應用而定製的圖像壓縮框架,名爲「DeepN-JPEG」,以支持DNN體系結構的深層級信息處理機制的性質。基於具備各類最早進的DNN的「ImageNet」數據集進行的大量實驗代表,「DeepN-JPEG」的壓縮率比流行的JPEG解決方案高出約3.5倍,同時保持圖像識別的相同精度水平,展現其在基於DNN的智能物聯網系統設計中具備巨大的存儲和電源效率潛力。
注:這也太硬了吧!DeepN-JPEG真是666666
arXiv:https://arxiv.org/abs/1803.05788
[9]《Feature Distillation: DNN-Oriented JPEG Compression Against Adversarial Examples》
Abstract:深度神經網絡(DNN)在衆多實際應用中取得了卓越的性能。然而,最近的研究代表,訓練有素的DNN很容易被敵對的例子(AE)誤導 - 經過引入小的不可察覺的輸入擾動來惡意製做輸入。諸如對抗訓練和防護性蒸餾之類的現有緩解解決方案受到昂貴的再培訓成本的限制,而且針對CW家族對抗性例子等最早進的***顯示出邊際魯棒性的提升。在這項工做中,咱們提出了一種新的低成本「特徵昇華」策略,經過從新設計流行的圖像壓縮框架「JPEG」來淨化AE的敵對輸入擾動。所提出的「特徵蒸餾」明智地最大化圖像壓縮期間AE干擾的惡意特徵損失,同時抑制對於高精確DNN分類相當重要的良性特徵的失真。實驗結果代表,咱們的方法能夠大幅下降CIFAR-10和ImageNet基準測試平均約60%的各類尖端AE***的成功率,而不會下降測試精度,優於現有的解決方案,如默認的JPEG壓縮和「功能擠壓」。
注:這篇paper和上篇paper第一做者是同一人
arXiv:https://arxiv.org/abs/1803.05787
[10]《Exploring Linear Relationship in Feature Map Subspace for ConvNets Compression》
Abstract:雖然卷積神經網絡(CNN)的研究進展很快,但這些模型的實際部署每每受計算資源和內存限制的限制。在本文中,咱們經過提出一種新穎的濾波器修剪方法來壓縮和加速CNN來解決這個問題。咱們的工做基於經過可視化特徵映射在不一樣特徵映射子空間中標識的線性關係。這種線性關係意味着CNN中的信息是多餘的。咱們的方法經過將子空間聚類應用於特徵映射來消除卷積濾波器中的冗餘。這樣,網絡中的大多數表明性信息均可以保留在每一個羣集中。所以,咱們的方法提供了一個有效的解決方案來篩選修剪,大多數現有方法都是基於簡單的啓發式直接刪除過濾器。所提出的方法獨立於網絡結構,所以它能夠被任何現成的深度學習庫採用。在不一樣的網絡和任務上進行的實驗代表,咱們的方法在微調以前賽過現有的技術,並在微調以後達到最新的結果。
arXiv:https://arxiv.org/abs/1803.05729
[11]《LEGO: Learning Edge with Geometry all at Once by Watching Videos》
Accepted to CVPR 2018 as spotlight
Abstract:學習經過深卷積網絡觀察未標記的視頻來估計單個圖像中的3D幾何形狀正引發重大關注。在本文中,咱們在管線內引入了一種「3D儘量平滑(3D-ASAP)」的技術,該技術可實現對邊緣和三維場景的聯合估計,從而得到精細細緻結構精度顯着提升的結果。具體來講,咱們先定義3D-ASAP,若是沒有提供其餘線索,則要求從3D圖像恢復的任何兩點都應位於現有平面上。咱們設計了一個無人監督框架,一次完成學習邊緣和幾何(深度,正常)(LEGO)。預測邊被嵌入到深度和表面法線平滑項中,其中沒有邊之間的像素被約束以知足先驗。在咱們的框架中,預測的深度,法線和邊緣被迫始終保持一致。咱們在KITTI上進行實驗以評估咱們估計的幾何圖形和城市景觀以執行邊緣評估。咱們展現了在全部任務中,即深度,正常和邊緣,咱們的算法大大優於其餘最早進的(SOTA)算法,證實了咱們方法的好處。
arXiv:https://arxiv.org/abs/1803.05648
[12]《Fast End-to-End Trainable Guided Filter》
Accepted by CVPR 2018
Abstract:經過利用深度學習的功能,圖像處理和像素密集預測獲得了進一步發展。深度學習的一箇中心問題是處理聯合上採樣(upsampling)的能力有限。咱們爲聯合上採樣提供了一個深度學習構建模塊,即引導濾波層。該層旨在高效地生成高分辨率輸出,並給出相應的低分辨率輸出和高分辨率制導圖。所提出的層由導向濾波器組成,該濾波器被從新配置爲徹底可微分塊。爲此,咱們證實了一個引導濾波器能夠表示爲一組空間變化的線性變換矩陣。該層能夠與卷積神經網絡(CNN)集成並經過端到端訓練進行聯合優化。爲了進一步利用端到端培訓,咱們插入了一個可訓練的轉換函數,能夠生成特定於任務的指導圖。經過整合CNN和提出的層,咱們造成深度導向濾波網絡。擬議的網絡在五個高級圖像處理任務上進行評估。 MIT-Adobe FiveK數據集上的實驗代表,所提出的方法運行速度提升了10-100倍,並達到了最早進的性能。咱們還代表,提出的引導過濾層有助於提升多個像素密集預測任務的性能。該代碼可在此https://github.com/wuhuikai/DeepGuidedFilter中找到
arXiv:https://arxiv.org/abs/1803.05619
homepage:http://wuhuikai.me/DeepGuidedFilterProject/
github:https://github.com/wuhuikai/DeepGuidedFilter
[13]《Improving Object Counting with Heatmap Regulation》
Abstract:在本文中,咱們提出了一種簡單而有效的方法來改善從圖像中進行物體計數的單外觀迴歸模型。咱們使用類激活地圖可視化來講明學習計數任務的純粹一看回歸模型的缺點。基於這些看法,咱們經過調整來自網絡最終卷積層的激活圖與簡單點註釋生成的粗糙地面真實激活圖來加強單看回歸計數模型。咱們將這種策略稱爲熱圖調節(HR)。咱們代表,這種簡單的加強有效地抑制了由相應的一眼基線模型生成的錯誤檢測,而且還改善了假陰性方面的性能。在四個不一樣的計數數據集上進行評估 - 兩個用於汽車計數(CARPK,PUCPR +),一個用於人羣計數(WorldExpo),另外一個用於生物細胞計數(VGG-Cells)。與簡單的單一基準模型相比,將HR添加到簡單的VGG前端能夠提升全部這些基準測試的性能,併爲汽車計數帶來最早進的性能。
arXiv:https://arxiv.org/abs/1803.05494