【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

今日CS.CV 計算機視覺論文速覽
Wed, 19 Jun 2019
Totally 39 papers
👉上期速覽更多精彩請移步主頁
📩📩📩📩📩📩
📨小嚐試:👉留言 郵箱地址及時獲悉論文速覽
ios

在這裏插入圖片描述

Interesting:

📚基於人體姿式生成時尚衣着圖像, 提出了一種將主體的時尚圖像從某個姿式遷移到新的體態姿式上去。這一模型包含了兩個判別器和一個生成器。其中生成器包含了姿式編碼器、圖像編碼器以及對應的解碼器,兩個編碼器獲得的特徵表達將被用於新圖像合成。與傳統方法不一樣的是兩個判別器用於指導模型學習,一個用於判別生成圖像與訓練樣本,領域各用於驗證生成圖像與姿式間的連續性。(from 北卡大學 JD OPPO)
在這裏插入圖片描述
姿式的編碼器Dp保證了生成圖像姿式的連續性!
與相關方法的比較:
在這裏插入圖片描述
獲得的結果:
在這裏插入圖片描述git

dataset: DeepFashion [16] and Market-1501 [37].
ref:時尚相關的圖像任務smart photo editing, movie making, virtual try-on, and fashion display

github

📚合成數據用於預測密集堆疊類似物體的邊界, 邊界方向檢測主要經過預測任一類別實例的邊界和對應的遮擋部分來實現,研究人員提出了共享編碼器的兩個解碼器架構,從單張RGB中同時預測出邊界和未遮擋面。研究人員還合成了Mikado數據集來評測物體間相互遮擋的狀況(from France ´Universit´e de Lyon)
獲得的結果和對應的模型,共享編碼器的兩個解碼器和之間的額調節層共享信息。
在這裏插入圖片描述
使用的數據集和其中互相遮擋的物體:
在這裏插入圖片描述構建數據的過程,在邊界處高的設爲1低的設爲0,獲得了上下物體的朝向:
在這裏插入圖片描述
用於合成數據的材質和背景:
在這裏插入圖片描述
各類不一樣模型的變種:
在這裏插入圖片描述
ref:
Oriented Edge Forests for Boundary Detection
https://github.com/samhallman/oef
edge detection ref:
R. Deng, C. Shen, S. Liu, H. Wang, X. Liu, Learning to Predict Crisp Boundaries, in ECCV 18
Y. Wang, X. Zhao, K. Huang, Deep Crisp Boundaries, in CVPR (IEEE Computer Society, 2017), Convolutional Features for Edge Detection
J. Yang, B.L. Price, S. Cohen, H. Lee, M.H. Yang, Object Contour Detection with a Fully Convolutional EncoderDecoder Network, in CVPR (IEEE Computer Society, 2016),
O. Ronneberger, P. Fischer, T. Brox, U-Net: Convolutional Networks for Biomedical Image Segmentation
S. Xie, Z. Tu, Holistically-Nested Edge Detection, in ICCV15

web

📚DeepView新視角合成方法,基於學習到的梯度降低, 經過稀疏的視點和多平面圖像(multiplane image ,MPI,不一樣深度的圖像層)),研究人員在學習到的梯度降低方法上提出了新的視角合成方法,能夠有效處理物體邊界、遮擋、光反射、薄壁結構、深度複雜等場景。(from 谷歌)
經過重建和梯度降低來獲得MPI圖像,最後既能夠渲染出不一樣視角的圖像:
gradients have a particularly intuitive form in that they encode the visibility information between the input views and the MPI layers! MPI render image!
在這裏插入圖片描述
可學習的梯度降低過程,基於初始化的MPI不斷利用相同結構的CNN,根據計算出的梯度來更新MPI:
在這裏插入圖片描述
更新CNN的架構以下:
在這裏插入圖片描述
獲得的合成視角結果:
在這裏插入圖片描述
dataset:Spaces
web:https://augmentedperception.github.io/deepview/
ref:learned gradient descent:https://github.com/adler-j/learned_gradient_tomography
++paper:https://arxiv.org/pdf/1704.04058.pdf

算法

📚三維幾何隱含模式分析和三維Mesh, 提出了基於mesh的幾何紋理分析,將用戶尺度和3Dmesh做爲輸入,並生成基於類似度的紋理聚類,和有意義的分類。不一樣尺度對於特徵的描述和抽取是不一樣的,經過用戶定義的尺度來分割和抽取並分類幾何紋理。(from Clermont Universit´e, Universit´e d’Auvergne)
在這裏插入圖片描述
code:https://github.com/AliceOTHMANI/3D-Geometric-Texture-Segmentation

數據庫


Daily Computer Vision Papers

**Weather Influence and Classification with Automotive Lidar Sensors
Authors Robin Heinzler, Philipp Schindler, J rgen Seekircher, Werner Ritter, Wilhelm Stork
激光雷達傳感器一般用於移動機器人和自動駕駛車輛,以補充攝像機,雷達和超聲波傳感器以得到環境感知。一般,感知算法被訓練爲僅檢測移動和靜態對象以及地面估計,但故意忽略天氣效應以減小錯誤檢測。在這項工做中,咱們對惡劣天氣條件下的汽車激光雷達性能進行了深刻分析,即大雨和濃霧。已經記錄了針對各類霧和雨條件的大量數據集,這是在不斷變化的環境條件下對點雲進行深度分析的基礎。此外,咱們介紹了一種僅用激光雷達傳感器檢測和分類雨或霧的新方法,並在受控環境中實現了數據集97.14的交叉平均聯合。天氣對激光雷達傳感器性能的影響分析和天氣檢測是提升可靠信息以適應車輛行爲的重要步驟,旨在提升惡劣天氣條件下自動駕駛的安全水平。

***ADA-Tucker: Compressing Deep Neural Networks via Adaptive Dimension Adjustment Tucker Decomposition
Authors Zhisheng Zhong, Fangyin Wei, Zhouchen Lin, Chao Zhang
儘管最近在許多應用中成功地使用了深度學習模型,可是它們在移動設備上的普遍使用受到存儲和計算要求的嚴重阻礙。在本文中,咱們提出了一種新的網絡壓縮方法,稱爲自適應尺寸調整Tucker分解ADA Tucker。藉助可學習的核心張量和變換矩陣,ADA Tucker執行任意階數張量的Tucker分解。此外,咱們建議在具備適當順序和平衡維度的網絡中的權重張量更容易壓縮。所以,分解選擇的高度靈活性將ADA Tucker與以前的全部低級別模型區分開來。爲了壓縮更多,咱們經過爲全部層定義共享核心張量,進一步將模型擴展到Shared Core ADA Tucker SCADA Tucker。咱們的方法不須要記錄非零元素索引的開銷。在不損失準確性的狀況下,咱們的方法分別以691倍和233倍的比率減小LeNet 5和LeNet 300的存儲,顯着優於現有技術水平。咱們的方法的有效性也在其餘三個基準CIFAR 10,SVHN,ILSVRC12和現代新深度網絡ResNet,Wide ResNet上進行了評估。

A Weakly Supervised Learning Based Clustering Framework
Authors Mustafa Umit Oner, Hwee Kuan Lee, Wing Kin Sung
本文提出了一種基於弱監督學習的聚類框架。做爲該框架的核心,咱們引入了一個基於包級別標籤的新型多實例學習任務,稱爲惟一類計數ucc,它是包中全部實例中惟一類的數量。在此任務中,在模型訓練期間不須要對包內的各個實例進行註釋。咱們在數學上證實了一個完美的ucc分類器,原則上能夠用來完美地彙集袋內的個體實例。換句話說,即便在訓練期間沒有給出關於個體實例的註釋,也能夠完美地聚類個體實例。咱們構建了一個基於神經網絡的ucc分類器,並經過實驗證實咱們的ucc分類器框架的聚類性能與徹底監督學習模型的聚類性能至關。咱們還觀察到,咱們的ucc分類器能夠潛在地用於零射擊學習,由於他們學習更好的語義特徵而不是徹底監督的模型用於看不見的類,這些模型在訓練期間從未輸入到模型中。

3D Geometric salient patterns analysis on 3D meshes
Authors Alice Othmani, Fakhri Torkhani, Jean Marie Favreau
模式分析是一個普遍的領域,在許多領域具備普遍的適用性。實際上,紋理分析是這些領域之一,由於紋理被定義爲一組重複或準重複模式。儘管在分析三維網格物體方面具備重要意義,但幾何處理社區對幾何紋理分析的研究較少。本文提出了一種新的三維三角網格幾何紋理分析的有效方法。所提出的方法是尺度感知方法,其將3D網格和用戶尺度做爲輸入。所以,它提供了基於類似性的有意義類別中的紋素的聚類。所提出的算法的實驗結果被呈現用於各類紋理內的真實世界和合成網格。此外,所提出的方法的效率在網格簡化和網格表面上的噪聲添加下經過實驗證實。在本文中,咱們提出了三維幾何突出紋理的語義標註的實際應用。

Learning with Average Precision: Training Image Retrieval with a Listwise Loss
Authors Jerome Revaud, Jon Almazan, Rafael Sampaio de Rezende, Cesar Roberto de Souza
圖像檢索能夠被表述爲排名問題,其目標是經過減小與查詢的類似性來對數據庫圖像進行排序。最近的深度圖像檢索模型經過利用排序量身定製的損失函數優於傳統方法,但仍然存在重要的理論和實際問題。首先,它們不是直接優化全局排名,而是最小化基本損失的上限,這不必定致使最佳平均平均精度mAP。其次,這些方法須要大量的工程努力才能很好地工做,例如特殊的預訓練和硬負的採礦。在本文中,咱們建議經過利用列表損失公式的最新進展直接優化全球mAP。使用直方圖分級近似,能夠區分AP,從而用於端到端學習。與現有損失相比,所提出的方法在每次迭代時同時考慮數千個圖像,而且消除了對特殊技巧的須要。它還在許多標準檢索基準上創建了新的技術水平。模型和評估腳本已在

***稠密人臉檢測Locate, Size and Count: Accurately Resolving People in Dense Crowds via Detection
Authors Deepak Babu Sam, Skand Vishwanath Peri, Mukuntha N. S., Amogh Kamath, R. Venkatesh Babu
咱們引入了密集人羣計數的檢測框架,並消除了對廣泛密度迴歸範例的需求。典型的計數模型預測圖像的人羣密度,而不是檢測每一個人。一般,這些迴歸方法沒法爲除計數之外的大多數應用程序準確地定位人員。所以,咱們採用一種架構,定位人羣中的每一個人,用邊界框對斑點頭進行大小調整而後對其進行計數。與普通物體或面部檢測器相比,在設計這種檢測系統時存在某些獨特的挑戰。其中一些是密集人羣中巨大多樣性的直接後果,同時須要連續預測盒子。咱們解決了這些問題並開發了咱們的LSC CNN模型,該模型能夠可靠地檢測稀疏人羣中的人羣。 LSC CNN採用多列體系結構,具備自上而下的反饋處理功能,能夠更好地解決人員並在多種分辨率下生成精確的預測。有趣的是,建議的訓練方案僅須要點頭註釋,但能夠估計頭部的近似大小信息。咱們代表LSC CNN不只具備優於現有密度迴歸器的定位,並且在計數方面也表現優異。咱們的方法代碼可在如下網址找到

Impoved RPN for Single Targets Detection based on the Anchor Mask Net
Authors Mingjie Li, Youqian Feng, Zhonghai Yin, Cheng Zhou, Fanghao Dong
共同目標檢測一般基於單幀圖像,其易受圖像中相似目標的影響而不適用於視頻圖像。本文提出了錨定掩模來增長目標檢測的先驗知識,並設計了錨定掩模網絡,以提升單目標檢測的RPN性能。通過VOT2016測試,該型號表現更佳。

A One-step Pruning-recovery Framework for Acceleration of Convolutional Neural Networks
Authors Dong Wang, Lei Zhou, Xiao Bai, Jun Zhou
在過去的幾年中,卷積神經網絡的加速受到愈來愈多的關注。在各類加速技術中,濾波器修剪經過有效減小卷積濾波器的數量而具備其固有的優勢。然而,大多數過濾器修剪方法採用冗長且耗時的逐層修剪恢復策略以免顯着的精度降低。在本文中,咱們提出了一個有效的過濾器修剪框架來解決這個問題。咱們的方法經過一種新穎的優化目標函數以一步修剪恢復方式加速網絡,與現有的修剪方法相比,該方法實現了更高的精度和更低的成本。此外,咱們的方法容許使用全局過濾器修剪進行網絡壓縮。給定全局修剪速率,它能夠自適應地肯定每一個單個卷積層的修剪速率,而這些速率一般在先前的方法中被設置爲超參數。使用ImageNet對VGG 16和ResNet 50進行評估,咱們的方法優於幾種最早進的方法,在相同甚至更少的浮點運算FLOP下,精度降低更少。

Bicameral Structuring and Synthetic Imagery for Jointly Predicting Instance Boundaries and Nearby Occlusions from a Single Image
Authors Matthieu Grard imagine , Liming Chen imagine , Emmanuel Dellandr a imagine
定向邊界檢測是一項具備挑戰性的任務,旨在描繪類別不可知對象實例並從單個RGB圖像推斷其空間佈局。用於該任務的現有技術深度卷積網絡依賴於分別預測邊界和遮擋的兩個獨立流,儘管二者都須要相似的局部和全局線索,而且遮擋致使邊界。所以,咱們提出了一種徹底卷積的兩室結構,由兩個共享一個深度編碼器的級聯解碼器組成,經過跳過鏈接徹底連接以組合局部和全局特徵,用於聯合預測實例邊界及其未被遮擋的一側。此外,現有技術數據集包含具備少許實例和遮擋的真實圖像,這主要是因爲遮擋背景的對象,從而在實例之間缺乏有意義的遮擋。爲了評估密集的對象堆的丟失場景,咱們引入了合成數據Mikado,其可擴展地包含比PASCAL實例遮擋數據集PIOD,COCO Amodal數據集COCOA和密集分段超市Amodal更多的實例和每一個圖像的實例間遮擋。數據集D2SA。咱們代表,所提出的網絡設計優於PIOD和Mikado的定向邊界檢測的兩個流基線和替代方案,以及COCOA上的氨基分割方法。咱們在D2SA上的實驗也代表,Mikado在某種意義上是合理的,由於它能夠學習可轉換爲真實數據的性能加強表示,同時大大減小了對微調的手工註釋的需求。

Locality Preserving Joint Transfer for Domain Adaptation
Authors Li Jingjing, Jing Mengmeng, Lu Ke, Zhu Lei, Shen Heng Tao
域適應旨在利用來自良好標記的源域的知識到標記不良的目標域。大多數現有做品在特徵級別或樣本級別上傳輸知識。最近的研究代表,兩種範式都很是重要,優化其中一種能夠強化另外一種範式。受此啓發,咱們提出了一種新方法,經過地標選擇共同利用特徵適應與分佈匹配和樣本適應。在知識轉移過程當中,咱們還考慮了樣本之間的局部一致性,以便保留樣本的流形結構。最後,咱們部署標籤傳播來預測新實例的類別。值得注意的是,咱們的方法適用於經過學習領域特定預測進行同構和異構域適應。五個開放基準測試(包括標準數據集和大規模數據集)的大量實驗驗證了咱們的方法不只能夠顯着優於傳統方法,還能夠優於端到端深度模型。實驗還代表,咱們能夠利用手工製做的功能,經過異構適應來提升深度特徵的準確性。

Using colorization as a tool for automatic makeup suggestion
Authors Shreyank Narayana Gowda
着色是將灰度圖像轉換爲全綵色圖像的方法。有多種方法能夠作到這一點。舊學校方法使用機器學習算法和優化技術來建議可能使用的顏色。隨着深度學習領域的進步,着色結果隨着深度學習架構的改進而不斷改進。深度學習領域的最新發展是生成對抗性網絡GAN的出現,它用於生成信息而不只僅是預測或分類。做爲本報告的一部分,最近的論文的2個架構被複制,同時建議用於通常着色的新穎架構。在此以後,咱們建議經過在臉上自動生成化妝建議來使用着色。爲此,已建立由1000個圖像組成的數據集。當沒有化妝的人的圖像被髮送到模型時,模型首先將圖像轉換爲灰度,而後將其傳遞給建議的GAN模型。輸出是生成的化妝建議。爲了開發這個模型,咱們須要調整通常的着色模型,只處理人臉。

***Neural Illumination: Lighting Prediction for Indoor Environments
Authors Shuran Song, Thomas Funkhouser
本文討論了估計從全部方向到達在RGB圖像中的所選像素處觀察到的3D點的光的任務。此任務具備挑戰性,由於它須要預測從相機的部分場景觀察到選定位置的完整照明地圖的映射,這取決於選擇的3D位置,未觀察到的光源的分佈,由場景引發的遮擋先前的方法試圖使用單個黑盒神經網絡直接學習這種複雜的映射,這一般沒法估計具備複雜3D幾何的場景的高頻照明細節。相反,咱們提出神經照明一種新方法,將照明預測分解爲幾個更簡單的可微分子任務1幾何估計,2場景完成和3 LDR到HDR估計。這種方法的優勢是子任務相對容易學習,而且能夠經過直接監督進行培訓,而整個管道徹底能夠區分,而且能夠經過端到端監督進行微調。實驗代表,咱們的方法在數量和質量上都比之前的工做表現得更好。

A sparse annotation strategy based on attention-guided active learning for 3D medical image segmentation
Authors Zhenxi Zhang, Jie Li, Zhusi Zhong, Zhicheng Jiao, Xinbo Gao
三維圖像分割是醫學圖像處理中最重要和最廣泛的問題之一。它爲準確的疾病診斷,異常檢測和分類提供詳細的定量分析。目前,深度學習算法被普遍應用於醫學圖像分割,大多數算法訓練具備徹底註釋數據集的模型。然而,得到醫學圖像數據集是很是困難和昂貴的,而且3D醫學圖像的完整註釋是單調且耗時的工做。在3D圖像中部分標記信息切片將是手動註釋的極大緩解。已經在2D圖像領域中提出了基於主動學習的樣本選擇策略,可是不多有策略關注於3D圖像。在本文中,咱們提出了一種基於注意力引導主動學習的三維醫學圖像分割稀疏註釋策略。注意機制用於提升分割準確度並估計每一個切片的分割準確度。使用來自開發人類鏈接組項目dHCP的數據集的三種不一樣策略的對比實驗代表,咱們的策略在腦提取任務中僅須要15至20個註釋切片,而且在組織分割任務中須要30至35個註釋切片以實現做爲完整註釋的比較結果。

Neural Multi-Scale Self-Supervised Registration for Echocardiogram Dense Tracking
Authors Wentao Zhu, Yufang Huang, Mani A Vannan, Shizhen Liu, Daguang Xu, Wei Fan, Zhen Qian, Xiaohui Xie
超聲心動圖已常常規用於心肌病和心臟血流異常的診斷。然而,手動測量來自超聲心動圖的心肌運動和心臟血流是耗時且容易出錯的。可以自動跟蹤和量化心肌運動和心臟血流的計算機算法受到高度追捧,但因爲噪聲和超聲心動圖的高度可變性而未能取得很大成功。在這項工做中,咱們提出了一種神經多尺度自監督登記NMSR方法,用於自動心肌和心臟血流密集跟蹤。 NMSR結合了兩個新穎的組件1,利用深度神經網絡來參數化兩個圖像幀之間的速度場,而且2以連續的多尺度方式優化神經網絡的參數以解決速度場內的大的變化。實驗證實,對於心肌和心臟血流密集跟蹤,NMSR產生比現有技術方法(例如高級標準化工具ANT和VoxelMorph)明顯更好的配準精度。咱們的方法有望提供一種全自動的方法,用於快速準確地分析超聲心動圖。

Boosting CNN beyond Label in Inverse Problems
Authors Eunju Cha, Jaeduck Jang, Junho Lee, Eunha Lee, Jong Chul Ye
卷積神經網絡CNN已被普遍用於逆問題。然而,因爲僅使用所選數據訓練神經網絡而且它們的架構主要被認爲是黑盒子,所以難以預先估計它們對於看不見的測試數據的預測偏差。這對於無監督學習或超出標籤的改進的神經網絡提出了根本性挑戰。在本文中,咱們代表最近的無監督學習方法,如Noise2Noise,Stein s無誤差風險估計器SURE爲基礎的降噪器,以及Noise2Void在制定預測偏差的無偏估計時彼此密切相關,但它們中的每個都是與其自身的侷限性有關。基於這些觀察,咱們爲預測偏差提供了一種新穎的加強估計器。特別地,經過採用編碼器解碼器CNN的組合卷積幀表示並將其與批量歸一化協同地組合,咱們提供了用於預測偏差的無偏估計的緊密形式公式,其能夠被最小化以用於超出標籤的神經網絡訓練。實驗結果代表,所獲得的算法,咱們稱之爲Noise2Boosting,在監督和非監督學習設置下的各類逆問題中提供了一致的改進。

DeepView: View Synthesis with Learned Gradient Descent
Authors John Flynn, Michael Broxton, Paul Debevec, Matthew DuVall, Graham Fyffe, Ryan Overbeck, Noah Snavely, Richard Tucker
咱們提出了一種使用多平面圖像MPI查看合成的新方法。基於學習梯度降低的最新進展,咱們的算法從一組稀疏相機視點生成MPI。所獲得的方法結合了遮擋推理,提升了具備挑戰性的場景特徵的性能,例如物體邊界,光照反射,薄結構和具備高深度複雜度的場景。咱們展現了咱們的方法在Kalantari光場數據集的兩個數據集上實現了高質量,最早進的結果,以及咱們公開提供的新的相機陣列數據集Spaces。

**Using Discriminative Methods to Learn Fashion Compatibility Across Datasets
Authors Kedan Li, Chen Liu, Ranjitha Kumar, David Forsyth
肯定一對服裝是否彼此相容是一個具備挑戰性的匹配問題。過去的做品探索了各類嵌入方法來學習這種關係。本文經過將任務公式化爲一個簡單的二元分類問題,介紹了使用判別方法來學習兼容性。咱們使用由非專家建立的既定服裝數據集來評估咱們的方法,並證實了對現有技術方法的既定指標的改進2.5。咱們介紹了三個專業策劃服裝的新數據集,並展現了咱們在專家策劃數據集上的一致性能。爲了便於比較各個裝備數據集,咱們提出了一個新的度量標準,與之前使用的度量標準不一樣,它不會受到服裝平均大小的誤差。咱們還證實了兩種類型的項之間的兼容性能夠間接查詢,而且這種查詢策略能夠產生改進。

Content-aware Density Map for Crowd Counting and Density Estimation
Authors Mahdi Maktabdar Oghaz, Anish R Khadka, Vasileios Argyriou, Paolo Remagnino
關於人羣規模,密度和流量的精確知識能夠爲安全和安全應用,活動規劃,建築設計和分析消費者行爲提供有價值的信息。建立一個功能強大的機器學習模型,用於此類應用程序須要一個大而高度準確和可靠的數據集。不幸的是,現有的人羣計數和密度估計基準數據集不只在其大小方面受到限制,並且缺少註釋,一般實施起來太耗時。本文試圖經過內容感知技術解決這個問題,使用Chan Vese分割算法,二維高斯濾波器和強力最近鄰搜索的組合。結果代表,經過簡單地用所提出的方法替換經常使用的密度圖生成器,使用現有技術模型能夠實現更高的準確度。

***Pose Guided Fashion Image Synthesis Using Deep Generative Model
Authors Wei Sun, Jawadul H. Bappy, Shanglin Yang, Yi Xu, Tianfu Wu, Hui Zhou
生成具備預期人體姿式的逼真圖像是許多應用的有前途但具備挑戰性的研究課題,例如智能照片編輯,電影製做,虛擬試穿和時尚顯示。在本文中,咱們提出了一種新的深度生成模型,用於將人的圖像從給定姿式轉移到新姿式,同時保持時尚項目的一致性。爲了制定框架,咱們使用一個發生器和兩個鑑別器進行圖像合成。該生成器包括圖像編碼器,姿式編碼器和解碼器。兩個編碼器提供視覺和幾何上下文的良好表示,解碼器將利用該上下文來生成照片級真實感圖像。與現有的姿式引導圖像生成模型不一樣,咱們利用兩個鑑別器來指導合成過程,其中一個鑑別器區分生成的圖像和真實圖像訓練樣本,另外一個鑑別器驗證目標姿式和生成的圖像之間的外觀一致性。咱們進行網絡的端到端訓練,經過給定地面實況圖像的反向傳播來學習參數。所提出的生成模型可以合成給定目標姿式的人的照片級真實感圖像。咱們經過對兩個數據集進行嚴格的實驗來證實咱們的結果,包括定量和定性。

**Hardware Aware Neural Network Architectures using FbNet
Authors Sai Vineeth Kalluru Srinivas, Harideep Nair, Vinay Vidyasagar
咱們實施了一個受FBNet啓發的可微分神經架構搜索NAS方法,用於發現針對特定目標設備進行了大量優化的神經網絡。 FBNet NAS方法經過優化損失函數來發現來自給定搜索空間的神經網絡,該函數考慮了準確性和目標設備延遲。咱們經過添加能量項來擴展這種損失函數。這將有可能加強硬件意識,並幫助咱們找到在準確性,延遲和能耗方面最佳的神經網絡架構,在咱們的案例中給定目標設備Raspberry Pi。咱們將在搜索過程結束時得到的訓練有素的兒童架構命名爲硬件感知神經網絡架構HANNA。咱們經過將HANNA與針對移動嵌入式應用設計的另外兩個最早進的神經網絡(即MobileNetv2和用於CIFAR 10數據集的CondenseNet)進行基準測試來證實咱們的方法的有效性。咱們的研究結果代表,與MobileNetv2和CondenseNet相比,HANNA提供了大約2.5倍和1.7倍的加速,而且能耗下降了3.8倍和2倍。 HANNA可以在最早進的基線上提供如此顯着的加速和能效優點,其成本是可承受的精度降低4 5。https://github.com/hpnair/18663_Project_FBNet

PolSAR Image Classification based on Polarimetric Scattering Coding and Sparse Support Matrix Machine
Authors Xu Liu, Licheng Jiao, Dan Zhang, Fang Liu
POLSAR圖像優於光學圖像,由於它能夠獨立於雲層和太陽能照明而得到。 PolSAR圖像分類是解釋POLSAR圖像的熱門話題。本文提出了一種基於極化散射編碼和稀疏支持矩陣機的POLSAR圖像分類方法。首先,咱們經過極化散射編碼轉換原始POLSAR數據以得到實數值矩陣,其被稱爲極化散射矩陣而且是稀疏矩陣。其次,稀疏支持矩陣機用於對稀疏極化散射矩陣進行分類,獲得分類圖。這兩個步驟的結合充分考慮了POLSAR的特色。實驗結果代表,該方法能夠取得較好的效果,是一種有效的分類方法。

High Speed and High Dynamic Range Video with an Event Camera
Authors Henri Rebecq, Ren Ranftl, Vladlen Koltun, Davide Scaramuzza
事件相機是新穎的傳感器,它以異步事件流的形式報告亮度變化而不是強度幀。相對於傳統相機,它們具備顯着優點,具備高時間分辨率,高動態範圍和無運動模糊。雖然事件流原則上編碼完整的視覺信號,可是從事件流中重建強度圖像在實踐中是一個不適當的問題。現有的重建方法基於手工製做的先驗和關於成像過程的強烈假設以及天然圖像的統計。在這項工做中,咱們建議學習直接從數據重建事件流的強度圖像,而不是依賴於任何手工製做的先驗。咱們提出了一種新穎的循環網絡,用於從事件流中重建視頻,並在大量模擬事件數據上進行訓練。在訓練期間,咱們建議使用感知損失來鼓勵重建遵循天然圖像統計。咱們進一步擴展了從顏色事件流合成彩色圖像的方法。咱們的網絡在圖像質量方面20大幅度超越了最早進的重建方法,同時實時溫馨地運行。咱們代表網絡可以合成高速現象每秒5,000幀的高幀率視頻,例如子彈擊中物體並可以在具備挑戰性的照明條件下提供高動態範圍重建。咱們還證實了咱們的重建做爲事件數據的中間表示的有效性。咱們展現了現成的計算機視覺算法能夠應用於咱們的重建任務,如對象分類和視覺慣性測距,而且該策略始終優於專爲事件數據設計的算法。

Expressing Visual Relationships via Language
Authors Hao Tan, Franck Dernoncourt, Zhe Lin, Trung Bui, Mohit Bansal
用文本描述圖像是視覺語言研究中的基本問題。該領域目前的研究主要集中在單圖像字幕上。然而,在各類實際應用中,例如,圖像編輯,差別解釋和檢索,生成兩個圖像的關係字幕也是很是有用的。因爲缺少數據集和有效模型,這一重要問題還沒有獲得探索。爲了推動這方面的研究,咱們首先介紹一種新的語言引導圖像編輯數據集,其中包含大量具備相應編輯指令的真實圖像對。而後,咱們提出了一種新的關係說話人模型,該模型基於編碼器解碼器架構,具備靜態關係注意和順序多頭注意。咱們還經過動態關係注意擴展模型,計算解碼時的視覺對齊。咱們的模型在咱們新收集的和兩個公共數據集上進行評估,這些數據集由用關係句註釋的圖像對組成。基於自動和人工評估的實驗結果代表,咱們的模型優於全部數據集的全部基線和現有方法。

Multiclass segmentation as multitask learning for drusen segmentation in retinal optical coherence tomography
Authors Rhona Asgari, Jos Ignacio Orlando, Sebastian Waldstein, Ferdinand Schlanitz, Magdalena Baratsits, Ursula Schmidt Erfurth, Hrvoje Bogunovi
視網膜光學相干斷層掃描中的自動玻璃疣分割OCT掃描與瞭解年齡相關性黃斑變性AMD風險和進展相關。該任務一般經過分割定義玻璃疣的頂部底部解剖界面,視網膜色素上皮OBRPE的外邊界和布魯赫膜BM來進行。在本文中,咱們提出了一種新的多解碼器架構,它將玻璃疣分割做爲一個多任務問題來解決。咱們不是爲OBRPE BM分段訓練多類模型,而是針對每一個目標類使用一個解碼器,而針對層之間的區域使用額外的解碼器。咱們還引入了每一個類特定分支和附加解碼器之間的鏈接,以增長該代理任務的正則化效果。咱們分別使用166個早期中間AMD Spectralis,200個AMD和控制Bioptigen OCT捲來驗證咱們對私有公共數據集的方法。咱們的方法在層和玻璃疣分割評估中始終優於幾個基線。

Differentiable probabilistic models of scientific imaging with the Fourier slice theorem
Authors Karen Ullrich, Rianne van den Berg, Marcus Brubaker, David Fleet, Max Welling
科學成像技術,如光學和電子顯微鏡和計算機斷層掃描CT掃描,用於經過2D觀察研究物體的三維結構。這些觀察經過正交積分投影與原始3D對象相關。對於常見的3D重建算法,計算效率要求經過應用傅立葉切片定理對3D結構進行建模以在傅立葉空間中進行。目前,尚不清楚如何經過投影算子進行區分,所以當前的學習算法不能依賴基於梯度的方法來優化3D結構模型。在本文中,咱們展現瞭如何經過傅立葉空間中的投影算子實現反向傳播。咱們經過蛋白質三維重建實驗證實了該方法的有效性。咱們進一步擴展了咱們學習3D對象機率模型的方法。這使咱們可以預測低採樣率的區域或估計噪聲。經過利用3D結構的學習不肯定性做爲模型擬合的無監督估計,能夠得到更高的樣本效率。最後,咱們演示瞭如何使用對象姿態等未知屬性的攤銷推理方案來擴展重建算法。經過實證研究,咱們代表,當地面實況對象包含更多對稱性時,3D結構和對象姿式的聯合推理變得更加困難。因爲存在例如近似旋轉對稱性,姿式估計可能容易陷入局部最優,從而抑制3D結構的細粒度高質量估計。

An Attention-Guided Deep Regression Model for Landmark Detection in Cephalograms
Authors Zhusi Zhong, Jie Li, Zhenxi Zhang, Zhicheng Jiao, Xinbo Gao
頭影測量追蹤法一般用於正畸診斷和治療計劃。在本文中,咱們提出了一個基於深度學習的框架,以自動檢測頭部測量X射線圖像中的解剖標誌。咱們訓練深度編碼器解碼器用於地標檢測,並將全局地標配置與局部高分辨率特徵響應相結合。所提出的框架工做基於2階段網絡,迴歸用於地標檢測的多通道熱圖。在這個框架中,咱們將注意機制與全局階段熱圖嵌入,引導局部推斷,以高分辨率迴歸局部熱圖貼片。此外,擴展探索策略在推斷時證實了魯棒性,在不增長模型複雜性的狀況下擴展了搜索範圍。咱們已經在最普遍使用的頭部測量X射線圖像中的地標檢測公共數據集中評估了咱們的框架。經過較少的計算和手動調整,咱們的框架實現了最早進的結果。

Deep Learning Enhanced Extended Depth-of-Field for Thick Blood-Film Malaria High-Throughput Microscopy
Authors Petru Manescu, Lydia Neary Zajiczek, Michael J. Shaw, Muna Elmi, Remy Claveau, Vijay Pawar, John Shawe Taylor, Iasonas Kokkinos, Mandayam A. Srinivasan, Ikeoluwa Lagunju, Olugbemiro Sodeinde, Biobele J. Brown, Delmiro Fernandez Reyes
快速準確的瘧疾診斷仍然是全球性的健康挑戰,自動化數字病理學方法能夠提供適合在中低收入國家部署的可擴展解決方案。在這裏,咱們解決了厚血膜顯微鏡中擴展景深EDoF的問題,用於快速自動化瘧疾診斷。一般優選具備大數值孔徑的高放大率油物鏡100x以解決有助於將真實寄生蟲與干擾物分開的精細結構細節。然而,這樣的物鏡具備很是有限的景深,須要在每一個視場FOV的不一樣焦平面處獲取一系列圖像。基於多尺度分解的當前EDoF技術是耗時的,所以不適合於樣品的高通量分析。爲了克服這一挑戰,咱們開發了一種基於卷積神經網絡EDoF CNN的新型深度學習方法,該方法可以快速執行擴展景深,同時還加強了所得融合圖像的空間分辨率。咱們使用來自患有惡性瘧原蟲瘧疾的患者的Giemsa染色的厚血塗片的模擬低分辨率z疊層來評估咱們的方法。與傳統的多尺度方法相比,EDoF CNN能夠加速咱們的數字病理採集平臺並顯着提升EDoF的質量,適用於較低分辨率的堆棧,對應於採用較少焦平面,大型相機像素分級或較低放大倍率物鏡的採集FOV。咱們使用EDoF上深度學習模型的寄生蟲檢測精度做爲該方法性能的具體的,任務特定的度量。

Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss
Authors Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, Tengyu Ma
當訓練數據集遭受嚴重的類不平衡時,深度學習算法可能會不好,但測試標準要求對頻率較低的類進行良好的推廣。咱們設計了兩種新方法來改善這種狀況下的性能。首先,咱們提出了一個理論上有原則的標籤分佈感知邊際LDAM損失,其動機是經過最小化基於邊緣的泛化界限。這種損失取代了訓練期間的標準交叉熵目標,而且能夠應用於先前的類別不平衡訓練策略,例如從新加權或從新採樣。其次,咱們提出了一個簡單但有效的培訓計劃,該計劃將從新加權推遲到初始階段以後,容許模型學習初始表示,同時避免與從新加權或從新採樣相關的一些複雜性。咱們在幾個基準視覺任務上測試咱們的方法,包括真實世界不平衡數據集iNaturalist 2018.咱們的實驗代表,這些方法中的任何一個均可以比現有技術有所改進,而且它們的組合能夠實現更好的性能提高。

Active Scene Understanding via Online Semantic Reconstruction
Authors Lintao Zheng, Chenyang Zhu, Jiazhao Zhang, Hang Zhao, Hui Huang, Matthias Niessner, Kai Xu
咱們提出了一種基於在線RGBD重建和語義分割的機器人操做主動理解未知室內場景的新方法。在咱們的方法中,探索性機器人掃描由場景中的語義對象的識別和分割驅動而且以其爲目標。咱們的算法創建在體積深度融合框架之上,例如KinectFusion,而且在在線重建體積上執行基於實時體素的語義標記。機器人由在2D位置和方位角旋轉的3D空間上參數化的在線估計離散觀察得分場VSF引導。 VSF爲每一個網格存儲相應視圖的分數,其測量多少減小几何重建和語義標註的不肯定性熵。基於VSF,咱們選擇下一個最佳視圖NBV做爲每一個時間步的目標。而後,咱們經過沿路徑和軌跡最大化總體觀察得分信息增益,共同優化兩個相鄰NBV之間的遍歷路徑和攝像機軌跡。經過普遍的評估,咱們證實了咱們的方法在探索性掃描過程當中實現了高效準確的在線場景解析。

*A Conditional Random Field Model for Context Aware Cloud Detection in Sky Images
Authors Vijai T. Jayadevan, Jeffrey J. Rodriguez, Alexander D. Cronin
提出了一種基於地面天空圖像雲檢測的條件隨機場CRF模型。咱們代表,經過在CRF框架中組合判別分類器和更高階的集團潛力,能夠實現很是高的雲檢測精度。首先使用均值偏移聚類算法將圖像分紅均勻區域,而後在這些區域上定義CRF模型。使用訓練數據估計所涉及的各類參數,而且使用迭代條件模式ICM算法來執行推斷。咱們演示如何考慮空間背景能夠提升準確性。咱們提供定性和定量結果,以證實該框架的優越性能與其餘應用於雲檢測的最早進方法相比較。

Cardiac Segmentation from LGE MRI Using Deep Neural Network Incorporating Shape and Spatial Priors
Authors Qian Yue, Xinzhe Luo, Qing Ye, Lingchao Xu, Xiahai Zhuang
晚期釓加強MRI的心臟分割是診所中識別和評估心肌梗塞的重要任務。然而,因爲圖像中的異質強度分佈和模糊邊界,自動分割仍然具備挑戰性。在本文中,咱們提出了一種基於深度神經網絡DNN的新方法,用於全自動分割。所提出的網絡,稱爲SRSCN,包括形狀重建神經網絡SRNN和空間約束網絡SCN。 SRNN旨在保持所得分割的逼真形狀。它能夠經過一組標籤圖像進行預訓練,而後做爲正則化術語嵌入到統一的損失函數中。所以,不須要手動設計的功能。此外,SCN結合了2D切片的空間信息。它經過多任務學習策略與分割網絡一塊兒制定和訓練。咱們使用45名患者評估了所提出的方法,並與兩種現有技術的正則化方案(即解剖學約束神經網絡和對抗性神經網絡)進行了比較。結果代表,所提出的SRSCN優於傳統方案,心肌分割的Dice評分爲0.758 std 0.227,而觀察者間變異的評分爲0.757±0.083。

Learning Personalized Attribute Preference via Multi-task AUC Optimization
Authors Zhiyong Yang, Qianqian Xu, Xiaochun Cao, Qingming Huang
傳統上,大多數現有屬性學習方法是基於從有限數量的註釋器聚合的註釋的一致性來訓練的。然而,共識可能在設置中失敗,特別是當涉及具備不一樣興趣和對屬性詞的理解的普遍的註釋器時。在本文中,咱們開發了一種新的多任務方法來理解和預測個性化屬性註釋。關於做爲特定任務的每一個註釋器的屬性偏好學習,咱們首先提出多級任務參數分解以捕獲從大衆的高度流行的觀點到對每一個人特殊的高度個性化的選擇的演變。同時,對於個性化學習方法,排名預測比準確分類更重要。這促使咱們採用基於ROC曲線AUC的面積損失函數來改進咱們的模型。除了基於AUC的損失以外,咱們還提出了一種評估損耗和梯度的有效方法。從理論上講,咱們爲一個非凸子問題提出了一種新的閉合形式解,這致使了可證實的收斂行爲。此外,咱們還提供了一個保證合理性能的歸納。最後,實證分析一致地說明了咱們提出的方法的有效性。

4D CNN for semantic segmentation of cardiac volumetric sequences
Authors Andriy Myronenko, Dong Yang, Varun Buch, Daguang Xu, Alvin Ihsani, Sean Doyle, Mark Michalski, Neil Tenenholtz, Holger Roth
咱們提出了一種4D卷積神經網絡CNN,用於分析回顧性心電門控心臟CT,隨時間推移的一系列單通道體積數據。雖然時間序列中只有一小部分卷被註釋,但咱們在可用標籤上定義了稀疏損失函數,以容許網絡在訓練期間利用未標記的圖像並生成徹底分段的序列。咱們研究了所提出的4D網絡的準確性,以預測時間上一致的分割,並與傳統的3D分割方法進行比較。咱們證實了4D CNN的可行性,並肯定了其在心臟4D CCTA上的表現。

*The Cells Out of Sample (COOS) dataset and benchmarks for measuring out-of-sample generalization of image classifiers
Authors Alex X. Lu, Amy X. Lu, Wiebke Schormann, David W. Andrews, Alan M. Moses
瞭解分類器是否歸納爲樣本數據集以外是機器學習中的核心問題。顯微鏡圖像提供了一種標準化的方法來測量圖像分類器的泛化能力,由於咱們能夠在愈來愈不一樣但受控制的變化因素下對相同類別的對象進行成像。咱們建立了132,209個小鼠細胞圖像的公共數據集,COOS 7 Cells Out Of Sample 7 Class。 COOS 7提供了一種分類設置,其中四個測試數據集具備增長的協變量偏移程度,一些圖像是訓練數據的隨機子集,而另外一些是來自幾個月後再現的實驗而且由不一樣儀器成像。咱們使用不一樣的表示來對一系列分類模型進行基準測試,包括轉移的神經網絡特徵,具備監督的深度CNN的端到端分類,以及來自自監督的CNN的特徵。雖然大多數分類器在相似於訓練數據集的測試數據集上表現良好,但全部分類器都沒法將其性能推廣到具備更大協變量偏移的數據集。這些基線強調了圖像數據中協變量變化的挑戰,並創建了用於改善圖像分類器的泛化能力的度量。

An IoT Based Framework For Activity Recognition Using Deep Learning Technique
Authors Ashwin Geet D Sa, B. G. Prasad
活動識別是識別和識別代理的行爲或目標的能力。代理能夠是執行具備最終目標的操做的任何對象或實體。代理能夠是執行動做的一個代理或執行動做或具備一些交互的代理組。人類活動識別因其在娛樂,醫療保健,模擬和監視系統等許多實際應用中的需求而受到歡迎。基於視覺的活動識別正在得到優點,由於它不須要任何人爲干預或與人類進行身體接觸。此外,還有一組聯網,其目的是跟蹤和識別代理的活動。跟蹤或識別人類活動所需的傳統應用程序使用了可穿戴設備。可是,這種應用須要人的身體接觸。爲了克服這些挑戰,可使用基於視覺的活動識別系統,其使用相機來記錄視頻和執行識別任務的處理器。這項工做分兩個階段實施。在第一階段,提出了一種實現活動識別的方法,使用背景減法圖像,而後是3D卷積神經網絡。已經報道了在3D卷積神經網絡以前使用背景減法的影響。在第二階段,工做進一步擴展並在Raspberry Pi上實施,可用於記錄視頻流,而後識別視頻中涉及的活動。所以,提供了使用基於物聯網的小型設備進行活動識別的概念證實,其能夠加強系統並以各類形式擴展其應用,例如,增長便攜性,網絡和設備的其餘能力。

Visual Navigation by Generating Next Expected Observations
Authors Qiaoyun Wu, Dinesh Manocha, Jun Wang, Kai Xu
咱們提出了一種在未知環境中進行視覺導航的新方法,其中經過構思下一次最佳動做後指望觀察到的下一個觀察來指導代理。這是經過學習變分貝葉斯模型來實現的,該模型以代理和目標視圖的當前觀察爲條件生成下一個預期觀測NEO。咱們的方法根據當前觀察和NEO預測下一個最佳行動。咱們的生成模型是經過優化包含兩個關鍵設計的變分目標來學習的。首先,潛在分佈以當前觀察和目標視圖爲條件,支持基於模型的目標驅動導航。其次,潛在空間用高斯混合物建模,以當前觀察和下一個最佳動做爲條件。咱們對後驗混合的使用有效地緩解了過分正規化潛在空間的問題,從而促進了新穎場景中的模型推廣。此外,NEO生成模擬了代理環境交互的前向動態,提升了近似推理的質量,從而有利於數據效率。咱們對現實世界和綜合基準進行了普遍的評估,並代表咱們的模型在成功率,數據效率和交叉場景歸納方面明顯優於基於RL的現有技術。

Equivariant neural networks and equivarification
Authors Erkao Bao, Linqi Song
咱們提供了一個將神經網絡修改成等效神經網絡的過程,咱們將其稱爲em等效。做爲一個例子,咱們經過對卷積神經網絡進行等效來構建用於圖像分類的等變神經網絡。

Enforcing temporal consistency in Deep Learning segmentation of brain MR images
Authors Malav Bateriwala, Pierrick Bourgeat
縱向分析具備顯示發育軌跡和監測醫學成像中疾病進展的巨大潛力。該過程依賴於一致且穩健的聯合4D分割。傳統技術取決於圖像隨時間的類似性以及使用受試者特定先驗以減小隨機變化並改善總體縱向分析的穩健性和靈敏度。然而,這是緩慢且計算密集的,由於每次都須要重建特定於主題的模板。這項工做的重點是利用深度學習加速這種分析。所提出的方法基於深度CNN而且包含語義分割而且爲同一主題提供縱向關係。所提出的方法基於深度CNN而且包含語義分割而且爲同一主題提供縱向關係。使用3D補丁做爲修改的Unet的輸入的現有技術提供大約0.91 pm 0.5 Dice的結果而且在CNN中使用多視圖圖譜提供大體相同的結果。在這項工做中,探索了不一樣的模型,每一個模型提供更好的準確性和快速的結果,同時提升分割質量。這些方法在來自EADC ADNI Harmonized Hippocampus Protocol的135次掃描中進行評估。提出的基於CNN的分割方法演示瞭如何使用先前切片的2D分割能夠提供與3D分割相似的結果,同時保持3D維度的良好連續性和提升的速度。僅使用2D修改的矢狀切片爲咱們提供了針對特定主題的更好的骰子和縱向分析。對於ADNI數據集,使用簡單的UNet CNN技術獲得0.84 pm 0.5,同時在相同輸入上使用修改的CNN技術產生0.89 pm 0.5。使用各類方法計算並分析幾種測試案例的萎縮率和RMS偏差。

Signatures in Shape Analysis: an Efficient Approach to Motion Identification
Authors Elena Celledoni, P l Erik Lystad, Nikolas Tapia
簽名以從新參數化不變的方式提供路徑的某些特徵的簡潔描述。咱們提出了一種基於簽名對形狀進行分類的方法,並將其與基於SRV變換和動態規劃的當前方法進行比較。

Chinese Abs From Machine Translation

Papers from arxiv.orgapi

更多精彩請移步主頁安全


在這裏插入圖片描述
pic from pexels.com網絡

相關文章
相關標籤/搜索