【今日CV 計算機視覺論文速覽 第124期】Tue, 4 Jun 2019

今日CS.CV 計算機視覺論文速覽
Tue, 4 Jun 2019
Totally 62 papers
👉上期速覽更多精彩請移步主頁html

在這裏插入圖片描述

Interesting:

📚FE-GAN)於多尺度注意力機制的時尚圖像編輯, 提出了一種可交互的圖像操做技術(from 中山大學)
一些交互式操做後生成的新服飾圖像結果,輸入包含原圖、草圖和稀疏的顏色線條:
在這裏插入圖片描述python

首先利用不完整的部分圖,草圖、噪音顏色掩膜來訓練如何合成圖像的語義結構,隨後利用不完整的圖像、完整的掩膜和合成的語義結構來補全,並利用輸入的草圖和顏色筆畫進行屬性操做。主要網絡框架以下圖所示:
在這裏插入圖片描述
一些結果的比較:
在這裏插入圖片描述
在這裏插入圖片描述

git

📚非監督的單圖像圖層分離,假設先後混疊的圖像互補相關,並提出了cycleGAN的方法聯合自監督手段實現圖層分離。對於反射混疊和圖像分離十分有用 (from 北航)
假設y,z的信息在x中均可以找到,分離後的y、z是獨立的分佈(聯合機率分佈爲0)。研究人員提出的USIS,將圖像分別解碼爲fx,fy信號,並生成對應的y,z圖像,並在最後實現自監督方法獲得分離結果。
在這裏插入圖片描述
一些結果:
在這裏插入圖片描述

github

📚DISCO利用立體視圖輸入推斷深度, 爲了解決對於底層信息的缺失和多級內容的探索,研究人員提出了一種網絡來保留空間信息,並經過多層來實現大感覺野來抽取多級特徵,同時構建了合成平常視差數據集,訓練了DISCO並在基準上進行測試。(from 三星印度研究院)
深度圖的估計公式,f爲焦距B爲基線,δ爲像素的視差:
在這裏插入圖片描述
網絡架構以下圖所示,包含了特徵抽取、視差估計和視差精煉(底層信息接入),下采樣2(blue)+3(yellow)次,解碼5次上採樣配合:
在這裏插入圖片描述
correlation層信息融合方式:
在這裏插入圖片描述
利用Blender合成數據集:
在這裏插入圖片描述
與一些方法的對比:
在這裏插入圖片描述
其中B表明基線,C表明紋理信息的加入:
在這裏插入圖片描述
datset:
立體視覺MiddleBury,有一些數據集獲取的參考文獻
視覺組
光流數據集
ETH3D multi-view stereo / 3D reconstruction
Scene Flow Datasets 包含視差圖 弗萊堡大學視覺組

算法

📚視頻三維漫畫誇張卡通化技術3D Magic Mirror, 研究人員首先重建了每一幀的3D人臉,隨後將將3D人臉形狀從普通遷移到了漫畫風格,經過新穎的識別和表情保留VAE-CycleGAN實現。並將多視角的CariGANs生成的問題重建到變性後的三維模型上去(from 中科大)
在這裏插入圖片描述
一些漫畫圖像的訓練數據:
在這裏插入圖片描述
人臉變形方法:
在這裏插入圖片描述
編碼器架構:
在這裏插入圖片描述

數據庫

📚Probabilistic Noise2Void ,PN2V,無監督的基於內容的去噪方法, 研究人員提出了一種機率的Noise2Void去噪方法,經過CNN來預測每一個像素的強度分佈,利用這種對於噪聲合適的描述獲得了徹底機率模型,針對每一個像素得到了完整的噪聲觀察和信號。(from MPI-CBG/PKS ,CSBD)
基於極大似然訓練的方法預測每一個像素的機率分佈,其中si爲乾淨圖像,x爲退化後的圖像。:
在這裏插入圖片描述------->在這裏插入圖片描述
MMSE(Minimal Mean Squared Error)估計的結果以下所示,其中後驗信號來自於先驗藍線與觀測綠線的比例乘積
在這裏插入圖片描述
最終的估計結果以下圖所示:
在這裏插入圖片描述
dataset:PN2V on datasets provided by Zhang et al. in [13]

編程

TL;DwR
5K-Indicators方法解決K均值在大數據下的效率問題,KindAP機制
5基於紋理和法向量的三維表面高分辨生成,引入了3D appearance SR (3DASR)數據集,包含了數據集合成方法,ref: EHT3D [42], MiddleBury [43], and Collection of Bird,Beethoven and Bunny from the multi-view dataset of TUM[21], Fountain [51] and Relief [53]. code:https://github.com/ofsoundof/3D_Appearance_SR
6 VQ-VAE-2來自deepmind的高保真圖像生成方法, code:https://github.com/deepmind/sonnet/blob/master/sonnet/python/modules/nets/vqvae.py https://github.com/deepmind/sonnet/blob/master/sonnet/python/modules/nets/vqvae.py, attaches
核磁共振與CT圖像的融合Fusion W-Net (FW-Net)code:https://github.com/fanfanda/Medical-Image-Fusion
對於場景的視覺理解和敘述
4iMet大都會博物館藝術品數據集
鋼筋計數,中心定位
聲音和視覺協同進行視覺理解
三維檢索的新損失collaborative inner product loss
4RF-Net端到端的圖像匹配網絡,從匹配圖像中輸出分數圖、方向圖和尺度圖,ref:LIFT, LF-Net,
全貌.全景邊緣檢測
對抗樣本對於邊緣檢測分析研究
NIND,利用不一樣ISO和快門獲取包含噪聲天然圖像數據集 dataset:Natural Image Noise Dataset:https://commons.wikimedia.org/wiki/Natural_Image_Noise_Dataset
利用類似域網絡模型進行表面建模和骨架抽取
UZSIT無監督的零樣本圖像遷移方法ZstGANcode:https://github.com/linjx-ustc1106/ZstGAN-PyTorch
無監督元域圖像遷移模型code:https://github.com/linjx-ustc1106/MT-GAN-PyTorch
ArcticNet用於極地地區溼地分類的模型code:https://github.com/geekJZY/arcticnet
用於diffuse optical tomography (DOT)光擴散層析成像的非局域前向模型
小數據集上的胸部X光檢測後端


Daily Computer Vision Papers

3D Appearance Super-Resolution with Deep Learning
Authors Yawei Li, Vagia Tsiminaki, Radu Timofte, Marc Pollefeys, Luc van Gool
咱們解決了從多個視點捕獲的對象的高分辨率HR紋理貼圖的問題。在多視圖狀況下,最近已證實基於模型的超分辨率SR方法可恢復高質量紋理圖。另外一方面,基於深度學習的方法的出現已經對視頻和圖像SR的問題產生了重大影響。然而,仍然缺乏基於深度學習的方法來超級解決3D對象的外觀。在多視圖狀況下利用深度學習技術的力量的主要限制是缺少數據。咱們介紹了基於現有ETH3D 42,SyB3R 31,MiddleBury以及TUM 21,Fountain 51和Relief 53的3D場景集合的3D外觀SR 3DASR數據集。咱們提供高分辨率和低分辨率紋理貼圖,3D幾何模型,圖像和投影矩陣。咱們利用基於2D學習的SR方法和適用於3D多視圖案例的設計網絡的強大功能。咱們經過引入法線貼圖來整合幾何信息,並進一步改善學習過程。實驗結果代表,咱們提出的網絡成功地結合了3D幾何信息並超級解析了紋理貼圖。

The iMet Collection 2019 Challenge Dataset
Authors enyang Zhang, Christine Kaeser Chen, Grace Vesom, Jennie Choi, Maria Kessler, Serge Belongie
圖形識別中現有的計算機視覺技術主要集中在實例檢索或粗粒度屬性分類上。在這項工做中,咱們提出了一個新的數據集,用於細粒度的藝術品屬性識別。數據集中的圖像是大都會藝術博物館的經典藝術做品的專業照片,註釋由世界級博物館專家策劃和驗證。此外,咱們還將展現iMet Collection 2019 Challenge做爲FGVC6研討會的一部分。經過比賽,咱們的目標是激發細粒度視覺識別研究社區的熱情,並提高博物館館藏數字化的最新技術水平。

Automated Steel Bar Counting and Center Localization with Convolutional Neural Networks
Authors Zhun Fan, Jiewei Lu, Benzhang Qiu, Tao Jiang, Kang An, Alex Noel Josephraj, Chuliang Wei
自動鋼筋計數和中心定位在鋼筋的工廠自動化中起着重要做用。傳統方法僅關注鋼筋計數,其性能一般受到複雜工業環境的限制。卷積神經網絡CNN具備很強的處理挑戰環境中複雜任務的能力,適用於這項工做。提出了一種稱爲CNN DC的框架,以同時實現自動鋼筋計數和中心定位。所提出的框架CNN DC首先用深CNN檢測候選中心點。而後提出了一種有效的聚類算法 - 距離聚類DC,對候選中心點進行聚類,找到真正的鋼筋中心。所提出的CNN DC能夠在已創建的鋼筋數據集上實現99.26的鋼筋計數精度和4.1中心偏移的中心定位,這代表所提出的CNN DC在自動化鋼筋計數和中心定位方面表現良好。代碼公開於

Fashion Editing with Multi-scale Attention Normalization
Authors Haoye Dong, Xiaodan Liang, Yixuan Zhang, Xujie Zhang, Zhenyu Xie, Bowen Wu, Ziqi Zhang, Xiaohui Shen, Jian Yin
交互式時尚圖像處理,使用戶可以用草圖和顏色筆劃編輯圖像,是一個有趣的研究問題,具備很大的應用價值。現有做品一般將其視爲通常的修復任務,而且不充分利用時尚圖像中的語義結構信息。此外,它們直接利用傳統的卷積和歸一化層來恢復不完整的圖像,這每每會沖掉草圖和顏色信息。在本文中,咱們提出了一種新穎的時尚編輯生成對抗網絡FE GAN,它可以經過自由形式草圖和稀疏顏色筆劃來操縱時尚圖像。 FE GAN由兩個模塊1組成,一個自由形式的解析網絡,經過操縱草圖和顏色來學習控制人類解析生成2一個解析感知的修復網絡,它使用人類解析圖中的語義指導呈現詳細的紋理。在修復網絡的解碼器中以多個尺度進一步應用新的注意歸一化層,以提升合成圖像的質量。對高分辨率時尚圖像數據集的大量實驗代表,所提出的方法明顯優於圖像處理的現有技術方法。

Zero-Shot Semantic Segmentation
Authors Maxime Bucher, Tuan Hung Vu, Matthieu Cord, Patrick P rez
語義分割模型在擴展到大量對象類的能力方面受到限制。在本文中,咱們介紹了零鏡頭語義分割學習像素明智分類器的新任務,對於從未見過的具備零訓練樣例的對象類別。爲此,咱們提出了一種新穎的架構ZS3Net,它將深度視覺分割模型與從語義詞嵌入生成視覺表示的方法相結合。經過這種方式,ZS3Net解決了像素分類任務,其中看到和看不見的類別都在測試時面對,所謂的廣義零射擊分類。經過自我訓練步驟進一步改善了性能,該步驟依賴於來自看不見的類的像素的自動僞標記。在兩個標準分段數據集Pascal VOC和Pascal Context上,咱們提出零射擊基準並設置競爭基線。對於Pascal Context數據集中的複雜場景,咱們經過使用圖形上下文編碼來擴展咱們的方法,以充分利用來自類智能分割圖的空間上下文先驗。

GazeCorrection:Self-Guided Eye Manipulation in the wild using Self-Supervised Generative Adversarial Networks
Authors Jichao Zhang, Meng Sun, Jingjing Chen, Hao Tang, Yan Yan, Xueying Qin, Nicu Sebe
凝視校訂旨在經過操縱眼睛區域將人的注視重定向到相機中,而且能夠將其視爲特定的圖像再合成問題。凝視校訂在現實生活中具備普遍的應用,例如盯着相機拍照。在本文中,咱們提出了一種基於修復模型的新方法,用於從面部圖像中學習以用表明校訂眼睛注視的新內容填充缺失的眼睛區域。此外,咱們的模型不須要標記有特定頭部姿式和眼睛角度信息的訓練數據集,所以,訓練數據易於收集。爲了保留原始輸入中眼睛區域的身份信息,咱們提出了一種自引導預訓練模型來學習角度不變特徵。實驗代表,咱們的模型在從網站收集的野生數據集中實現了很是引人注目的凝視校訂結果,並將詳細介紹。代碼可在

DualDis: Dual-Branch Disentangling with Adversarial Learning
Authors Thomas Robert, Nicolas Thome, Matthieu Cord
在計算機視覺中,解開技術旨在經過模擬變異因素來改善圖像的潛在表示。在本文中,咱們提出了DualDis,一種新的基於自動編碼器的框架,它解開併線性化類和屬性信息。這是經過兩個分支架構來實現的,該架構強制分離兩種信息,並伴有用於圖像重建和生成的解碼器。爲了有效地分離信息,咱們建議使用常規和對抗分類器的組合來指導兩個分支分別專門處理類和屬性信息。咱們還研究了使用半監督學習即便使用少許標籤進行有效解開的可能性。咱們利用潛在空間的線性化屬性進行語義圖像編輯和生成新圖像。咱們經過分類指標,可視化圖像處理和數據加強來衡量信息分離的效率,從而驗證了咱們對CelebA,耶魯B和NORB的方法。

Efficient Object Detection Model for Real-Time UAV Applications
Authors Subrahmanyam Vaddi, Chandan Kumar, Ali Jannesari
無人駕駛飛行器近年來,配備有視覺技術的無人機尤爲是無人機已經變得很是流行,其普遍應用於各類應用。這些應用中的許多應用須要使用計算機視覺技術,特別是從車載相機捕獲的信息中檢測物體。在本文中,咱們提出了一種在無人機平臺上運行的端到端對象檢測模型,該模型適用於實時應用。咱們提出了一個深度特徵金字塔體系結構,它利用從卷積網絡中提取的特徵的固有屬性,捕獲圖像中的更多通用特徵,如邊緣,顏色等,以及特定於咱們問題中包含的類的細微特徵。咱們使用VisDrone 18數據集進行研究,其中包含不一樣的對象,如行人,車輛,自行車等。咱們提供本研究中使用的平臺的軟件和硬件架構。咱們將ResNet和MobileNet做爲卷積基礎實現了咱們的模型。咱們的模型結合改進的焦點丟失功能,爲物體檢測產生了理想的30.6 mAP性能,推理時間爲14 fps。咱們將咱們的結果與RetinaNet ResNet 50和HAL RetinaNet進行了比較,結果代表咱們的模型結合MobileNet做爲後端特徵提取器在精度,速度和內存效率方面給出了最佳結果,最適合用無人機進行實時物體檢測。

Separate from Observation: Unsupervised Single Image Layer Separation
Authors Yunfei Liu, Feng Lu
無監督的單圖像層分離旨在從輸入圖像中提取兩個層,其中這些層遵循不一樣的分佈。該問題最顯着地出如今反射推斷消除和固有圖像分解中。因爲存在能夠構造給定輸入圖像的無限組合,所以能夠在沒有額外假設的狀況下推斷出解決方案。爲了解決這個問題,咱們制定了共享信息一致性假設和分離層獨立性假設來約束解決方案。爲此,咱們提出了一種基於循環GAN和自監督學習的無監督單圖像分離框架。所提出的框架適用於反射消除和內在圖像問題。數值和視覺結果代表,所提出的方法在須要單個圖像做爲輸入的無監督方法中實現了現有技術的性能。基於所提出框架的略微修改版本,咱們還展現了將圖像分解爲三層的有但願的結果。

Masked Non-Autoregressive Image Captioning
Authors Junlong Gao, Xi Meng, Shiqi Wang, Xia Li, Shanshe Wang, Siwei Ma, Wen Gao
現有字幕模型一般採用編碼器解碼器架構,其中解碼器使用自迴歸解碼來生成字幕,使得在給定前面生成的令牌的狀況下順序地生成每一個令牌。然而,自迴歸解碼致使諸如順序錯誤累積,生成緩慢,語義不正確和缺少多樣性之類的問題。已經提出非自迴歸解碼來解決神經機器翻譯的慢速生成,可是因爲目標分佈的間接建模而遭受多模態問題。在本文中,咱們提出掩蔽的非自迴歸解碼來解決自迴歸解碼和非自迴歸解碼的問題。在掩蔽的非自迴歸解碼中,咱們在訓練期間掩蔽輸入序列的幾種比率,而且在推理期間以組合方式從徹底掩蔽的序列到徹底非掩蔽的序列在幾個階段中並行地生成字幕。實驗上,咱們提出的模型能夠更有效地保留語義內容,並能夠生成更多樣化的字幕。

cGANs with Conditional Convolution Layer
Authors Min Cheol Sagong, Yong Goo Shin, Yoon Jae Yeo, Seung Park, Sung Jea Ko
已經普遍研究了條件生成對抗網絡cGAN以使用單個生成器生成類條件圖像。然而,在傳統的cGAN技術中,因爲無論條件如何都使用具備相同權重的標準卷積層,所以發生器學習條件特定特徵仍然具備挑戰性。在本文中,咱們提出了一種新的卷積層,稱爲條件卷積層,它經過使用根據條件調整的權重直接生成不一樣的特徵映射。更具體地,在每一個條件卷積層中,經過濾波方式縮放和信道方式移位操做以簡單但有效的方式調整權重。與傳統方法相比,所提出的具備單個發生器的方法能夠有效地處理條件特定的特徵。 CIFAR,LSUN和ImageNet數據集的實驗結果代表,與標準卷積層相比,具備所提出的條件卷積層的生成器實現了更高的條件圖像生成質量。

An Adaptive Training-less System for Anomaly Detection in Crowd Scenes
Authors Arindam Sikdar, Ananda S. Chowdhury
人羣視頻中的異常檢測已成爲計算機視覺社區的一個熱門研究領域。幾種現有方法一般在使用或不使用標記數據的狀況下執行關於場景的在先訓練。可是,很難始終保證先前數據的可用性,特別是對於遠程區域監視等狀況。爲了解決這樣的挑戰,咱們提出了一種自適應訓練系統,可以動態地檢測異常,同時基於某些參數動態地估計和調整響應。這使得咱們的系統既能夠減小訓練,也能夠進行自適應咱們的管道由三個主要部分組成,即基於多目標檢測的自適應3D DCT模型,經過顯着調製光流的局部運動結構描述,以及基於地球移動器距離EMD的異常檢測。儘管沒有通過培訓,但所提出的模型在公共可用的UCSD,UMN,CHUK Avenue和ShanghaiTech數據集上與幾種最早進的方法相比具備可比性。

Deeply-supervised Knowledge Synergy
Authors Dawei Sun, Anbang Yao, Aojun Zhou, Hao Zhao
卷積神經網絡與開創性的AlexNet相比,CNN變得更加深刻和複雜。然而,當前流行的訓練方案遵循先前的方式,即僅對網絡的最後一層添加監督並逐層傳播錯誤信息。在本文中,咱們提出深度監督的知識協同DKS,這是一種新的方法,旨在訓練CNN具備改進的圖像分類任務的泛化能力,而不會在推理過程當中引入額外的計算成本。受深度監督學習計劃的啓發,咱們首先在某些中間網絡層之上添加輔助監督分支。雖然正確使用輔助監督能夠在必定程度上提升模型的準確性,但咱們更進一步探索利用鏈接到骨幹網絡的分類器動態學習的機率知識做爲新的正則化來改進訓練的可能性。提出了一種新的協同損失,它考慮了全部監管部門之間的成對知識匹配。有趣的是,它在每次訓練迭代時都可以在自上而下和自下而上的方向上進行密集的成對知識匹配操做,相似於同一任務的動態協同過程。咱們使用最早進的CNN架構評估圖像分類數據集上的DKS,並顯示使用它訓練的模型始終優於相應的對應物。例如,在ImageNet分類基準測試中,咱們的ResNet 152模型優於基線模型,前1精度爲1.47。代碼可在

A Closed-form Solution to Universal Style Transfer
Authors Ming Lu, Hao Zhao, Anbang Yao, Yurong Chen, Feng Xu, Li Zhang
通用樣式傳輸嘗試明確地最小化特徵空間中的損失,所以它不須要對任何預約義樣式進行訓練。它一般使用不一樣的VGG網絡層做爲編碼器,並訓練幾個解碼器將特徵反轉爲圖像。所以,經過特徵變換實現了樣式轉移的效果。儘管已經提出了許多方法,但仍然缺乏對特徵變換的理論分析。在本文中,咱們首先提出一種新的解釋,將其做爲最佳運輸問題。而後,咱們展現了咱們的配方與自適應實例標準化AdaIN和美白和着色變換WCT等之前的工做之間的關係。最後,咱們經過另外考慮Gatys的內容損失,在咱們的公式中得出一個封閉形式的解決方案。相比之下,咱們的解決方案能夠保留更好的結構並實現視覺上使人愉悅它簡單而有效,咱們在數量和質量上都展現了它們的優勢。此外,咱們但願咱們的理論分析能夠激發將來神經風格轉移的工做。

Robust copy-move forgery detection by false alarms control
Authors Thibaud Ehret
可靠地檢測複製移動僞造是困難的,由於圖像確實包含相似的對象。問題是如何丟棄天然圖像的自類似性,同時仍然檢測到複製移動的部分是不天然的類似複製移動多是在旋轉,比例變化以後執行,而後是JPEG壓縮或添加噪聲。出於這個緣由,咱們將方法基於SIFT,它提供了具備縮放,旋轉和光照不變描述符的稀疏關鍵點。爲了區分天然描述符匹配和人工描述符匹配,咱們引入了一種相反的方法,它爲錯誤警報的數量提供了理論上的保證。咱們在幾個數據庫上驗證咱們的方法徹底無人監督,它能夠集成到任何通用的自動圖像篡改檢測管道中。

How Much Does Audio Matter to Recognize Egocentric Object Interactions?
Authors Alejandro Cartas, Jordi Luque, Petia Radeva, Carlos Segura, Mariella Dimiccoli
聲音是咱們與對象平常交互的重要信息來源。例如,經過使用聽覺,大量的人能夠辨別出正在傾倒的水的溫度。然而,只有少數做品探索了使用音頻進行物體相互做用的分類以及視覺或單一模態。在這項初步工做中,咱們提出了一個用於自我中心行爲識別的音頻模型,並探討其在問題名詞,動詞和動做分類中的有用性。咱們的模型使用相對較輕的架構,在基於視覺的最早進系統的標準基準上的動詞分類34.26準確度方面取得了競爭結果。

Computing Valid p-values for Image Segmentation by Selective Inference
Authors Kosuke Tanizaki, Noriaki Hashimoto, Yu Inatsu, Hidekata Hontani, Ichiro Takeuchi
圖像分割是計算機視覺的最基本任務之一。在許多實際應用中,必須正確評估單個分割結果的可靠性。在這項研究中,咱們提出了一個新的框架,以p值的形式提供分割結果的統計顯着性。具體而言,咱們考慮用於肯定對象和背景區域之間的差別的統計假設檢驗。這個問題具備挑戰性,由於因爲分割算法對數據的適應性,差別可能看起來很大,稱爲分割誤差。爲了克服這個困難,咱們引入了一種稱爲選擇性推理的統計方法,並開發了一個框架來計算有效的p值,其中正確地考慮了分割誤差。儘管所提出的框架可能適用於各類分割算法,但咱們在本文中主要關注基於圖切割和基於閾值的分割算法,並開發兩種特定方法來計算由這些算法得到的分割結果的有效p值。咱們證實了這兩種方法的理論有效性,並經過將它們應用於醫學圖像的分割問題來證實它們的實用性。

Deep Face Recognition Model Compression via Knowledge Transfer and Distillation
Authors Jayashree Karlekar, Jiashi Feng, Zi Sian Wong, Sugiri Pranata
徹底卷積網絡FCN已經成爲實現許多視覺和非視覺任務以及特別是面部識別的很是高水平性能的事實上的工具。這種高水平的準確度一般是經過很是深的網絡或它們的集合來得到的。然而,將這種高性能模型部署到資源約束設備或實時應用程序是具備挑戰性的。在本文中,咱們提出了一種基於學生教師範式的人臉識別應用的新型模型壓縮方法。所提出的方法包括以更高的圖像分辨率訓練教師FCN,而學生FCN的訓練圖像分辨率低於教師FCN。咱們探索了三種不一樣的方法來訓練學生FCN知識轉移KT,知識蒸餾KD及其組合。對LFW和IJB C數據集的實驗評估代表,這些方法的準確度獲得了可比較的改善。培養來自高分辨率教師的低分辨率學生FCN提供了加速訓練,加速推理,減小內存需求和提升準確性的四重優點。咱們評估了IJB C數據集上的全部模型,並在此基準測試中得到了最新的結果。教師網絡和一些學生網絡甚至在IJB C數據集上取得了前1名的表現。所提出的方法簡單且硬件友好,所以可以將高性能面部識別深度模型部署到資源約束設備。

Perceptual Embedding Consistency for Seamless Reconstruction of Tilewise Style Transfer
Authors Amal Lahiani, Nassir Navab, Shadi Albarqouni, Eldad Klaiman
風格轉移是一個在深度學習中愈來愈受關注和使用案例的領域。最近的工做代表,生成性對抗網絡GAN可用於在數字病理學中建立真實染色的幻燈片圖像的真實圖像,並具備臨牀驗證的可解釋性。數字病理圖像一般具備極高的分辨率,使得深度學習應用所需的分析分析成爲必要。已經代表,當從平鋪分析重建大圖像時,具備實例歸一化的圖像生成器可能致使拼接僞像。咱們引入了一種新穎的感知嵌入一致性損失,顯着減小了在重建的整個幻燈片圖像WSI中產生的拼接僞像。咱們經過比較虛擬染色的載玻片圖像和連續的真實染色組織載玻片圖像來驗證咱們咱們還經過運行比較靈敏度分析測試證實咱們的模型對對比度,顏色和亮度擾動更加穩健。

RF-Net: An End-to-End Image Matching Network based on Receptive Field
Authors Xuelun Shen, Cheng Wang, Xin Li, Zenglei Yu, Jonathan Li, Chenglu Wen, Ming Cheng, Zijian He
本文提出了一種基於感知域RF Net的端到端可訓練匹配網絡,用於計算圖像之間的稀疏對應關係。創建端到端可訓練匹配框架是可取的和具備挑戰性的。最近的方法LF Net成功地將整個特徵提取管道嵌入到可聯合訓練的管道中,併產生最早進的匹配結果。本文介紹了LF網絡結構的兩種修改。首先,咱們建議構建接收特徵映射,從而實現更有效的關鍵點檢測。其次,咱們引入通常損失函數項,鄰居掩碼,以方便訓練補丁選擇。這致使描述符訓練中的穩定性提升。咱們在開放數據集HPatches上訓練了RF Net,並將其與多個基準數據集上的其餘方法進行了比較。實驗代表,RF Net優於現有技術方法。

Panoptic Edge Detection
Authors Yuan Hu, Yingtian Zou, Jiashi Feng
對現實視覺應用追求更完整和連貫的場景理解,推進從類別不可知到類別感知語義級別的邊緣檢測。可是,實例級邊界的更精細描述仍然未被挖掘。在這項工做中,咱們解決了一個新的細粒度任務,稱爲全景邊緣檢測PED,旨在預測事物類別和實例級別邊界的語義級別邊界,以便從實例的角度提供更全面和統一的場景理解。而後,咱們提出了一個通用的框架,Panoptic Edge Network PEN,它將對象檢測,語義和實例邊緣檢測的不一樣任務聚合到一個具備多個分支的單個總體網絡中。基於相同的特徵表示,語義邊緣分支爲全部類別產生語義級邊界,而且對象檢測分支生成實例提議。在來自這兩個分支的先驗信息的條件下,實例邊緣分支旨在實例化實例類別的邊緣預測。此外,咱們還爲新的PED任務設計了Panoptic Dual F度量F2度量,以統一測量東西和實例的邊緣預測質量。經過聯合端到端培訓,擬議的PEN框架優於Cityscapes和ADE20K數據集的全部競爭基線。

Learning to Self-Train for Semi-Supervised Few-Shot Classification
Authors Qianru Sun, Xinzhe Li, Yaoyao Liu, Shibao Zheng, Tat Seng Chua, Bernt Schiele
因爲標記的訓練數據的稀缺性,不多有射門分類FSC具備挑戰性。每一個類只有一個標記數據點。經過學習初始化FSC的分類模型,元學習已經顯示出有但願的結果。在本文中,咱們提出了一種新的半監督元學習方法,稱爲學習自我訓練LST,利用未標記的數據,特別是元學習如何挑選和標記這些無監督數據,以進一步提升性能。爲此,咱們經過大量半監督的少數射擊任務訓練LST模型。在每項任務中,咱們訓練一些鏡頭模型來預測未標記數據的僞標籤,而後在標記和僞標記數據上迭代自我訓練步驟,每一步而後進行微調。咱們還學習了一個軟加權網絡SWN來優化僞標籤的自我訓練權重,以便更好的標籤能夠爲梯度降低優化作出更多貢獻。咱們在兩個ImageNet基準上評估咱們的LST方法,用於半監督的幾回射擊分類,而且在現有技術水平上實現了很大的改進。

Rethinking Loss Design for Large-scale 3D Shape Retrieval
Authors Zhaoqun Li, Cheng Xu, Biao Leng
學習判別性形狀表示是大規模3D形狀檢索的關鍵問題。在本文中,咱們提出了協同內積損失CIP損失,以得到理想的形狀嵌入,該嵌入在不一樣類別之間進行區分並彙集在同一類中。利用簡單的內積運算,CIP損失明確地強制要將相同類的特徵彙集在線性子空間中,而類間子空間被約束爲至少正交。與先前的度量損失函數相比,CIP損失能夠爲嵌入提供比歐幾里德邊緣更清晰的幾何解釋,而且易於實現而沒有關於餘弦餘量的歸一化操做。此外,咱們提出的損失項能夠與其餘經常使用的損耗函數結合使用,而且能夠輕鬆插入現有的現成架構中。在兩個公共3D對象檢索數據集ModelNet和ShapeNetCore 55上進行的大量實驗證實了咱們的提議的有效性,而且咱們的方法已經在兩個數據集上實現了最早進的結果。

Generating Question Relevant Captions to Aid Visual Question Answering
Authors Jialin Wu, Zeyuan Hu, Raymond J. Mooney
回答VQA和圖像字幕的視覺問題須要一個鏈接語言和願景的共同知識體系。咱們提出了一種改進VQA性能的新方法,經過聯合生成旨在幫助回答特定視覺問題的字幕來利用此鏈接。經過使用基於在線梯度的方法自動肯定問題相關字幕,使用現有字幕數據集來訓練模型。 VQA v2挑戰的實驗結果代表咱們的方法得到了最早進的VQA性能,例如經過同時生成問題相關標題,使用單個模型設置測試標準集68.4。

Hierarchical Video Frame Sequence Representation with Deep Convolutional Graph Network
Authors Feng Mao, Xiang Wu, Hui Xue, Rong Zhang
高精度視頻標籤預測分類模型歸因於大規模數據。這些數據能夠是由預先訓練的卷積神經網絡提取的幀特徵序列,其提升了建立模型的效率。諸如特徵平均池之類的無監督解決方案做爲簡單的標籤無關參數自由方法,具備有限的表示視頻的能力。而像RNN這樣的監督方法能夠大大提升識別準確率。然而,視頻長度一般很長,而且視頻中的事件之間的幀之間存在層次關係,基於RNN的模型的性能下降。在本文中,咱們提出了一種基於深度卷積圖神經網絡DCGN的視頻分類方法。所提出的方法利用視頻的分層結構的特徵,並經過圖形網絡對視頻幀序列進行多級特徵提取,得到分層次地反映事件語義的視頻表示。咱們在YouTube 8M大規模視頻理解數據集上測試咱們的模型,結果優於基於RNN的基準測試。

Iterative Path Reconstruction for Large-Scale Inertial Navigation on Smartphones
Authors Santiago Cort s Reina, Yuxin Hou, Juho Kannala, Arno Solin
現代智能手機具備準確,強大的導航和跟蹤所需的全部傳感功能。在特定環境中,某些數據流可能不存在,可靠性較差或出錯。特別是,GNSS信號可能在建築物內或高層建築的街道中變得有缺陷或無聲。在本應用論文中,咱們的目標是使用慣性測量結合標準智能手機上的部分GNSS數據來推動運動估計的當前技術水平。咱們展現了迭代估計方法如何幫助改進回溯用例中的定位路徑估計,這些用例能夠涵蓋固定區間和固定滯後情景。咱們將全局迭代卡爾曼濾波方法提供的估計結果與視覺慣性跟蹤方案Apple ARKit的估計結果進行比較。從智能手機和平板設備獲取的經驗數據的實際使用案例中證實了實際適用性。

Data Augmentation for Object Detection via Progressive and Selective Instance-Switching
Authors Hao Wang, Qilong Wang, Fan Yang, Weiqi Zhang, Wangmeng Zuo
大量註釋良好的樣品的收集在提升物體檢測性能方面是有效的,可是很是費力且昂貴。最近提出的Cut Paste方法12,15代替了數據收集和註釋,顯示了經過切割前景對象並將它們粘貼在適當的新背景上來加強訓練數據集的潛力。可是,現有的Cut Paste方法沒法保證合成圖像始終精確地模擬視覺上下文,而且全部這些都須要外部數據集。爲了解決上述問題,本文提出了一種簡單而有效的實例切換IS策略,該策略經過從不一樣圖像切換相同類的實例來生成新的訓練數據。咱們的IS天然保留了原始圖像中的上下文連貫性,同時不須要外部數據集。爲了指導咱們的IS得到更好的對象性能,咱們探索了數據集中實例不平衡和類重要性的問題,這些問題常常發生並對檢測性能產生不利影響。爲此,咱們提出了一種新穎的漸進和選擇性實例切換PSIS方法來加強用於對象檢測的訓練數據。所提出的PSIS經過將選擇性從新採樣與類平衡損失相結合來加強實例平衡,並經過逐步增長由檢測性能引導的訓練數據集來考慮類別重要性。實驗是在具備挑戰性的MS COCO基準上進行的,結果代表咱們的PSIS對各類先進的探測器(例如,更快的R CNN,FPN,掩模R CNN和SNIPER)帶來了明顯的改進,顯示了咱們PSIS的優越性和通用性。代碼和型號可在如下網站得到

Adversarial Examples for Edge Detection: They Exist, and They Transfer
Authors Christian Cosgrove, Alan L. Yuille
卷積神經網絡最近在許多任務中提出了現有技術,包括邊緣和物體邊界檢測。然而,在本文中,咱們證實了這些邊緣檢測器繼承了神經網絡的一個使人不安的特性,它們可能被對抗性的例子所欺騙。咱們代表,向圖像添加小的擾動會致使HED(一種基於CNN的邊緣檢測模型)沒法定位邊緣,檢測不存在的邊緣,甚至會產生任意邊緣配置的幻覺。更使人驚訝的是,咱們發現這些對抗性示例轉移到其餘基於CNN的視覺模型。具體而言,對邊緣檢測的攻擊致使訓練的模型的準確度顯着降低,以執行不相關的高級任務,例如圖像分類和語義分割。咱們的代碼將公開。

Incremental Few-Shot Learning for Pedestrian Attribute Recognition
Authors Liuyu Xiang, Xiaoming Jin, Guiguang Ding, Jungong Han, Leida Li
因爲行人屬性識別在視頻監控應用中的重要做用,所以受到愈來愈多的關注。可是,大多數現有方法都是針對一組固定的屬性而設計的。他們沒法處理遞增的少數鏡頭學習場景,即將訓練有素的模型適應具備稀缺數據的新添加的屬性,這些屬性一般存在於現實世界中。在這項工做中,咱們提出了一種基於元學習的方法來解決這個問題。咱們框架的核心是一個元架構,可以解開多個屬性信息並快速推廣到新的屬性。經過在增量少許射擊設置下對基準數據集PETA和RAP進行大量實驗,咱們代表咱們的方法可以以競爭性能和低資源要求執行任務。

Learning to Generate Grounded Image Captions without Localization Supervision
Authors Chih Yao Ma, Yannis Kalantidis, Ghassan AlRegib, Peter Vajda, Marcus Rohrbach, Zsolt Kira
在爲圖像生成句子描述時,經常不清楚生成的標題在圖像中的接地程度,或者模型是否基於數據集和/或語言模型中的先驗幻覺。將圖像區域與字幕模型中的單詞相關聯的最多見方式是經過區域上的注意機制,該區域用做預測下一個單詞的輸入。所以,模型必須學會預測注意力而不知道應該本地化的詞。在這項工做中,咱們提出了一種新穎的循環訓練方案,迫使模型在句子解碼器生成後定位圖像中的每一個單詞,而後從局部圖像區域s重建句子以匹配基礎事實。初始解碼器和所提出的重建器在訓練期間共享參數而且與定位器聯合學習,容許模型規範注意機制。咱們提出的框架只須要學習一個額外的徹底鏈接層定位器,一個能夠在測試時移除的層。咱們代表,咱們的模型顯着提升了接地精度,而不依賴於接地監督或在推理過程當中引入額外的計算。

Natural Image Noise Dataset
Authors Benoit Brummer, Christophe De Vleeschouwer
卷積神經網絡一直是旨在解決圖像去噪問題的研究重點,但它們的性能對於大多數應用來講仍然不能使人滿意。這些網絡使用合成噪聲分佈進行訓練,這些噪聲分佈不能準確反映圖像傳感器捕獲的噪聲。已經引入了一些乾淨噪聲圖像對的數據集,但它們一般用於基準測試或特定應用。咱們介紹了天然圖像噪聲數據集NIND,這是一種數碼單反相機的數據集,相似於具備不一樣ISO噪聲水平的圖像,其大小足以訓練模型以在各類噪聲範圍內進行盲目去噪。咱們演示了使用NIND訓練的去噪模型,並代表它明顯優於BM3D對ISO圖像噪點的見解,即便在推廣到不一樣類型相機的圖像時也是如此。天然圖像噪聲數據集發佈在維基共享資源上,所以它對於策展和貢獻仍然是開放的。咱們但願這個數據集對將來的圖像去噪應用程序有用。

Parametric Shape Modeling and Skeleton Extraction with Radial Basis Functions using Similarity Domains Network
Authors Sedat Ozer
咱們演示了類似域SD用於形狀建模和骨架提取的用途。最近提出了SD,它們能夠在神經網絡框架中使用,以幫助咱們分析形狀。 SD使用徑向基函數建模,在類似域網絡SDN中具備不一樣的形狀參數。在本文中,咱們演示瞭如何使用SDN首先幫助咱們根據SD模擬基於像素的圖像,而後演示如何使用這些學習的SD來提取形狀的骨架。

Lung cancer screening with low-dose CT scans using a deep learning approach
Authors Jason L. Causey, Yuanfang Guan, Wei Dong, Karl Walker, Jake A. Qualls, Fred Prior, Xiuzhen Huang
肺癌是致使癌症死亡的主要緣由。經過低劑量計算機斷層掃描CT篩查的早期檢測已經顯示出顯着下降死亡率,可是具備高假陽性率致使沒必要要的診斷程序。與深度學習技術相結合的定量圖像分析有可能下降這種誤報率。咱們對來自國家肺篩查試驗NLST隊列的1449個低劑量CT研究進行了計算分析。咱們應用於這個隊列咱們新開發的算法DeepScreener,它基於一種新穎的深度學習方法。在使用約3000次CT研究的訓練過程以後,該算法不須要肺結節註釋來進行癌症預測。該算法使用連續切片和多任務特徵來肯定結節是否多是癌症,並使用空間金字塔來檢測不一樣尺度的結節。咱們發現該算法能夠從體積肺CT圖像預測患者的癌症狀態,具備高精度78.2,接收器工做特徵曲線AUC下面積爲0.858。根據挑戰數據集,咱們的初步框架在2017年數據科學碗DSB2017競賽中排名第19位,排名第1。咱們在此報告DeepScreener在獨立NLST測試集上的應用。該研究代表,深度學習方法有可能顯着下降低劑量CT掃描肺癌篩查中的假陽性率。

RGB and LiDAR fusion based 3D Semantic Segmentation for Autonomous Driving
Authors Khaled El Madawy, Hazem Rashed, Ahmad El Sallab, Omar Nasr, Hanan Kamel, Senthil Yogamani
LiDAR已成爲自動駕駛應用的標準傳感器,由於它們提供高精度的3D點雲。 LiDAR在夜間低光場景或因爲相機性能降低的陰影時也很強大。對於包括物體檢測和SLAM的算法,LiDAR感知逐漸成熟。然而,語義分割算法仍然相對較少探索。因爲語義分割是一種成熟的圖像數據算法,咱們探索了基於傳感器融合的三維分割。據咱們所知,這是基於RGB和LiDAR的自動駕駛3D分割的首次嘗試。咱們的主要貢獻是將RGB圖像轉換爲用於LiDAR的極座標網格映射表示,並設計早期和中級融合架構。此外,咱們設計了一種融合了兩種融合算法的混合融合架構。咱們在KITTI數據集上評估咱們的算法,該數據集爲汽車,行人和騎自行車者提供分段註釋。咱們評估了兩種最早進的架構,即SqueezeSeg和PointSeg,而且在兩種狀況下相對於僅基於LiDAR的基線,將mIoU得分提升了10。

ZstGAN: An Adversarial Approach for Unsupervised Zero-Shot Image-to-Image Translation
Authors Jianxin Lin, Yingce Xia, Sen Liu, Tao Qin, Zhibo Chen
圖像到圖像翻譯模型已經顯示出在不一樣域之間傳輸圖像的顯着能力。大多數現有工做遵循源域和目標域在訓練和推理階段保持相同的設置,這不能歸納爲將圖像從不可見域轉換到另外一個看不見的域的場景。在這項工做中,咱們提出了無監督零鏡頭圖像來翻譯UZSIT問題,其目的是學習一種可以將翻譯知識從被看見的域轉移到看不見的域的模型。所以,咱們提出了一個名爲ZstGAN的框架。經過引入對抗性訓練方案,ZstGAN學習使用在視覺和屬性模態上在語義上一致的領域特定特徵分佈對每一個領域進行建模。而後,域不變特徵與用於圖像生成的共享編碼器解開。咱們對CUB和FLO數據集進行了大量實驗,結果證實了該方法對UZSIT任務的有效性。此外,ZstGAN顯示出相對於CUB和FLO的現有技術零射擊學習方法的顯着精確度改進。

Learning to Transfer: Unsupervised Meta Domain Translation
Authors Jianxin Lin, Yijun Wang, Yingce Xia, Tianyu He, Zhibo Chen
最近,無監督域翻譯經過快速開發的生成對抗網絡GAN和足夠的訓練數據的可用性得到了使人印象深入的性能。然而,現有的域翻譯框架以一次性方式造成,其中忽略了學習體驗。在這項工做中,咱們將這一研究方向轉向無監督的元域翻譯問題。咱們提出了一種名爲MT GAN的元翻譯模型來查找條件GAN的參數初始化,該條件GAN能夠快速適應具備有限訓練樣本的新域翻譯任務。在元訓練過程當中,MT GAN明確地使用主要翻譯任務和合成雙翻譯任務進行微調。而後咱們設計一個元優化目標,要求微調MT GAN產生良好的泛化性能。咱們證實了咱們的模型在十個不一樣的兩個域翻譯任務和多個面部身份翻譯任務中的有效性。咱們代表,當在每一個圖像域中使用不超過10個訓練樣本時,咱們提出的方法明顯優於現有的域轉換方法。

Temporally Coherent Full 3D Mesh Human Pose Recovery from Monocular Video
Authors Jian Liu, Naveed Akhtar, Ajmal Mian
最近深度學習的進步使得從個體圖像中恢復人體姿式的完整3D網格成爲可能。然而,將這一律念擴展到視頻以恢復時間上連貫的姿式仍然未被探索。在這方面的一個主要挑戰是缺少用於學習所需深度模型的適當註釋的視頻數據。現有的人體姿式數據集僅提供2D或3D骨架關節註釋,而數據集也記錄在受約束的環境中。咱們首先提供了一種技術來合成具備豐富3D註釋的單眼動做視頻,這些視頻適用於學習全網格3D人體姿式恢復的計算模型。與簡單地將衣服貼在3D人體姿式模型上的現有方法相比,咱們的方法將基於物理的現實布料變形與人體運動相結合。生成的視頻涵蓋了各類各樣的人類動做,姿式和視覺外觀,而註釋記錄了準確的人體姿式動態和人體表面信息。咱們的第二個主要貢獻是端對端可訓練的迴歸神經網絡,用於從單眼視頻中恢復全姿式網格。使用提出的視頻數據和基於LSTM的循環結構,咱們的網絡明確地學習模擬視頻中的時間相干性並對恢復的網格施加幾何一致性。咱們使用建議和基準數據集創建定量和定性分析的模型的有效性。

Region-specific Diffeomorphic Metric Mapping
Authors Zhengyang Shen, Fran ois Xavier Vialard, Marc Niethammer
咱們引入了區域特定的微分形式度量映射RDMM註冊方法。 RDMM是非參數的,估計空間時間速度場,其參數化所尋求的空間變換。這些速度場的正則化是必要的。然而,雖然現有的非參數配準方法,例如,大位移微分同態度量映射LDDMM模型,使用固定的空間不變正則化,可是咱們的模型利用估計的速度場來平衡空間變化的正則化器,從而天然地將空間時間正則化器附加到變形對象。咱們探索了一系列RDMM配準方法1註冊模型,其中具備單獨正則化的區域被預先定義,例如,在地圖集空間中,2是註冊模型,其中估計通常空間變化的正則化器,以及3註冊模型,其中空間變化的正則化器經過端到端訓練的深度學習DL模型得到。咱們提供了RDMM的變分推導,代表該模型能夠確保連續體中的微變形,而且LDDMM是RDMM的特定實例。爲了評估RDMM性能,咱們在合成2D數據上進行了實驗1,在兩個3D數據集上進行了2次關於骨關節炎倡議OAI的膝關節磁共振圖像和肺部計算機斷層掃描圖像CT的實驗1。結果代表,咱們的框架實現了最早進的圖像配準性能,同時經過學習的空間層次正則化器提供了額外的信息。此外,咱們的深度學習方法容許很是快速的RDMM和LDDMM估計。咱們的代碼將是開源的。代碼可在

ArcticNet: A Deep Learning Solution to Classify Arctic Wetlands
Authors Ziyu Jiang, Kate Von Ness, Julie Loisel, Zhangyang Wang
在氣候變暖的狀況下,北極環境正在迅速變化。特別感興趣的是溼地,一種構成最有效的陸地長期碳儲存的生態系統。隨着永久凍土融化,鎖定在這些溼地土壤中數千年的碳變得可用於需氧和厭氧分解,分別釋放CO2和CH4回到

Driver Behavior Analysis Using Lane Departure Detection Under Challenging Conditions
Authors Luis Riera, Koray Ozcan, Jennifer Merickel, Mathew Rizzo, Soumik Sarkar, Anuj Sharma
在本文中,咱們提出了一種新型模型,用於檢測車道區域,並提取車道偏離事件的變化以及用移動攝像機記錄的具備挑戰性的低分辨率視頻的入侵。咱們的算法使用基於掩碼RCNN的車道檢測模型做爲預處理器。最近,基於深度學習的模型提供了用於與分割相結合的對象檢測的最新技術。在幾種深度學習架構中,卷積神經網絡CNN優於其餘機器學習模型,特別是對於區域提議和對象檢測任務。區域提議方法和基於區域的CNN R CNN的成功推進了對象檢測的最新發展。咱們的算法利用車道分割掩模進行檢測,並使用Fix lag Kalman濾波器進行跟蹤,而不是一般的方法來檢測來自單個視頻幀的車道線。該算法容許從連續車道檢測中檢測到左或右車道的駕駛員車道偏離。初步結果顯示了對車道偏離事件的可靠檢測的但願。咱們的自定義測試數據集中車道偏離事件的整體靈敏度爲81.81。

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge
Authors Kenneth Marino, Mohammad Rastegari, Ali Farhadi, Roozbeh Mottaghi
視覺問題以理想形式回答VQA讓咱們在視覺和語言的聯合空間中學習推理,並做爲場景理解的AI任務的代理。可是,迄今爲止大多數VQA基準測試都集中在簡單計數,視覺屬性和對象檢測等問題上,這些問題不須要超出圖像內容的推理或知識。在本文中,咱們解決了基於知識的視覺問答的任務,並提供了一個名爲OK VQA的基準,其中圖像內容不足以回答問題,鼓勵依賴外部知識資源的方法。咱們的新數據集包含超過14,000個須要外部知識回答的問題。咱們代表,在這種新設置中,最早進的VQA模型的性能會急劇降低。咱們的分析代表,與之前基於知識的VQA數據集相比,咱們基於知識的VQA任務是多樣的,困難的和大的。咱們但願這個數據集可以讓研究人員爲這一領域的研究開闢新的途徑。看到

DISCO: Depth Inference from Stereo using Context
Authors Kunal Swami, Kaushik Raghavan, Nikhilanj Pelluri, Rituparna Sarkar, Pankaj Bajpai
最近基於深度學習的方法優於傳統的立體匹配方法。然而,當前基於深度學習的端到端立體匹配方法採用具備跳過鏈接的通用編碼器解碼器類型網絡。爲了限制計算要求,許多網絡執行過分的下采樣,這致使有用的低級信息的顯着損失。此外,許多網絡設計不利用豐富的多尺度上下文信息。在這項工做中,咱們經過仔細設計網絡架構來解決上述問題,以便在整個網絡中保留所需的空間信息,同時實現大型有效的感知領域以提取多尺度的上下文信息。咱們首次建立了一個合成視差數據集,反映了使用智能手機拍攝的真實生活圖像,這使咱們可以在常見的真實生活圖像上得到最早進的結果。所提出的模型DISCO在合成的場景流數據集上進行了預訓練,並在流行的基準測試和咱們的具備挑戰性的現實生活圖像的內部數據集上進行了評估。所提出的模型在質量和量化指標方面優於現有技術方法。

Learning Perceptually-Aligned Representations via Adversarial Robustness
Authors Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Brandon Tran, Aleksander Madry
機器學習的許多應用須要人類對齊的模型,即,基於關於輸入的人類有意義的信息作出決定。咱們將深度網絡學習表示的廣泛脆弱性視爲實現這一目標的基本障礙。而後,咱們將強大的優化做爲一種​​工具,用於強化人類先驗深刻神經網絡學習的特徵。由此產生的強大特徵表示與人類感知更加一致。咱們利用這些表示來執行輸入插值,特徵操做和靈敏度映射,而無需在模型訓練後進行任何後處理或人工干預。咱們的代碼和模型可用於複製這些結果

Big-Data Clustering: K-Means or K-Indicators?
Authors Feiyu Chen, Yuchen Yang, Liwei Xu, Taiping Zhang, Yin Zhang
K均值算法能夠說是最流行的數據聚類方法,一般應用於某些特徵空間中的已處理數據集,就像在譜聚類中同樣。然而,對於初始化很是敏感,K意味着在大數據應用中這個數字增加時遇到了關於簇K數量的可擴展性瓶頸。在這項工做中,咱們推廣了一個名爲K指標模型的密切相關模型,並構建了一個無需隨機初始化的高效半凸鬆弛算法。咱們提出了普遍的實證結果,以顯示當K很大時新算法的優勢。特別是,使用新算法啓動K均值算法,沒有任何複製,能夠顯着地賽過標準K均值,具備大量當前最早進的隨機複製。

A new nonlocal forward model for diffuse optical tomography
Authors Wenqi Lu, Jinming Duan, Joshua Deepak Veesa, Iain B. Styles
漫射光學層析成像DOT中的正演模型描述了光如何經過混濁介質傳播。它一般由擴散方程DE近似,其經過經典有限元方法FEM進行數值離散化。咱們提出了一個非局部擴散方程NDE做爲DOT的新正演模型,其離散化是利用基於有效圖的數值方法GNM進行的。爲了定量評估新的正向模型,咱們首先在均質板上進行實驗,其中將NDE和DE的數值精度與現有的分析解進行比較。咱們經過比較其圖像重建性能逆問題與DE的問題進一步評估NDE。咱們的實驗代表,NDE在數量上與DE至關,而且因爲有效的基於圖形的表示能夠在不一樣維度的幾何形狀中實現相同,所以能夠快速達到64。

From Words to Sentences: A Progressive Learning Approach for Zero-resource Machine Translation with Visual Pivots
Authors Shizhe Chen, Qin Jin, Jianlong Fu
神經機器翻譯模型缺少大規模並行語料庫。相比之下,經過將咱們的語言引用到外部世界,咱們人類甚至能夠在沒有平行文本的狀況下學習多語言翻譯。爲了模仿這種人類學習行爲,咱們採用圖像做爲樞軸來實現零資源翻譯學習。然而,一張圖片講述了千言萬語,這使得多個語言句子由相同的圖像轉動,如同相互翻譯同樣嘈雜,從而阻礙了翻譯模型的學習。在這項工做中,咱們提出了一種漸進式學習方法,用於圖像旋轉零資源機器翻譯。因爲詞語在圖像基礎上不那麼多樣化,咱們首先用圖像樞軸學習詞級翻譯,而後經過利用學習詞翻譯來抑制圖像旋轉多語言句子中的噪聲來學習句子級翻譯。兩個普遍使用的圖像樞軸平移數據集IAPR TC12和Multi30k的實驗結果代表,所提出的方法明顯優於其餘最早進的方法。

Self-supervised Body Image Acquisition Using a Deep Neural Network for Sensorimotor Prediction
Authors Alban Laflaqui re, Verena V. Hafner
這項工做研究了一個天真的代理人如何可以以自我監督的方式得到本身的身體形象,這是基於其感受運動經驗的可預測性。咱們的工做假設是,因爲其時間穩定性,代理人的身體比環境產生更一致的感官體驗,環境表現出更大的可變性。鑑於其運動經驗,代理人所以能夠可靠地預測其身體應具備的外觀。這種內在的可預測性可用於自動將身體圖像與其餘環境隔離。咱們提出了一個兩分支反捲積神經網絡來預測與輸入運動狀態相關的視覺感知狀態,以及與該輸入相關的預測偏差。咱們在使用模擬Pepper機器人收集的第一人稱圖像數據集上訓練網絡,並顯示網絡輸出如何用於自動將其可見臂與其餘環境隔離。最後,評估由網絡產生的身體圖像的質量。

Deep Feature Learning from a Hospital-Scale Chest X-ray Dataset with Application to TB Detection on a Small-Scale Dataset
Authors Ophir Gozes, Hayit Greenspan
ImageNet預訓練網絡的使用在醫學成像領域正變得廣泛。它支持小型數據集的培訓,一般可用於醫學成像任務。最近出現的大型胸部X射線數據集開啓了學習特定於X射線分析任務的特徵的可能性。在這項工做中,咱們證實了所學的特徵能夠更好地分析結核病檢測問題的分類結果,並可以推廣到一個看不見的數據集。爲了完成特徵學習的任務,咱們在ChestXray14數據集的112K圖像上訓練DenseNet 121 CNN,其中包括14種常見胸部病變的標籤。除病理學標籤外,咱們還歸入了數據集患者定位,性別和患者年齡中可用的元數據。咱們稱這個架構爲MetaChexNet。做爲特徵學習的副產品,咱們使用CNN來展現患者年齡性別估計任務的最新表現。最後,咱們展現了使用ChestXray14學習的特徵,能夠在結核病的小規模數據集上實現更好的轉移學習。

Probabilistic Noise2Void: Unsupervised Content-Aware Denoising
Authors Alexander Krull, Tomas Vicar, Florian Jug
今天,卷積神經網絡CNN是圖像去噪的主要方法。它們傳統上受到成對圖像的訓練,這些圖像一般很難在實際應用中得到。這激發了自我監督的訓練方法,例如在單個噪聲圖像上操做的Noise2Void N2V。遺憾的是,自我監督的方法與在圖像對上訓練的模型不具競爭力。在這裏,咱們提出了機率Noise2Void PN2V,一種訓練CNN預測每一個像素強度分佈的方法。將這些與噪聲的適當描述相結合,咱們得到了完整的機率模型,用於每一個像素中的噪聲觀測和真實信號。咱們在普遍的噪聲方案下對公開可用的顯微鏡​​數據集評估PN2V,並在監督的現有技術方法方面得到有競爭力的結果。

Discovering Neural Wirings
Authors Mitchell Wortsman, Ali Farhadi, Mohammad Rastegari
神經網絡的成功推進了從功能工程到架構工程的重點轉移。然而,今天成功的網絡是使用一組小的手動定義的構建塊構建的。即便在神經架構搜索NAS的方法中,網絡鏈接模式也受到很大限制。在這項工做中,咱們提出了一種發現神經佈線的方法。咱們放鬆了層的典型概念,而是使通道可以造成彼此獨立的鏈接。這容許更大的可能網絡空間。咱們的網絡佈線在培訓期間沒有固定,由於咱們學習了網絡參數,咱們也學習告終構自己。咱們的實驗代表,咱們學到的連通性優於手工設計和隨機有線網絡。經過了解MobileNetV1 9的鏈接性,咱們在41M FLOP時將ImageNet精度提升了10。此外,咱們代表咱們的方法推廣到循環和連續時間網絡。

3D Magic Mirror: Automatic Video to 3D Caricature Translation
Authors Yudong Guo, Luo Jiang, Lin Cai, Juyong Zhang
漫畫是一個真實的人的抽象,扭曲或誇大某些特徵,但仍然保持類似。雖然大多數現有做品都側重於從2D漫畫中重建3D漫畫或將2D照片轉換爲2D漫畫,但本文提出了一種實時自動算法,用於從2D照片或視頻中建立具備漫畫風格紋理貼圖的表現性3D漫畫。爲了解決這一具備挑戰性的病態重建問題和跨域翻譯問題,咱們首先重建每一個幀的3D人臉形狀,而後經過保持VAE CycleGAN的新穎身份和表達將3D人臉形狀從正常風格轉換爲漫畫風格。基於標籤公式,漫畫紋理圖由CariGAN生成的一組多視圖漫畫圖像構成。經過與基線實施比較,證實了咱們方法的有效性和有效性。感知研究代表,咱們的方法生成的3D漫畫符合人們對3D漫畫風格的指望。

Truncated Cauchy Non-negative Matrix Factorization
Authors Naiyang Guan, Tongliang Liu, Yangmuzi Zhang, Dacheng Tao, Larry S. Davis
非負矩陣分解NMF最小化數據矩陣與其低秩近似之間的歐幾里德距離,而且當應用於損壞的數據時它失敗,由於損失函數對異常值敏感。在本文中,咱們提出了截斷CauchyNMF丟失,經過截斷大偏差處理異常值,並開發截斷CauchyNMF以魯棒地學習被異常值污染的噪聲數據集上的子空間。咱們理論上分析了截斷CauchyNMF與競爭模型相比的魯棒性,並從理論上證實了截斷CauchyNMF具備一個泛化界,它以O sqrt ln n n的速率收斂,其中n是樣本大小。咱們經過模擬和真實數據集上的圖像聚類來評估截斷的CauchyNMF。包含嚴重破壞的數據集的實驗結果驗證了截斷CauchyNMF用於學習魯棒子空間的有效性和魯棒性。

On The Radon--Nikodym Spectral Approach With Optimal Clustering
Authors Vladislav Gennadievich Malyshkin
考慮插值,分類和聚類的問題。在Radon Nikodym方法的原則中,lan​​gle f mathbf x psi 2 rangle langle psi 2 rangle,其中psi mathbf x是輸入屬性的線性函數,全部答案都是從廣義的特徵問題f psi得到的。我是rangle lambda i psi i rangle 。插值問題的解決方案是常規的Radon Nikodym導數。分類問題的解決方案須要使用Lebesgue積分1技術得到的先驗機率和後驗機率。而在貝葉斯方法中,新的觀測結果僅改變了Radon Nikodym方法中的結果機率,不只僅是結果機率,並且還改變了隨着新觀察而變化的機率空間。這是該方法的一個顯着特徵,機率和機率空間都是從數據構建的。勒貝格正交技術也能夠應用於最優聚類問題。經過在Lebesgue測度上構造高斯求積來解決該問題。 Radon Nikodym方法的一個顯着特徵是對不變羣的知識,全部答案相對於輸入向量mathbf x份量的任何非簡併線性變換都是不變的。做者能夠得到實現插值,分類和最優聚類算法的軟件產品。

Generating Diverse High-Fidelity Images with VQ-VAE-2
Authors Ali Razavi, Aaron van den Oord, Oriol Vinyals
咱們探索使用矢量量化變分自動編碼器VQ VAE模型進行大規模圖像生成。爲此,咱們擴展和加強VQ VAE中使用的自迴歸先驗,以生成比之前更高的相干性和保真度的合成樣本。咱們使用簡單的前饋編碼器和解碼器網絡,使咱們的模型成爲編碼和/或解碼速度相當重要的應用的有吸引力的候選者。此外,VQ VAE要求僅在壓縮潛在空間中對自迴歸模型進行採樣,這比在像素空間中採樣快一個數量級,特別是對於大圖像。咱們證實了VQ VAE的多尺度分層組織,與潛在代碼相比具備強大的先驗,可以生成質量與ImageNet等多方面數據集上最早進的生成對抗網絡相媲美的樣本,同時不會受到影響。 GAN已知的缺點,如模式崩潰和缺少多樣性。

Unsupervised Bilingual Lexicon Induction from Mono-lingual Multimodal Data
Authors Shizhe Chen, Qin Jin, Alexander Hauptmann
雙語詞典概括,從源語言到目標語言的翻譯,是一項長期的天然語言處理任務。最近的努力證實,有但願採用圖像做爲樞軸來學習詞彙概括而不依賴於平行語料庫。然而,這些基於視覺的方法簡單地將單詞與整個圖像相關聯,這些圖像被約束爲翻譯具體單詞而且須要對象居中的圖像。當人們在具備語境的句子中時,人們能夠更好地理解單詞。所以,在本文中,咱們建議利用圖像及其相關標題來解決之前方法的侷限性。咱們提出了一種用不一樣的單語多模態數據訓練的多語言字幕模型,以將不一樣語言的單詞映射到關節空間。從多語言字幕模型語言特徵和局部視覺特徵引出兩種類型的單詞表示。語義特徵是從具備視覺語義約束的句子語境中學習的,這有利於學習視覺相關性較低的詞語的翻譯。局部視覺特徵處於圖像中與該單詞相關的區域,從而減輕了對顯着視覺表示的圖像限制。這兩種類型的特徵是單詞翻譯的補充。多語言對的實驗結果證實了咱們提出的方法的有效性,其基本上優於先前基於視覺的方法而不使用任何平行句子或種子詞對的監督。

Enhancing Transformation-based Defenses using a Distribution Classifier
Authors Connie Kou, Hwee Kuan Lee, Teck Khim Ng, Ee Chien Chang
對卷積神經網絡的對抗性攻擊CNN得到了極大的關注,研究工做集中在使分類器更加健壯的防護方法上。已經提出了隨機輸入變換方法,其中的想法是隨機變換輸入圖像以試圖從對抗性攻擊中恢復。雖然這些基於變換的方法在從對抗圖像中恢復時已經顯示出至關大的成功,可是隨着變換幅度的增長,乾淨圖像上的性能惡化。在本文中,咱們提出了一種防護機制,能夠與現有的基於轉換的防護相結合,並減小乾淨圖像上的性能惡化。利用變換方法是隨機的這一事實,咱們的方法對一組變換圖像進行採樣,並對softmax機率的分佈進行最終分類。咱們訓練一個單獨的緊湊分佈分類器,以識別轉換後的清晰圖像的softmax機率分佈中的獨特特徵。在沒有從新訓練原始CNN的狀況下,咱們的分佈分類器改進了基於變換的清晰和對抗圖像防護的性能,即便分佈分類器從未訓練過從對抗圖像得到的分佈。咱們的方法是通用的,能夠與現有的基於轉換的方法集成。

Super-resolution of Time-series Labels for Bootstrapped Event Detection
Authors Ivan Kiskin, Udeepa Meepegama, Steven Roberts
解決現實問題,特別是深度學習,依賴於豐富,高質量的數據。在本文中,咱們開發了一種新的框架,能夠最大化時間序列數據集的效用,該數據集僅包含少許專業標記數據,大量弱標記或粗標記數據以及大量未標記數據。這表明了現實世界中常見的場景,例如衆包應用。在咱們的工做中,咱們使用嵌套循環使用核密度估計器KDE來超級分辨豐富的低質量數據標籤,從而實現卷積神經網絡CNN的有效訓練。咱們展現了兩個關鍵結果:KDE可以更準確地超級分辨標籤,而且具備更好的校準機率,比做爲基線的完善的分類器b咱們的CNN,在KDE的超級分辨標籤上訓練,實現了F1得分的提升22.1在咱們的候選問題域中的下一個最佳基線系統。

A Semantic-based Medical Image Fusion Approach
Authors Fanda Fan, Yunyou Huang, Lei Wang, Xingwang Xiong, Zihan Jiang, Zhifei Zhang, Jianfeng Zhan
臨牀醫生有必要全面分析來自不一樣來源的患者信息。醫學圖像融合是一種從不一樣形態的醫學圖像提供總體信息的有前景的方法。然而,現有的醫學圖像融合方法忽略了圖像的語義,使得融合圖像難以理解。在本文中,咱們提出了一種基於語義的醫學圖像融合方法,並做爲一種實現,咱們提出了一種用於多模態醫學圖像融合的Fusion W Net FW網絡。實驗結果頗有但願經過咱們的方法生成的融合圖像大大減小了語義信息損失,而且與現有技術方法相比具備可比較的視覺效果。咱們的方法和工具在臨牀環境中具備很大的應用潛力。 FW Net的源代碼可在如下網站得到

Robust Learning Under Label Noise With Iterative Noise-Filtering
Authors Duc Tam Nguyen, Thi Phuong Nhung Ngo, Zhongyu Lou, Michael Klar, Laura Beggel, Thomas Brox
咱們考慮在標籤噪聲存在的狀況下訓練模型的問題。當前的方法識別具備可能不正確標籤的樣本,並經過爲它們分配較低權重或從訓練集中徹底移除它們來減小它們對學習過程的影響。然而,在第一種狀況下,模型仍然從後一種方法中的嘈雜標籤中學習,能夠丟失良好的訓練數據。在本文中,咱們提出了一種用於魯棒學習的迭代半監督機制,其排除了噪聲標籤,但仍然可以從相應的樣本中學習。爲此,咱們添加了一個無監督的損耗項,它也能夠做爲對剩餘標籤噪聲的正則化器。咱們評估了咱們對具備不一樣噪聲比的常見分類任務的方法。咱們強大的模型大大超越了最早進的方法。特別是對於很是大的噪聲比,與以前的最佳模型相比,咱們實現了高達20的絕對改進。

Perceptual Evaluation of Adversarial Attacks for CNN-based Image Classification
Authors Sid Ahmed Fezza, Yassine Bakhti, Wassim Hamidouche, Olivier D forges
深度神經網絡DNN最近實現了最早進的性能,並在許多機器學習任務中提供了重大進展,例如圖像分類,語音處理,天然語言處理等。然而,最近的研究代表DNN容易受到對抗性攻擊。例如,在圖像分類域中,向輸入圖像添加小的不易察覺的擾動足以欺騙DNN並致使錯誤分類。被稱爲textit對抗性示例的擾動圖像應在視覺上儘量接近原始圖像。然而,文獻中提出的用於生成對抗性示例的全部工做都使用L p範數L 0,L 2和L infty做爲距離度量來量化原始圖像和對抗性示例之間的類似性。儘管如此,L p規範與人類判斷無關,使得它們不適合可靠地評估對抗性實例的感知類似性保真度。在本文中,咱們提出了一個用於對抗性實例的視覺保真度評估的數據庫。咱們描述了數據庫的建立,並評估了可替代L p規範的十五種最早進的完整參考FR圖像保真度評估指標的性能。數據庫和主觀評分可公開獲取,以幫助設計對抗性示例的新指標並促進將來的研究工做。

Out of Sight But Not Out of Mind: An Answer Set Programming Based Online Abduction Framework for Visual Sensemaking in Autonomous Driving
Authors Jakob Suchan, Mehul Bhatt, Srikrishna Varadarajan
咱們展現了在自動駕駛背景下系統集成的視覺和語義解決方案在視覺意義制定方面的需求和潛力。使用答案集編程的在線視覺意義的通常方法被系統地形式化而且徹底實現。該方法在基於深度學習的視覺計算中集成了現有技術,而且被開發爲可在混合架構內用於感知控制的模塊化框架。咱們使用社區創建的基準KITTIMOD和MOT進行評估和演示。做爲用例,咱們關注人類中心視覺意義的重要性,例如,語義表達和可解釋性,問題回答,安全關鍵自動駕駛情境中的常識插值。

Visual Understanding and Narration: A Deeper Understanding and Explanation of Visual Scenes
Authors Stephanie M. Lukin, Claire Bonial, Clare R. Voss
咱們描述了視覺理解和敘述的任務,其中機器人或代理爲導航其環境時收集的圖像生成文本,經過回答開放式問題,例如發生的事情,或者可能發生的事情,這裏

Chinese Abs From Machine Translation

Papers from arxiv.org跨域

更多精彩請移步主頁安全


在這裏插入圖片描述
pic from pexels.com

相關文章
相關標籤/搜索