【今日CV 計算機視覺論文速覽 第132期】Tue, 18 Jun 2019

今日CS.CV 計算機視覺論文速覽
Tue, 18 Jun 2019
Totally 64 papers
👉上期速覽更多精彩請移步主頁
html

在這裏插入圖片描述

Interesting:

📚****MMDetection, 一個目標檢測模型工具箱和代碼庫,包含了常見的目標檢測模型,標準模塊和高效的實現。能夠爲研究人員提供高效靈活的目標檢測實現工具。還包含了多GPU的分佈式訓練實現。(from 港中文、浙大、悉尼大學、商湯、微軟亞研、北理理工、南大、華中科技、北大、港科技、中山大學、西北大學(us)、南洋理工)
工具箱支持的模型庫與其餘代碼庫比較:
在這裏插入圖片描述
通用的架構和訓練流程:
在這裏插入圖片描述在這裏插入圖片描述
code:https://github.com/open-mmlab/mmdetection

git

📚****Image-based 3D Object Reconstruction基於圖像的三維重建深度學習實現綜述, 從輸入數據類型、輸出表示、網絡架構和訓練過程對整個基於圖像的三維重建進行了深刻的分析,並對100多個模型進行了分析和比較。是一篇較好的單圖像三維重建綜述文章。(from 天津大學)
在這裏插入圖片描述

github

📚基於對抗網絡的水下圖像加強算法, 首先提出了U45水下數據集,同時設計了針對圖像和特徵的融合特徵的損失函數。實現的模型參數較少,速度較快效果較好。(from 南京信息工程大學)
在這裏插入圖片描述
u45 dataset:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-
rar:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-/blob/master/U45.rar

web


Daily Computer Vision Papers

MMDetection: Open MMLab Detection Toolbox and Benchmark
Authors Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jiarui Xu, Zheng Zhang, Dazhi Cheng, Chenchen Zhu, Tianheng Cheng, Qijie Zhao, Buyu Li, Xin Lu, Rui Zhu, Yue Wu, Jifeng Dai, Jingdong Wang, Jianping Shi, Wanli Ouyang, Chen Change Loy, Dahua Lin
咱們提供MMDetection,這是一個對象檢測工具箱,包含豐富的對象檢測和實例分割方法以及相關的組件和模塊。該工具箱從MMDet團隊的代碼庫開始,他們贏得了COCO Challenge 2018的檢測軌道。它逐漸演變成一個統一的平臺,涵蓋了許多流行的檢測方法和現代模塊。它不只包括訓練和推理代碼,還爲200多種網絡模型提供權重。咱們相信這個工具箱是迄今爲止最完整的檢測工具箱。在本文中,咱們將介紹此工具箱的各類功能。此外,咱們還對不一樣的方法,組件及其超參數進行了基準研究。咱們但願工具箱和基準能夠經過提供靈活的工具包來從新實現現有方法並開發本身的新探測器,從而爲不斷增加的研究社區服務。代碼和型號可在如下網站得到

Machine-Assisted Map Editing
Authors Favyen Bastani, Songtao He, Sofiane Abbar, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Sam Madden
今天制定道路網絡是勞動密集型的。所以,許多國家的路線圖在城市中心之外的覆蓋率很低。已經提出了從航空圖像和GPS軌跡自動推斷道路網絡圖的系統,以改善道路地圖的覆蓋範圍。可是,因爲錯誤率很高,映射社區還沒有采用這些系統。咱們提出機器輔助地圖編輯,其中自動地圖推理被集成到現有的,以人爲中心的地圖編輯工做流程中。爲了實現這一點,咱們構建了機器輔助iD MAiD,咱們使用機器輔助功能擴展了基於Web的OpenStreetMap編輯器iD。咱們用一種新穎的方法來補充MAiD,該方法用於從航拍圖像推斷道路拓撲,其結合了先前分割方法的速度和先前迭代圖形構造方法的準確性。咱們設計MAiD來解決在現有地圖覆蓋率較差的地區增長主要幹道,以及在已經繪製主要道路的地區逐步改善覆蓋範圍。咱們進行了兩項用戶研究,發現當參與者得到固定時間繪製道路時,他們可使用MAiD增長多達3.5倍的道路。

Particle Swarm Optimization for Great Enhancement in Semi-Supervised Retinal Vessel Segmentation with Generative Adversarial Networks
Authors Qiang Huo
基於深度學習的視網膜血管分割須要大量手動標記數據。這是耗時,費力和專業的。更糟糕的是,獲取豐富的眼底圖像很困難。因爲存在異常,血管的大小和形狀不一樣,不均勻的照射和解剖學變化,這些問題更加嚴重。在本文中,咱們提出了一個數據有效的半監督學習框架,它有效地結合了現有的深度學習網絡與GAN和自我培訓的想法。針對半監督學習超參數調整的難度,提出了一種基於粒子羣優化算法的超參數選擇方法。據咱們所知,這項工做是第一次將智能優化與半監督學習相結合以實現最佳性能的演示。在對抗性學習,自我訓練和PSO的協做下,選擇最佳超參數,咱們得到的視網膜血管分割的性能接近或甚至優於表明性的監督學習,僅使用來自DRIVE的標記數據的十分之一。

Boosting Supervision with Self-Supervision for Few-shot Learning
Authors Jong Chyi Su, Subhransu Maji, Bharath Hariharan
咱們提出了一種技術,經過引入自監督任務做爲輔助損失函數來提升在小標記數據集上學習的深度表示的可轉移性。雖然最近的自我監督學習方法已經顯示了對大型未標記數據集進行培訓的好處,但咱們發現即便在小型數據集上以及與強有力的監督相結合時,也能夠改進泛化。具備自我監督損失的學習表示在幾個鏡頭學習基準上下降了現有技術元學習者的相對錯誤率,而且在從頭開始訓練時下降了標準分類任務的現成深度網絡。咱們發現自我監督的好處隨着任務的難度而增長。咱們的方法利用數據集中的圖像來構建自我監督的損失,所以是學習可轉移表示的有效方式,而不依賴於任何外部訓練數據。

Exemplar Guided Face Image Super-Resolution without Facial Landmarks
Authors Berk Dogan, Shuhang Gu, Radu Timofte
現在,因爲無處不在的視覺媒體,存在大量已經可用的高分辨率HR臉部圖像。所以,爲了超分辨人的給定的很是低分辨率的LR面部圖像,極可能找到可用於指導該過程的同一人的另外一個HR面部圖像。在本文中,咱們提出了一種基於卷積神經網絡CNN的解決方案,即GWAInet,它將超分辨率SR應用於由同一我的的另外一個無約束HR面部圖像引導的面部圖像上,可能在年齡,表情,姿式或尺寸。 GWAInet以對抗性生成方式進行訓練,以產生所需的高質量感知圖像結果。 HR引導圖像的利用經過使用將其內容與輸入圖像對齊的整經器子網絡以及對來自彎曲引導圖像和輸入圖像的提取特徵的特徵融合鏈的使用來實現。在訓練中,身份丟失進一步有助於經過最小化SR和HR地面真實圖像的嵌入向量之間的距離來保持身份相關特徵。與面部超分辨率的現有技術水平相反,咱們的方法不須要用於其訓練的面部標誌點,這有助於其穩健性而且容許其以均勻的方式爲周圍的面部區域產生精細的細節。咱們的方法GWAInet以升序因子8x產生照片逼真圖像,而且在數量和感知質量方面優於現有技術水平。

Towards Real-Time Action Recognition on Mobile Devices Using Deep Models
Authors Chen Lin Zhang, Xin Xin Liu, Jianxin Wu
動做識別是計算機視覺中的一項重要任務,而且開發了許多方法以將其推向極限。然而,當前的動做識別模型具備巨大的計算成本,其不能部署到移動設備上的現實世界任務中。在本文中,咱們首先說明實時動做識別的設置,這與當前動做識別推理設置不一樣。在新的推理設置下,咱們根據經驗研究了Kinetics數據集上的最新動做識別模型。咱們的結果代表,設計高效的實時動做識別模型不一樣於設計高效的ImageNet模型,尤爲是在權重初始化中。咱們展現了ImageNet上通過預先訓練的權重能夠提升實時動做識別設置下的準確性。最後,咱們使用手勢識別任務做爲案例研究來評估咱們在移動電話上的實際應用中的緊湊實時動做識別模型。結果代表,咱們的動做識別模型速度提升了6倍,而且具備與現有技術類似的精度,能夠大體知足移動設備的實時要求。據咱們所知,這是第一篇在移動設備上部署當前深度學習動做識別模型的論文。

Semi-Supervised Semantic Mapping through Label Propagation with Semantic Texture Meshes
Authors Radu Alexandru Rosu, Jan Quenzel, Sven Behnke
場景理解是機器人在非結構化環境中行動的重要能力。雖然大多數SLAM方法提供場景的幾何表示,但語義地圖對於與周圍環境的更復雜的交互是必要的。當前的方法將語義映射視爲幾何的一部分,這限制了可伸縮性和準確性。咱們建議將語義地圖表示爲幾何網格和以獨立分辨率耦合的語義紋理。關鍵的想法是,在許多環境中,幾何形狀能夠大大簡化而不會失去保真度,而語義信息能夠以更高的分辨率存儲,而與網格無關。咱們從深度傳感器構造網格以表示場景幾何,並將信息融合到來自場景的各個RGB視圖的分段的語義紋理中。使語義在全局網格中持久化使咱們可以強制執行各個視圖預測的時間和空間一致性。爲此,咱們提出了一種經過迭代地從新訓練語義分割與存儲在地圖內的信息並使用從新訓練的分割來從新融合語義來在各個分割之間創建共識的有效方法。咱們經過重建來自NYUv2的場景的語義地圖和跨越大型建築物的場景來展現咱們的方法的準確性和可擴展性。

Trimmed Action Recognition, Dense-Captioning Events in Videos, and Spatio-temporal Action Localization with Focus on ActivityNet Challenge 2019
Authors Zhaofan Qiu, Dong Li, Yehao Li, Qi Cai, Yingwei Pan, Ting Yao
本筆記本文件介紹了咱們爲ActivityNet Challenge 2019修剪動做識別,視頻中的密集字幕事件和時空動做本地化中的如下三個任務而設計的系統的概述和比較分析。

Hallucinated Adversarial Learning for Robust Visual Tracking
Authors Qiangqiang Wu, Zhihui Chen, Lin Cheng, Yan Yan, Bo Li, Hanzi Wang
人類能夠從一個單一的範例中輕鬆地學習新的概念,這主要是由於他們具備非凡的想象力或幻覺可以在不一樣環境中看不見的樣本。結合這種對被跟蹤實例的各類新樣本產生幻覺的能力能夠幫助跟蹤器減輕低數據跟蹤狀態中的過分擬合問題。爲實現這一目標,咱們提出了一種有效的對抗方法,表示爲對抗性幻覺AH,用於穩健的視覺跟蹤。所提出的AH被設計爲首先在一對相同的身份實例之間學習可轉移的非線性變形,而後將這些變形應用於看不見的跟蹤實例,以便生成不一樣的正訓練樣本。經過經過檢測框架將AH結合到在線跟蹤中,咱們提出了幻覺對抗跟蹤器HAT,其以端對端方式聯合優化AH與在線分類器,例如MDNet。此外,提出了一種新穎的選擇性變形轉移SDT方法,以更好地選擇更適合轉移的變形。對3個流行基準測試的普遍實驗代表,咱們的HAT實現了最早進的性能。

Multi-Scale Convolutions for Learning Context Aware Feature Representations
Authors Nikolai Ufer, Kam To Lui, Katja Schwarz, Paul Warkentin, Bj rn Ommer
尋找語義對應是一個具備挑戰性的問題。隨着CNN的突破,更強的功能可用於分類等任務,但不是專門針對語義匹配的要求。在下文中,咱們提出了一種弱監督的度量學習方法,經過編碼比之前的方法更多的上下文來生成更強的特徵。首先,咱們使用幾何通知的對應挖掘方法生成更合適的訓練數據,該方法不太容易進行虛假匹配,而且僅須要圖像類別標籤做爲監督。其次,咱們引入了一個新的卷積層,它是不一樣步幅卷積的學習混合,容許網絡隱式編碼更多上下文,同時保持匹配精度。特徵方面的強幾何編碼使咱們可以學習語義流網絡,該網絡比基於參數變換的模型生成更天然的變形,而且可以同時聯合預測前景區域。咱們的語義流網絡在幾個語義匹配基準測試中優於當前的技術水平,而且學習的特徵在簡單的最近鄰居匹配方面表現出驚人的性能。

EnlightenGAN: Deep Light Enhancement without Paired Supervision
Authors Yifan Jiang, Xinyu Gong, Ding Liu, Yu Cheng, Chen Fang, Xiaohui Shen, Jianchao Yang, Pan Zhou, Zhangyang Wang
基於深度學習的方法在圖像恢復和加強方面取得了顯着的成功,可是當缺少配對的訓練數據時它們仍然具備競爭力。做爲一個這樣的例子,本文探討了低光圖像加強問題,在實踐中它極具挑戰性同時拍攝同一視覺場景的低光和普通光照。咱們提出了一種高效的無監督生成對抗網絡,稱爲EnlightenGAN,能夠在沒有低正常光圖像對的狀況下進行訓練,但證實能夠很好地歸納各類真實世界的測試圖像。咱們建議使用從輸入自己提取的信息來規範非配對訓練,並對低光圖像加強問題進行基準測試,包括全局局部鑑別器結構,自我正則化,而不是使用地面實況數據來監督學習。感知損失融合和注意機制。經過大量實驗,咱們提出的方法在視覺質量和主觀用戶研究方面優於各類指標下的近期方法。因爲非配對培訓帶來了極大的靈活性,EnlightenGAN能夠很容易地適應各類領域的現實世界圖像。該代碼可在網址獲取

Noisy-As-Clean: Learning Unsupervised Denoising from the Corrupted Image
Authors Jun Xu, Yuan Huang, Li Liu, Fan Zhu, Xingsong Hou, Ling Shao
在過去幾年中,監督網絡在圖像去噪方面取得了很好的成績。這些方法從大量嘈雜和乾淨的圖像中學習圖像先驗和合成噪聲統計。最近,僅使用外部噪聲圖像進行訓練,提出了幾種無監督的去噪網絡。然而,從外部數據學習的網絡固有地受到域間隙困境的影響,即,訓練數據和損壞的測試圖像之間的圖像先驗和噪聲統計很是不一樣。在處理真實照片中依賴於信號的真實噪聲時,這種困境變得更加清晰。在這項工做中,咱們提供了一個統計上有用的結論,能夠僅使用損壞的圖像來學習無監督網絡,近似於使用成對的噪聲和乾淨圖像學習的監督網絡的最佳參數。這是經過提出一種嘈雜的清潔策略來實現的,該策略將損壞的圖像做爲清潔目標,而且基於損壞的圖像做爲輸入的模擬噪聲圖像。大量實驗代表,採用咱們的Noisy As Clean策略學習的無監督去噪網絡在去除幾種典型的合成噪聲和逼真噪聲方面使人驚訝地優於之前的監督網絡。該代碼將公開發布。

Multi-task Learning For Detecting and Segmenting Manipulated Facial Images and Videos
Authors Huy H. Nguyen, Fuming Fang, Junichi Yamagishi, Isao Echizen
檢測被操縱的圖像和視頻是數字媒體取證中的一個重要主題。大多數檢測方法使用二進制分類來肯定查詢被操縱的機率。另外一個重要的主題是定位操縱區域,即執行分割,其主要由三種經常使用的攻擊移除,複製移動和拼接建立。咱們設計了一個卷積神經網絡,它使用多任務學習方法同時檢測被操縱的圖像和視頻,併爲每一個查詢定位操縱區域。經過執行一項任務得到的信息與另外一項任務共享,從而提升兩項任務的性能。半監督學習方法用於改善網絡的可生成性。該網絡包括編碼器和Y形解碼器。編碼特徵的激活用於二進制分類。解碼器的一個分支的輸出用於分割操縱區域,而另外一個分支的輸出用於重建輸入,這有助於提升總體性能。使用FaceForensics和FaceForensics數據庫的實驗證實了網絡對面部重演攻擊和麪部交換攻擊的有效性,以及它處理先前看到的攻擊的不匹配條件的能力。此外,僅使用少許數據進行微調就可使網絡處理看不見的攻擊。

Hierarchical Back Projection Network for Image Super-Resolution
Authors Zhi Song Liu, Li Wen Wang, Chu Tak Li, Wan Chi Siu
基於深度學習的單圖像超分辨率方法使用大量的訓練數據集,而且最近在數量和質量上都取得了很好的質量進展。大多數深度網絡都專一於經過殘差學習從低分辨率輸入到高分辨率輸出的非線性映射,而無需探索特徵抽象和分析。咱們提出了一種分層反向投影網絡HBPN,它將多個HourGlass HG模塊級聯到全部尺度的自下而上和自上而下的過程特徵,以捕獲各類空間相關性,而後整合最佳的重建表示。咱們在咱們提出的網絡中採用反投影塊來提供偏差相關的上下采樣過程,以取代簡單的反捲積和合並過程,以便更好地進行估計。基於Softmax的新加權重建WR過程用於組合HG模塊的輸出,以進一步提升超分辨率。包括真實圖像超分辨率挑戰的驗證數據集NTIRE2019在內的各類數據集的實驗結果代表,咱們提出的方法能夠實現並改善不一樣比例因子的現有技術方法的性能。

NLH: A Blind Pixel-level Non-local Method for Real-world Image Denoising
Authors Yingkun Hou, Jun Xu, Mingxia Liu, Guanghai Liu, Li Liu, Fan Zhu, Ling Shao
非局部自類似性NSS是用於圖像去噪的天然圖像的強大先驗。大多數現有的去噪方法使用相似的補丁,這是補丁級NSS先驗。在本文中,咱們經過引入像素級NSS先前向前邁出一步,即在非局部區域上搜索類似像素。這是由於發現密切類似的像素比天然圖像中的相似斑塊更可行,這能夠用於加強圖像去噪性能。利用引入的像素級NSS先驗,咱們提出了一種精確的噪聲水平估計方法,而後開發了基於提高Haar變換和Wiener濾波技術的盲圖像去噪方法。對基準數據集的實驗代表,所提出的方法在現實世界圖像去噪方面比現有技術方法得到了更好的性能。代碼將被釋放。

Spatio-Temporal Fusion Networks for Action Recognition
Authors Sangwoo Cho, Hassan Foroosh
基於視頻的CNN工做集中於融合外觀和運動網絡的有效方式,但它們一般缺少利用視頻幀上的時間信息。在這項工做中,咱們提出了一個新穎的時空融合網絡STFN,它集成了整個視頻的外觀和運動信息的時間動態。而後聚合捕獲的時間動態信息以得到更好的視頻級表示並經過端到端訓練學習。時空融合網絡由兩組殘餘初始塊組成,它們提取時間動態和外觀和運動特徵的融合鏈接。 STFN的優點在於它能夠捕獲互補數據的本地和全球時間動態,以學習視頻普遍的信息,而且它適用於任何視頻分類網絡以提升性能。咱們探索了STFN的各類設計選擇,並驗證了消融研究如何改變網絡性能。咱們在兩個具備挑戰性的人類活動數據集UCF101和HMDB51上進行實驗,並經過最佳網絡實現最早進的結果。

A Fusion Adversarial Network for Underwater Image Enhancement
Authors Jingjing Li, Hanyu Li
水下圖像加強算法在水下視覺任務中引發了普遍關注。然而,這些算法主要在不一樣的數據集和不一樣的度量上進行評估。在本文中,咱們創建了一個有效的公共水下測試數據集U45,包括水降低水效果的低色度,低對比度和霧霾效應,並提出了一個融合對抗網絡來加強水下圖像。同時,設計了包括Lgt損失和Lfe損失在內的對抗性損失,分別關注地面實況的圖像特徵和融合加強方法加強的圖像特徵。所提出的網絡有效地校訂了色偏,而且用更少的參數擁有更快的測試時間。 U45數據集的實驗結果代表,所提出的方法在定性和定量評估方面實現了比其餘現有技術方法更好或至關的性能。此外,消融研究證實了每一個組件的貢獻,而且應用測試進一步顯示了加強圖像的有效性。

A Temporal Sequence Learning for Action Recognition and Prediction
Authors Sangwoo Cho, Hassan Foroosh
在這項工做腳註中這項工做部分由國家科學基金會資助IIS 1212948支持。咱們提出了一種方法來表示具備一系列單詞的視頻,並學習這些單詞的時間順序做爲預測和預測的關鍵信息。認識到人類行爲。咱們利用句子分類中使用的天然語言處理NLP文獻中的核心概念來解決動做預測和動做識別的問題。使用Bag of Visual Words BoW編碼方法將每一個幀轉換爲表示爲向量的單詞。而後將這些單詞組合成一個句子來表示視頻,做爲一個句子。使用簡單但有效的時間卷積神經網絡CNN來學習不一樣動做中的單詞序列,其捕獲視頻句子中的信息的時間順序。咱們證實了所提出方法的一個關鍵特徵是其低延遲,即其用部分序列句準確預測動做的能力。對兩個數據集(textit UCF101和textit HMDB51)的實驗代表,該方法在視頻幀的一半內平均達到95的精度。結果還代表,除了動做預測以外,咱們的方法在動做識別中即在句子完成時實現了兼容的現有技術性能。

Three-Dimensional Fourier Scattering Transform and Classification of Hyperspectral Images
Authors Ilya Kavalerov, Weilin Li, Wojciech Czaja, Rama Chellappa
最近的研究已經產生了許多新技術,可以捕獲高光譜圖像分析的高光譜數據的特殊屬性,高光譜圖像分類是最活躍的任務之一。時頻方法將光譜分解爲多光譜帶,而諸如神經網絡的分層方法結合了尺度上的空間信息而且模擬光譜特徵之間的多個依賴性水平。傅立葉散射變換是時間頻率表示與神經網絡架構的融合,最近已經證實這二者在頻譜空間分類方面提供了顯着的進步。咱們在四個標準高光譜數據集上測試所提出的三維傅里葉散射方法,而且呈現的結果代表,與其餘現有技術的光譜空間分類方法相比,傅立葉散射變換在表示光譜數據方面很是有效。

Panoptic Image Annotation with a Collaborative Assistant
Authors Jasper R. R. Uijlings, Mykhaylo Andriluka, Vittorio Ferrari
本文旨在減小爲全景分割任務註釋圖像的時間,這須要爲全部對象實例和填充區域添加分段掩碼和類標籤。咱們將咱們的方法制定爲註釋器和自動化助理代理之間的協做過程,後者輪流使用預約義的段池共同註釋圖像。註釋器執行的動做充當強大的上下文信號。助手經過預測註釋器的將來動做來智能地響應該信號,而後註釋器本身執行。這減小了註釋器所需的工做量。在COCO全景數據集Caesar18cvpr,Kirillov18arxiv,Lin14eccv上的實驗代表,咱們的方法比最近的Andriluka18acmmm機器輔助界面快17 27。與傳統的手動多邊形繪圖Russel08ijcv相比,這至關於加速了4倍。

Back-Projection based Fidelity Term for Ill-Posed Linear Inverse Problems
Authors Tom Tirer, Raja Giryes
在許多圖像處理應用中出現了病態的線性逆問題,例如去模糊,超分辨率和壓縮感知。許多恢復策略涉及最小化成本函數,其由保真度和先前項組成,由正則化參數平衡。雖然大量研究都集中在不一樣的先驗模型上,但保真度項幾乎老是被選擇爲最小二乘LS目標,這鼓勵將線性變換的優化變量擬合到觀察中。在這項工做中,咱們研究了一個不一樣的保真度項,最近提出的迭代去噪和後向投影IDBP框架已經隱含地使用了這個術語。該術語鼓勵優化變量的投影到線性算子的行空間和應用於觀察的線性算子反投影的僞逆之間的一致。咱們分析地檢驗了Tikhonov正則化的兩個保真度項之間的差別,並肯定了新術語優於標準LS術語的狀況。此外,咱們在經驗上證實了複雜凸和非凸先驗的兩個誘導成本函數的行爲,例如總變差,BM3D和深度生成模型,與所得到的理論分析相關。

Floors are Flat: Leveraging Semantics for Real-Time Surface Normal Prediction
Authors Steven Hickson, Karthik Raveendran, Alireza Fathi, Kevin Murphy, Irfan Essa
咱們提出了4個有助於顯着改善深度學習模型性能的看法,這些模型能夠從單個RGB圖像中預測表面法線和語義標籤。這些看法是訓練集中的地面真實表面法線的1個去噪,以確保與實際和合成數據的混合上同時訓練的語義標籤2的一致性,而不是在實際3上預處理合成和微調,使用a來共同預測法線和語義。共享模型,但只有具備有效訓練標籤的像素的反向傳播錯誤4使模型變細並使用灰度而不是顏色輸入。儘管這些步驟很是簡單,但咱們使用在標準手機上以12 fps運行的模型,在幾個數據集上展現了持續改進的結果。

On the Self-Similarity of Natural Stochastic Textures
Authors Samah Khawaled, Yehoshua Y. Zeevi
自類似性是分形圖像的本質,所以,表徵天然隨機紋理。本文關注的是在包含隨機紋理和結構主要肯定性信息的徹底紋理圖像的狀況下統計意義上的自類似性。咱們首先將紋理圖像分解爲與其紋理和結構相對應的兩層,而且代表表示隨機紋理的層的特徵在於均勻分佈的隨機相位,而不是相干的結構化信息的相位。經過使用合適的假設檢驗框架來驗證隨機相的均勻分佈。咱們繼續提出兩種評估自類似性的方法。第一種是基於互補信息的補丁計算,而第二種是衡量跨尺度存在的互信息。經過互信息量化自類似程度對於在醫學成像,地質學,農業和計算機視覺算法中遇到的天然隨機紋理的分析是相當重要的,所述天然隨機紋理被設計用於在徹底紋理圖像上應用。

Defending Against Adversarial Attacks Using Random Forests
Authors Yifan Ding, Liqiang Wang, Huan Zhang, Jinfeng Yi, Deliang Fan, Boqing Gong
隨着深度神經網絡DNN變得愈來愈重要和流行,DNN的穩健性是互聯網和物理世界安全的關鍵。不幸的是,最近的一些研究代表,難以與實際例子區別開來的對抗性例子很容易欺騙DNN並操縱他們的預測。在觀察到對抗性示例主要是經過基於梯度的方法生成時,在本文中,咱們首先提出使用一種簡單但很是有效的非可微混合模型,該模型結合了DNN和隨機森林,而不是隱藏攻擊者的漸變,以抵禦攻擊。咱們的實驗代表,咱們的模型能夠成功地徹底抵禦白盒攻擊,具備較低的可轉移性,而且對三種表明性的黑盒攻擊類型具備很強的抵抗力,同時,咱們的模型實現了與原始DNN相似的分類精度。最後,咱們調查並建議一個標準來定義在DNN中種植隨機森林的位置。

Deep Recurrent Quantization for Generating Sequential Binary Codes
Authors Jingkuan Song, Xiaosu Zhu, Lianli Gao, Xin Shun Xu, Wu Liu, Heng Tao Shen
量化因爲其高精度和快速搜索速度,已成爲ANN近似最近鄰搜索中的有效技術。爲了知足不一樣應用的要求,在檢索精度和速度之間老是存在折衷,這反映在可變代碼長度上。可是,要將數據集編碼爲不一樣的代碼長度,現有方法須要訓練多個模型,其中每一個模型只能生成特定的代碼長度。這致使至關大的訓練時間成本,而且在很大程度上下降了在實際應用中部署的量化方法的靈活性。爲了解決這個問題,咱們提出了一種深度遞歸量化DRQ架構,它能夠生成順序二進制碼。最後,當訓練模型時,能夠生成一系列二進制代碼,而且能夠經過調整循環迭代次數來容易地控制代碼長度。共享碼本和標量因子被設計爲深度遞歸量化塊中的可學習權重,而且能夠以端到端方式訓練整個框架。據咱們所知,這是第一種能夠訓練一次並生成順序二進制代碼的量化方法。基準數據集上的實驗結果代表,與圖像檢索的現有技術相比,咱們的模型實現了可比較的甚至更好的性能。但它須要的參數和訓練時間明顯減小。咱們的代碼在線發佈

Beyond Product Quantization: Deep Progressive Quantization for Image Retrieval
Authors Lianli Gao, Xiaosu Zhu, Jingkuan Song, Zhou Zhao, Heng Tao Shen
產品量化PQ長期以來一直是以很是低的內存時間成本生成指數級大型碼本的主流。儘管PQ成功,但對於高維向量空間的分解仍然很棘手,而且當代碼長度改變時,模型的從新訓練一般是不可避免的。在這項工做中,咱們提出了深度漸進量化DPQ模型,做爲PQ的替代,用於大規模圖像檢索。 DPQ順序學習量化代碼並逐步逼近原始特徵空間。所以,咱們能夠同時訓練具備不一樣碼長的量化碼。具體而言,咱們首先利用標籤信息來指導視覺特徵的學習,而後應用幾個量化塊逐步接近視覺特徵。每一個量化塊被設計爲卷積神經網絡的一層,而且整個框架能夠以端到端的方式進行訓練。基準數據集上的實驗結果代表,咱們的模型明顯優於圖像檢索的最新技術水平。咱們的模型針對不一樣的代碼長度進行一次訓練,所以須要較少的計算時間額外的消融研究證實了咱們提出的模型的每一個組成部分的效果。咱們的代碼發佈於

On training deep networks for satellite image super-resolution
Authors Michal Kawulok, Szymon Piechaczek, Krzysztof Hrynczenko, Pawel Benecki, Daniel Kostrzewa, Jakub Nalepa
近來,經過使用深度卷積神經網絡,顯着改善了用於加強圖像空間分辨率的超分辨率重建SRR技術的能力。一般,這種網絡是使用由原始圖像組成的大型訓練集以及它們的低分辨率對應物來學習的,這些訓練集經過雙三次下采樣得到。在本文中,咱們研究了SRR性能如何受到得到這種低分辨率訓練數據的方式的影響,這種數據還沒有被研究過。咱們普遍的實驗研究代表,訓練數據特徵對重建精度有很大影響,普遍採用的方法對於處理衛星圖像並非最有效的。總的來講,咱們認爲開發更好的培訓數據準備程序多是使SRR適合現實世界應用的關鍵。

Learning Part Generation and Assembly for Structure-aware Shape Synthesis
Authors Jun Li, Chengjie Niu, Kai Xu
學習用於3D形狀合成的深度生成模型在很大程度上受到難以生成具備正確拓撲和合理幾何形狀的合理形狀的限制。實際上,即便在相同的形狀類別中,考慮到3D物體的顯着拓撲變化,學習彷佛合理的3D形狀的分佈對於大多數現有的,結構遺忘形狀表示來講彷佛是艱鉅的任務。基於三維形狀分析的共識,形狀結構被定義爲零件組成和零件之間的相互關係,咱們建議使用深度生成網絡(部分意識和關係意識)對3D形狀變化進行建模,命名爲PARANet。網絡由每一個部分的VAE GAN陣列組成,生成構成完整形狀的語義部分,而後是部件組裝模塊,其估計每一個部件的變換以將它們關聯並組裝成合理的結構。經過將零件組成和零件關係的生成分紅單獨的網絡,大大減小了對三維形狀的結構變化進行建模的難度。咱們經過大量實驗證實,PARANet生成具備合理,多樣和詳細結構的3D形狀,並展現了兩種原型應用的語義形狀分割和形狀集演化。

STAR: A Structure and Texture Aware Retinex Model
Authors Jun Xu, Mengyang Yu, Li Liu, Fan Zhu, Dongwei Ren, Yingkun Hou, Haoqian Wang, Ling Shao
Retinex理論主要是經過分析局部圖像導數將圖像分解爲光照和反射份量。在該理論中,較大的導數歸因於分段恆定反射率的變化,而較小的導數出如今平滑照明中。在本文中,咱們建議利用帶有觀測圖像的指數伽馬的指數導數,當用γ1放大時產生結構圖,當用γ1收縮時產生紋理圖。爲此,咱們設計了局部導數的指數濾波器,並展現了它們提取精確結構和紋理圖的能力,受到局部導數上指數γ選擇的影響。提取的結構和紋理圖用於調整Retinex分解中的照明和反射份量。還提出了一種新穎的結構和紋理感知Retinex STAR模型,用於單個圖像的照射和反射分解。咱們以交替最小化的方式解決STAR模型。每一個子問題都轉換爲帶有閉合形式解的矢量化最小二乘迴歸。綜合實驗代表,與先前的競爭方法相比,所提出的STAR模型在照明和反射率估計,低光圖像加強和顏色校訂方面產生更好的定量和定性性能。該代碼將公開發布。

Mixture separability loss in a deep convolutional network for image classification
Authors Trung Dung Do, Cheng Bin Jin, Hakil Kim, Van Huan Nguyen
在機器學習中,成本函數相當重要,由於它衡量系統的好壞。在圖像分類中,衆所周知的網絡僅考慮修改網絡結構並在網絡末端應用交叉熵損失。然而,僅使用交叉熵損失致使網絡在全部訓練圖像被正確分類時中止更新權重。這是早期飽和的問題。本文提出了一種新的成本函數,稱爲混合分離性損失MSL,即便在大多數訓練圖像被準確預測時,它也會更新網絡的權重。 MSL由班級和班級損失組成。在類丟失之間最大化類間圖像之間的差別,而在類丟失內最小化類內圖像之間的類似性。咱們設計了所提出的損失函數以附加到網絡中的不一樣卷積層,以便利用中間特徵映射。實驗代表,具備MSL的網絡加深了學習過程,並經過一些公共數據集得到了有但願的結果,例如Street View House Number SVHN,加拿大高級研究CIFAR研究所和咱們本身收集的Inha計算機視覺實驗室ICVL性別數據集。

Image Captioning with Integrated Bottom-Up and Multi-level Residual Top-Down Attention for Game Scene Understanding
Authors Jian Zheng, Sudha Krishnamurthy, Ruxin Chen, Min Hung Chen, Zhenhao Ge, Xiaohua Li
近年來,圖像字幕引發了至關多的關注。然而,對於具備一些獨特特徵和要求的遊戲圖像字幕的工做不多。在這項工做中,咱們提出了一種新穎的遊戲圖像字幕模型,它將自下而上的注意力與新的多級殘留自上而下的注意機制相結合。首先,將較低級別的殘留自上而下注意網絡添加到基於快速R CNN的自下而上注意網絡,以解決後者在提取區域特徵時可能丟失重要空間信息的問題。其次,在字幕生成網絡中實現上層殘留自上而下注意網絡,以更好地融合所提取的區域特徵以用於後續字幕預測。咱們建立了兩個遊戲數據集來評估所提出的模型。大量實驗代表,咱們提出的模型優於現有的基線模型。

Uncovering Why Deep Neural Networks Lack Robustness: Representation Metrics that Link to Adversarial Attacks
Authors Danilo Vasconcellos Vargas, Shashank Kotyan, Moe Matsuki
神經網絡已被證實易受對抗樣本的影響。略微擾動的輸入圖像可以改變準確模型的分類,代表所學習的表示不如之前好

REMAP: Multi-layer entropy-guided pooling of dense CNN features for image retrieval
Authors Syed Sameed Husain, Miroslaw Bober
本文討論了大規模圖像檢索的問題,着重於提升其準確性和魯棒性。咱們將搜索的加強穩健性定位到諸如照明變化,對象外觀和比例,部分遮擋以及雜亂背景等因素,這些因素在具備顯着可變性的很是大的數據集上執行搜索時尤其重要。咱們提出了一種新的基於CNN的全局描述符,稱爲REMAP,它學習並聚合來自多個CNN層的深層特徵的層次結構,而且以三元組丟失進行端到端訓練。 REMAP明確地學習了在視覺抽象的各類語義層面上相互支持和互補的判別特徵。在聚合成單個圖像級別描述符以前,這些密集的局部特徵在多層重疊區域內的每一層在空間上最大地聚集。爲了識別用於檢索的語義上有用的區域和層,咱們建議使用KL散度來測量每一個區域和層的信息增益。咱們的系統在培訓期間有效地學習各類區域和層的有用性並相應地加權。咱們證實這種相對熵引導的聚合優於由SGD控制的經典的基於CNN的聚合。整個框架以端到端的方式進行培訓,優於最新的最新技術成果。在圖像檢索數據集Holidays,Oxford和MPEG上,REMAP描述符分別達到95.5,91.5和80.1的mAP,優於迄今發佈的任何結果。 REMAP還成爲了Kaggle Google Landmark Retrieval Challenge的獲獎提交的核心。

DeepMOT: A Differentiable Framework for Training Multiple Object Trackers
Authors Yihong Xu, Yutong Ban, Xavier Alameda Pineda, Radu Horaud
多目標跟蹤精度和精度MOTA和MOTP是評估多個目標跟蹤器質量的兩個標準和普遍使用的指標。它們專門用於編碼跟蹤多個對象的挑戰和困難。基於MOTA和MOTP直接優化跟蹤器是很困難的,由於這兩個指標都很是依賴匈牙利算法,這是不可微分的。咱們爲MOTA和MOTP提出了一個可微分的代理,從而容許經過直接優化標準MOT度量的代理來訓練深度多目標跟蹤器。所提出的近似是基於雙向遞歸網絡,其將對象輸入到假設距離矩陣並將最優假設輸出到對象關聯,從而模擬匈牙利算法。在可微分模塊以後,估計的關聯用於計算MOTA和MOTP。實驗研究證實了這種可區分框架對兩個最近的深度跟蹤器相對於MOT17數據集的好處。此外,該代碼可從公開得到

IMP: Instance Mask Projection for High Accuracy Semantic Segmentation of Things
Authors Cheng Yang Fu, Tamara L. Berg, Alexander C. Berg
在這項工做中,咱們提出了一個名爲Instance Mask Projection IMP的新算子,它將預測的實例分割做爲語義分割的新特徵。它還支持反向傳播,所以能夠端到端訓練。咱們的實驗顯示了IMP對具備複雜分層,大變形和非凸對象的服裝解析以及具備許多重疊實例和小對象的街道場景分割的有效性。在各類服裝解析數據集VCP上,咱們展現了實例掩模投影能夠經過最早進的Panoptic FPN分割方法在mIOU上提升3個點。在ModaNet服裝解析數據集上,與現有的基線語義分割結果相比,咱們顯示出絕對的20.4的顯着改進。此外,實例蒙版投影算子在其餘非服裝數據集上運行良好,在城市景觀的Thing類上提供了3個點的改進,這是一種自驅動數據集,基於最早進的方法。

EXTD: Extremely Tiny Face Detector via Iterative Filter Reuse
Authors YoungJoon Yoo, Dongyoon Han, Sangdoo Yun
在本文中,咱們提出了一種新的多尺度人臉檢測器,它具備極少數參數EXTD,小於10萬,而且具備與深重探測器至關的性能。雖然現有的多尺度人臉檢測器從單個骨幹網絡中提取具備不一樣尺度的特徵圖,可是咱們的方法經過迭代地重用共享的輕量級和淺層骨幹網來生成特徵圖。骨幹網絡的這種迭代共享顯着減小了參數的數量,而且還提供了從網絡層的較高級捕獲到較低級別的特徵映射的抽象圖像語義。所提出的想法被各類模型架構採用並經過大量實驗進行評估。經過WIDER FACE數據集的實驗,咱們證實了所提出的人臉探測器能夠處理具備不一樣尺度和條件的面,而且實現了與更大質量的面部探測器至關的性能,這些探測器在模型尺寸和浮點操做中重量只有幾百倍和幾十倍。

Single Image Super-resolution via Dense Blended Attention Generative Adversarial Network for Clinical Diagnosis
Authors Kewen Liu, Yuan Ma, Hongxia Xiong, Zejun Yan, Zhijun Zhou, Chaoyang Liu, Panpan Fang, Xiaojun Li, Yalei Chen
在臨牀診斷中,醫生可以在高分辨率HR醫學圖像的幫助下更清晰地看到生物組織和早期病變,這對提升診斷準確性相當重要。爲了解決醫學圖像因爲缺少高頻細節而致使嚴重模糊的問題,本文經過密集神經網絡和混合注意機制開發了一種新的圖像超分辨率SR算法SR DBAN。具體地,提出了一種新的混合注意塊並將其引入到密集神經網絡DenseNet中,使得神經網絡能夠自適應地將更多的注意力集中在具備足夠高頻細節的區域和信道上。在SR DBAN的框架中,原始DenseNet中的批量標準化層被移除以免高頻紋理細節的丟失,最終的HR圖像經過網絡的最末端的解卷積得到。此外,受生成對抗網絡使人印象深入的表現的啓發,本文經過密集的混合注意生成對抗網絡開發了一種名爲SR DBAGAN的新型圖像SR算法。 SR DBAGAN包括一個生成器和一個鑑別器,生成器使用咱們提出的SR DBAN生成HR圖像並試圖欺騙鑑別器,同時基於Wasserstein GAN WGAN設計鑑別器來區分。咱們在模糊的前列腺MRI圖像上部署了咱們的算法,實驗結果代表,與主流插值相比,咱們提出的算法產生了至關大的清晰度和紋理細節,而且分別在峯值信噪比PSNR和結構類似性指數SSIM上有顯着改善。基於深度學習的圖像SR算法,充分證實了咱們提出的算法的有效性和優越性。

Mask Based Unsupervised Content Transfer
Authors Ron Mokady, Sagie Benaim, Lior Wolf, Amit Bermano
咱們考慮以無人監督的方式在兩個域之間進行翻譯的問題,其中一個域包含一些與另外一個相比的附加信息。所提出的方法解開了這些域的共同和獨立部分,而且經過生成掩模,將底層網絡的注意力集中在指望的加強上,而不會浪費地重建整個目標。這經過普遍的定量和定性評估顯示了現有技術的質量和各類內容翻譯。此外,基於掩模的新穎公式和正則化足夠精確以在弱監督分割領域中實現現有技術性能,其中僅給出類別標籤。據咱們所知,這是第一個解決域解除問題和弱監督分割問題的報告。咱們的代碼是公開的

Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era
Authors Xian Feng Han, Hamid Laga, Mohammed Bennamoun
3D重建是一個長期存在的不良問題,數十年來一直由計算機視覺,計算機圖形學和機器學習社區進行探索。自2015年以來,使用卷積神經網絡CNN的基於圖像的3D重建已引發愈來愈多的關注而且表現出使人印象深入的性能。鑑於這個快速發展的新時代,本文對該領域的最新發展進行了全面的調查。咱們專一於使用深度學習技術從單個或多個RGB圖像估計通用對象的3D形狀的工做。咱們根據形狀表示,網絡架構和他們使用的培訓機制組織文獻。雖然本調查旨在用於重建通用對象的方法,但咱們還回顧了一些最近的工做,這些工做主要關注特定的對象類,如人體形狀和麪部。咱們對一些重要論文的表現進行了分析和比較,總結了該領域的一些開放性問題,並討論了將來研究的有但願的方向。

MV-C3D: A Spatial Correlated Multi-View 3D Convolutional Neural Networks
Authors Qi Xuan, Fuxian Li, Yi Liu, Yun Xiang
隨着深度神經網絡的發展,3D對象識別在計算機視覺領域愈來愈受歡迎。提出了許多基於多視圖的方法來提升類別識別準確度。這些方法主要依賴於以整個圓周渲染的多視圖圖像。然而,在現實世界的應用中,3D對象主要是在較小範圍內的部分視點中觀察到的。所以,咱們提出了一種基於多視圖的3D卷積神經網絡,其僅將連續多視圖圖像的一部分做爲輸入而且仍然能夠保持高精度。此外,咱們的模型將這些視圖圖像做爲聯合變量,以使用3D卷積和3D最大池化層更好地學習空間相關特徵。 ModelNet10和ModelNet40數據集上的實驗結果代表,咱們的MV C3D技術能夠在多視圖圖像中實現出色的性能,這些圖像是從具備較小範圍的部分角度捕獲的。 3D旋轉真實圖像數據集MIRO的結果進一步證實了MV C3D在現實世界場景中更具適應性。隨着觀看圖像數量的增長,能夠進一步提升分類精度。

Delving into 3D Action Anticipation from Streaming Videos
Authors Hongsong Wang, Jiashi Feng
旨在經過部分觀察來識別行動的行動預期因爲普遍的應用而變得愈來愈流行。在本文中,咱們研究了流媒體視頻中3D動做預期的問題,目的是瞭解解決此問題的最佳實踐。咱們首先介紹幾種互補的評估指標,並提出基於框架動做分類的基本模型。爲了得到更好的性能,咱們接着研究了兩個重要因素,即訓練剪輯的長度和剪輯採樣方法。咱們還經過從完整動做表示和類不可知動做標籤兩個方面合併輔助信息來探索多任務學習策略。咱們的綜合實驗揭示了3D動做預測的最佳實踐,所以咱們提出了一種具備多任務丟失的新方法。所提出的方法明顯優於最近的方法,而且在標準基準上展現了現有技術的性能。

VRED: A Position-Velocity Recurrent Encoder-Decoder for Human Motion Prediction
Authors Hongsong Wang, Jiashi Feng
人體運動預測,旨在預測過去姿式的將來人體姿式,最近看到了更多的興趣。許多最近的方法基於遞歸神經網絡RNN,其使用指數圖來模擬人類姿式。這些方法忽略了姿式速度以及不一樣姿式的時間關係,並傾向於收斂到平均姿式或者不能產生天然的姿式。所以,咱們提出了一種用於人體運動預測的新型位置速度遞歸編碼器解碼器PVRED,其充分利用姿式速度和時間位置信息。提出了一種時間位置嵌入方法,並提出了位置速度RNN PVRNN。咱們還強調姿式的四元數參數化的好處,並設計了一個新的可訓練的四元數變換QT層,它與訓練期間的魯棒損失函數相結合。對兩我的體運動預測基準的實驗代表,咱們的方法明顯優於短時間預測和長期預測的現有技術方法。特別是,咱們提出的方法能夠在4000毫秒內預測將來的人類喜歡和有意義的姿式。

Improving temporal action proposal generation by using high performance computing
Authors Tian Wang, Shiye Lei, Youyou Jiang, Zihang Deng, Xin Su, Hichem Snoussi, Chang Choi
提出時間行動建議是計算機視覺中一個重要且具備挑戰性的問題。該任務面臨的最大挑戰是生成具備精確時間邊界的提案。爲了解決這些困難,咱們改進了基於邊界敏感網絡的算法。今天流行的時間卷積網絡忽略了單個視頻特徵向量的原始含義。咱們提出了一種新的時間卷積網絡,稱爲Multipath Temporal ConvNet MTN,它由兩部分組成,即Multipath DenseNet和SE Con​​vNet,能夠從視頻數據庫中提取更多有用的信息。此外,爲了響應大容量存儲和大量視頻,咱們放棄了傳統的參數服務器並行體系結構,並將高性能計算引入到時間動做提議生成中。爲實現這一目標,咱們經過按摩傳遞接口MPI實現環形並行架構,做用於咱們的方法。與參數服務器架構相比,咱們的並行架構在具備多個GPU的時間動做檢測任務上具備更高的效率,這對於處理大規模視頻數據庫具備重要意義。咱們在ActivityNet 1.3和THUMOS14上進行實驗,其中咱們的方法優於其餘具備高召回率和高時間精度的現有技術時間動做檢測方法。

RECAL: Reuse of Established CNN classifer Apropos unsupervised Learning paradigm
Authors Jayasree Saha, Jayanta Mukhopadhyay
最近,深度網絡框架聚類引發了計算機視覺界的一些研究人員的關注。深度框架因其對大規模和高維數據的效率和可擴展性而受到普遍關注。在本文中,咱們將監督的CNN分類器架構轉換爲無監督的聚類模型,稱爲RECAL,它共同窗習判別嵌入子空間和聚類標籤。 RECAL由卷積的特徵提取層組成,接着是徹底鏈接的無監督分類器層。在分類器層之上堆疊的多項邏輯迴歸函數softmax。咱們使用隨機梯度降低SGD優化器訓練此網絡。然而,咱們模型的成功實施圍繞着損失函數的設計。咱們的損失函數使用啓發式算法,假設類分佈沒有嚴重誤差,真正的分區須要較低的熵。這是偏態分佈和低熵的狀況之間的權衡。爲了解決這個問題,咱們提出了分類熵和類熵,它們是咱們損失函數的兩個組成部分。在這種方法中,小批量的大小應該保持很高。實驗結果代表咱們的模型用於聚類衆所周知的數字,多視角對象和麪部數據集的一致和競爭行爲。更重要的是,咱們使用該模型爲多光譜LISS IV圖像生成無監督的斑塊分割。咱們觀察到它可以將建築區域,溼地,植被和水體與下面的場景區分開來。

***Efficient Neural Network Approaches for Leather Defect Classification
Authors Sze Teng Liong, Y.S. Gan, Kun Hong Liu, Tran Quang Binh, Cong Tue Le, Chien An Wu, Cheng Yan Yang, Yen Chang Huang
真皮,如牛,鱷魚,蜥蜴和山羊的皮革一般含有自然和人工缺陷,如洞,叮咬,蜱痕,紋理,割傷,皺紋等。識別缺陷的傳統解決方案是經過手動缺陷檢查,其涉及熟練的專家。這是耗時的而且可能致使高錯誤率並致使低生產率。本文提出了一系列自動圖像處理過程,經過採用深度學習方法對皮革缺陷進行分類。特別地,皮革圖像首先被劃分爲小塊,而後它經歷預處理技術,即Canny邊緣檢測以加強缺陷可視化。接下來,採用人工神經網絡ANN和卷積神經網絡CNN來提取豐富的圖像特徵。得到的最佳分類結果是80.3,在由2000個樣本組成的數據集上進行評估。此外,報告了諸如混淆矩陣和接收器操做特性ROC的性能度量以證實所提出的方法的效率。

Detecting Bias with Generative Counterfactual Face Attribute Augmentation
Authors Emily Denton, Ben Hutchinson, Margaret Mitchell, Timnit Gebru
咱們引入了一個簡單的框架來識別微笑屬性分類器的誤差。咱們的方法提出了形式的反事實問題,若是這個面部特徵不一樣,預測會如何變化咱們利用生成對抗網絡的最新進展來構建面部圖像的真實生成模型,其提供對特定圖像特徵的受控操縱。咱們引入了一組度量,用於衡量操做圖像的特定屬性對訓練分類器輸出的影響。根據經驗,咱們肯定了幾種不一樣的變異因素,這些因素會影響在CelebA訓練的微笑分類器的預測。

Fixing the train-test resolution discrepancy
Authors Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Herv J gou
數據加強是用於圖像分類的神經網絡訓練的關鍵。本文首先代表,現有的加強會致使分類器在列車和測試時看到的物體的典型尺寸之間存在顯着差別。咱們經過實驗驗證,對於目標測試分辨率,使用較低的列車分辨率可在測試時提供更好的分類。

Instance Segmentation with Point Supervision
Authors Issam H. Laradji, Negar Rostamzadeh, Pedro O. Pinheiro, David Vazquez, Mark Schmidt
實例分割方法一般須要昂貴的每像素標籤。咱們提出了一種只須要點級註釋的方法。在訓練期間,模型只能訪問每一個對象的單個像素標籤,但任務是輸出完整的分割蒙版。爲了應對這一挑戰,咱們構建了一個具備兩個分支的網絡1,一個預測每一個對象位置的定位網絡L Net和一個嵌入網絡E Net,用於學習同一個對象的像素接近的嵌入空間。經過對具備類似嵌入的像素進行分組來得到所定位對象的分割掩模。在訓練時,雖然L Net僅須要點級註釋,但E Net使用由類不可知對象提議方法生成的僞標籤。咱們評估了咱們對PASCAL VOC,COCO,KITTI和CityScapes數據集的方法。實驗代表,在某些情景中,與徹底監督方法相比,咱們的方法1得到了競爭結果.2具備固定註釋預算的徹底和弱監督方法,3是具備點級監督的實例分割的第一強基線。

Realistic Speech-Driven Facial Animation with GANs
Authors Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
語音驅動的面部動畫是基於語音信號自動合成說話人物的過程。此域中的大多數工做都會建立從音頻功能到視覺功能的映射。這種方法一般須要使用計算機圖形技術進行後處理,以產生儘管依賴於主體的現實結果。咱們提出了一種端到端系統,它只使用人的靜止圖像和包含語音的音頻剪輯生成會話頭的視頻,而不依賴於手工製做的中間特徵。咱們的方法生成的視頻具備與音頻同步的脣部動做和b天然的面部表情,例如眨眼和眉毛動做。咱們的時間GAN使用3個鑑別器,專一於實現詳細的幀,視聽同步和逼真的表達。咱們使用消融研究量化了咱們模型中每一個組件的貢獻,而且咱們提供了對模型潛在表示的看法。生成的視頻基於清晰度,重建質量,脣讀精度,同步以及它們產生天然眨眼的能力來評估。

DeepTemporalSeg: Temporally Consistent Semantic Segmentation of 3D LiDAR Scans
Authors Ayush Dewan, Wolfram Burgard
瞭解環境的語義特徵是自主機器人操做的關鍵推進因素。在本文中,咱們提出了一種深度卷積神經網絡DCNN,用於將LiDAR掃描的語義分段分類爲汽車,行人或騎車人。該架構基於密集塊並有效地利用深度可分離卷積來限制參數的數量,同時仍保持最早進的性能。爲了使DCNN的預測在時間上一致,咱們提出了一種基於貝葉斯濾波器的方法。該方法使用來自神經網絡的預測來遞歸地估計掃描中的點的當前語義狀態。該遞歸估計使用從先前掃描得到的知識,從而使得預測在時間上一致而且對於孤立的錯誤預測是魯棒的。咱們將咱們提出的架構的性能與其餘最早進的神經網絡架構進行比較,並報告實質性的改進。對於建議的貝葉斯濾波器方法,咱們在KITTI跟蹤基準測試中顯示各類序列的結果。

Improving Black-box Adversarial Attacks with a Transfer-based Prior
Authors Shuyu Cheng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu
咱們考慮黑匣子對抗性設置,其中對手必須產生對抗性擾動而無需訪問目標模型來計算梯度。之前的方法試圖經過使用代理白盒模型的轉移梯度或基於查詢反饋來近似梯度。然而,這些方法常常遭受低攻擊成功率或低查詢效率,由於用有限信息估計高維空間中的梯度是很是重要的。爲了解決這些問題,咱們提出了一種先驗引導的隨機梯度自由P RGF方法來改進黑盒對抗性攻擊,它同時利用了基於傳遞的先驗和查詢信息的優點。由替代模型的梯度給出的基於先驗的轉移經過理論分析導出的最優係數適當地整合到咱們的算法中。大量實驗代表,與替代的現有技術方法相比,咱們的方法須要更少的查詢來攻擊具備更高成功率的黑盒模型。

Differentiated Backprojection Domain Deep Learning for Conebeam Artifact Removal
Authors Yoseob Han, Junyoung Kim, Jong Chul Ye
使用圓形軌跡的Conebeam CT因爲其相對簡單的幾何形狀而常常用於各類應用。對於錐束幾何,Feldkamp,Davis和Kress算法被認爲是標準重建方法,可是隨着錐角增長,該算法遭受所謂的錐束僞影。已經開發了各類基於模型的迭代重建方法來減小錐束僞影,可是這些算法一般須要計算昂貴的前向和後向投影的多種應用。在本文中,咱們開發了一種新穎的深度學習方法,用於精確的錐束僞影去除。特別地,咱們在差分反投影域上設計的深度網絡執行與希爾伯特變換相關的病態反捲積問題的數據驅動反演。而後使用光譜混合技術將沿冠狀和矢狀方向的重建結果組合以最小化光譜泄漏。實驗結果代表,儘管運行時複雜度顯着下降,但咱們的方法優於現有的迭代方法。

Sample-Efficient Neural Architecture Search by Learning Action Space
Authors Linnan Wang, Saining Xie, Teng Li, Rodrigo Fonseca, Yuandong Tian
神經架構搜索NAS已經成爲一種有前途的自動神經網絡設計技術。然而,現有的NAS方法一般利用手動設計的動做空間,其與要優化的性能度量(例如,準確性)不直接相關。所以,使用手動設計的動做空間來執行NAS一般會致使樣本低效的體系結構探索,所以多是次優的。爲了提升樣本效率,本文提出潛在行爲神經架構搜索LaNAS,其學習動做空間以遞歸地將架構搜索空間劃分爲區域,每一個區域具備集中的性能度量,即低方差。在搜索階段,因爲不一樣的體系結構搜索動做序列致使不一樣性能的區域,所以經過偏向具備良好性能的區域能夠顯着提升搜索效率。在最大的NAS數據集NasBench 101上,咱們的實驗結果代表,LaNAS分別比隨機搜索,正則化演化和蒙特卡羅樹搜索MCTS的樣本效率高22倍,14.6倍和12.4倍。當應用於開放域時,LaNAS發現一種體系結構,在僅探索6,000種體系結構後,在ImageNet移動設置上實現了CIFAR 10上的SoTA 98.0準確度和75.0 top1準確度。

***Stacked Capsule Autoencoders
Authors Adam R. Kosiorek, Sara Sabour, Yee Whye Teh, Geoffrey E. Hinton
能夠將對象看做幾何組織的相互關聯的部分。明確使用這些幾何關係來識別物體的系統對於視點的變化應該是天然穩健的,由於內在的幾何關係是視點不變的。咱們描述了一種無監督的膠囊網絡版本,其中一個神經編碼器,用於查看全部部分,用於推斷物體膠囊的存在和姿式。編碼器經過反向傳播經過解碼器進行訓練,該解碼器使用姿式預測的混合來預測每一個已經發現的部分的姿式。經過使用神經編碼器以相似的方式直接從圖像中發現這些部分,所述神經編碼器推斷出部分及其仿射變換。相應的解碼器將每一個圖像像素建模爲由仿射變換部分作出的預測的混合。咱們在未標記的數據上學習對象及其部分膠囊,而後彙集對象膠囊存在的向量。當告訴這些星團的名稱時,咱們在MNHN 98.5上對SVHN 55和近現有技術的無監督分類實現了最早進的結果。

Providentia -- A Large Scale Sensing System for the Assistance of Autonomous Vehicles
Authors Annkathrin Kr mmer, Christoph Sch ller, Dhiraj Gulati, Alois Knoll
自動駕駛車輛的環境感知不只受到物理傳感器範圍和算法性能的限制,並且遮擋也會下降他們對當前交通情況的理解。這對安全構成了巨大的威脅,限制了他們的行駛速度,而且可能致使不方便的操做,從而下降他們的接受度。智能交通系統能夠幫助緩解這些問題。經過以本身的世界的數字模型(即數字雙胞胎)的形式向自動駕駛車輛提供關於當前交通的附加詳細信息,智能交通系統能夠填補車輛感知的空白並加強其視野。然而,詳細描述這種系統的實現和工做原型證實其可行性是稀缺的。在這項工做中,咱們提出了一個硬件和軟件架構來構建這樣一個可靠的智能交通系統。咱們已經在現實世界中實現了這個系統,並代表它可以建立一個精確的數字雙胞胎,延伸的公路伸展。此外,咱們將這款數字雙胞胎提供給自動駕駛汽車,並展現它如何將車輛的感知擴展到其車載傳感器的極限以外。

A tunable multiresolution smoother for scattered data with application to particle filtering
Authors Gregor A. Robinson, Ian G. Grooms
提出了一種平滑算法,其能夠減小在空間擴展域中的分散位置處觀察到的數據的小規模內容。更平滑的工做方式是經過造成輸入數據的高斯插值,而後將插值與格林函數的多分辨率高斯近似卷積到差分算子,差分算子的頻譜能夠針對特定問題考慮進行調整。這種更平滑的方法是針對其在粒子濾波中的潛在應用而開發的,粒子濾波一般涉及散佈在空間域上的數據,由於使用更平滑的預處理觀察減小了避免粒子濾波器坍塌所需的總體尺寸。一個關於氣象數據的例子證明咱們的平滑器能夠改善粒子濾波器重量的平衡。

Model Compression by Entropy Penalized Reparameterization
Authors Deniz Oktay, Johannes Ball , Saurabh Singh, Abhinav Shrivastava
咱們描述了端到端神經網絡權重壓縮方法,該方法從最近的潛在可變數據壓縮方法中汲取靈感。網絡參數權重和誤差在潛在空間中表示,至關於從新參數化。該空間配備有學習機率模型,其用於在訓練期間對參數表示施加熵懲罰,而且在訓練以後使用算術編碼來壓縮表示。所以,咱們以端到端的方式聯合最大化準確性和模型壓縮性,其中由超參數指定的速率偏差權衡。咱們經過在MNIST,CIFAR 10和ImageNet分類基準上壓縮六種不一樣的模型架構來評估咱們的方法。咱們的方法在VGG 16,LeNet300 100和幾種ResNet架構上實現了最早進的壓縮,而且在LeNet 5上具備競爭力。

Joint Visual-Textual Embedding for Multimodal Style Search
Authors Gil Sadeh, Lior Fritz, Gabi Shalev, Eduard Oks
咱們介紹了一種用於時裝的多模式視覺文本搜索細化方法。現有搜索引擎不能基於特定產品的屬性實現檢索結果的直觀,交互,細化。咱們提出了一種基於查詢項目圖像和文本細化屬性來檢索相似項目的方法。咱們相信這種方法能夠用來解決許多現實生活中的客戶場景,其中須要不一樣顏色,圖案,長度或樣式的相似項目。咱們採用聯合嵌入式培訓方案,其中產品圖像及其目錄文本元數據在共享空間中緊密映射。這種聯合視覺文本嵌入空間使得可以基於文本細化要求在語義上操縱目錄圖像。咱們提出了一種新的訓練目標函數,迷你批量匹配檢索,並證實其優於經常使用的三聯體損失。此外,咱們展現了添加屬性提取模塊的可行性,該模塊在相同的目錄數據上進行了培訓,並演示瞭如何將其集成到多模式搜索中以提升其性能。咱們引入了一個帶有相關基準的評估協議,並比較了幾種方法。

Generating Diverse and Informative Natural Language Fashion Feedback
Authors Gil Sadeh, Lior Fritz, Gabi Shalev, Eduard Oks
多模態視覺和語言任務的最新進展使一組新的應用成爲可能。在本文中,咱們考慮在裝備圖像上生成天然語言時尚反饋的任務。咱們收集一個獨特的數據集,其中包含裝備圖像和相應的積極和建設性的時尚反饋。咱們分別處理每種反饋類型,並用視覺注意訓練深度生成編碼器解碼器模型,相似於標準圖像字幕管道。按照這種方法,生成的句子每每過於籠統並且沒有信息。咱們提出了一種基於最大互信息目標函數的替代解碼技術,該技術能夠產生更多樣化和詳細的響應。咱們使用通用語言指標評估咱們的模型,並顯示人類評估結果。這項技術應用於Alexa,我如何看待Echo Look設備中公開提供的功能。

4D X-Ray CT Reconstruction using Multi-Slice Fusion
Authors Soumendu Majee, Thilo Balke, Craig A. J. Kemp, Gregery T. Buzzard, Charles A. Bouman
愈來愈須要在對應於空間,時間和其餘獨立參數的四維或更多維中重建對象。最好的4D重建算法使用正則化迭代重建方法,例如基於模型的迭代重建MBIR,其主要取決於先前建模的質量。最近,已經證實即插即用方法是使用設計用於去除加性高斯白噪聲AWGN的現有技術去噪算法來結合先進的先前模型的有效方式。然而,諸如BM4D和深度卷積神經網絡CNN的現有技術去噪算法主要可用於2D和有時3D圖像。特別地,CNN在四維或更多維中實現是困難且計算上昂貴的,而且若是沒有相關聯的高維訓練數據則訓練多是不可能的。

***A Statistical View on Synthetic Aperture Imaging for Occlusion Removal
Authors Indrajit Kurmi, David C. Schedl, Oliver Bimber
合成孔徑可用於許多領域,例如雷達,射電望遠鏡,顯微鏡,聲納,超聲波,激光雷達和光學成像。它們接近單個假想的寬孔徑傳感器的信號,該傳感器具備靜態小孔徑傳感器陣列或單個移動小孔徑傳感器。合成孔徑採樣中的常識是須要在寬孔徑內的密集採樣圖案來重建清晰信號。在本文中,咱們代表合成孔徑尺寸和應用遮擋去除的樣品數量都存在實際限制。這致使瞭解如何以最佳和實用有效的方式設計合成孔徑採樣模式和傳感器。咱們將咱們的發現應用於機載光學切片,該切片使用相機無人機和合成孔徑成像來計算地去除遮擋植被或樹木以檢查地面。

Speeding up VP9 Intra Encoder with Hierarchical Deep Learning Based Partition Prediction
Authors Somdyuti Paul, Andrey Norkin, Alan C. Bovik
在VP9視頻編解碼器中,經過使用速率失真優化RDO遞歸地劃分64次64個超級塊來在編碼期間肯定塊的大小。因爲超級塊的可能分區的組合搜索空間,該過程是計算密集的。在這裏,咱們提出了一種基於深度學習的替代框架,使用分層徹底卷積網絡H FCN以四級分區樹的形式預測幀內模式超級塊分區。咱們建立了一個大型的VP9超級塊數據庫和相應的分區來訓練H FCN模型,該模型隨後與VP9編碼器集成以減小幀內模式編碼時間。實驗結果代表,咱們的方法平均加速幀內模式編碼69.7,代價是Bjontegaard Delta比特率BD率增長1.71。雖然VP9提供了幾種內置速度級別,旨在以下降速率失真性能爲代價提供更快的編碼,但咱們發現咱們的模型可以賽過參考VP9編碼器的最快建議速度級別,以實現高質量的幀內編碼配置,就加速和BD率而言。

Multi-Adversarial Variational Autoencoder Networks
Authors Abdullah Al Zubaer Imran, Demetri Terzopoulos
GAN和VAE的無監督訓練使他們可以生成模擬真實世界分佈的真實圖像,並執行基於圖像的無監督聚類或半監督分類。結合這兩種生成模型的強大功能,咱們引入了多對抗變化自動編碼器網絡MAVEN,這是一種新穎的網絡架構,在VAE GAN網絡中集成了一組鑑別器,同時具備對抗性學習和變分推理。咱們將MAVEN應用於合成圖像的生成,並提出一種新的分佈測量來量化生成的圖像的質量。咱們使用來自計算機視覺和醫學成像領域的數據集的實驗結果街景房號,CIFAR 10和胸部X射線數據集證實了在圖像生成和分類任務中對現有技術的半監督模型的競爭性能。

***Time warping invariants of multidimensional time series
Authors Joscha Diehl, Kurusch Ebrahimi Fard, Nikolas Tapia
在數據科學中,人們常常面對表明某些興趣量的測量的時間序列。一般,在第一步中,須要提取時間序列的特徵。這些數字量旨在簡潔地描述數據並抑制噪聲的影響。在某些應用程序中,還須要這些功能來知足某些不變性屬性。在本文中,咱們專一於時間扭曲不變量。咱們證實了這些對應於時間序列增量的某個迭代和的一族,在數學文獻中稱爲準座標函數。咱們在代數框架中呈現這些不變特徵,而且咱們開發了它們的一些基本屬性。

Chinese Abs From Machine Translation

Papers from arxiv.org算法

更多精彩請移步主頁數據庫

tips:
cvpr sisr2019
stereoSR -> PASSRnetapi


在這裏插入圖片描述
pic from pexels.com安全

相關文章
相關標籤/搜索