【今日CV 計算機視覺論文速覽 第130期】Thu, 13 Jun 2019

今日CS.CV 計算機視覺論文速覽
Thu, 13 Jun 2019
Totally 39 papers
👉上期速覽更多精彩請移步主頁
git

在這裏插入圖片描述

Interesting:

📚LED2Netz照明條件估計的去霧和低光圖像加強方法, 研究人員提出了一種基於環境光照估計的低光照圖像去霧與細節提高算法。基於環境照明的估計,研究人員同時實現了大氣光照估計、投射圖估計和低光照提高三個任務。從FADE數據合成了霧圖和低光圖用於訓練。結果代表這一算法對於圖像細節提高和去霧具備十分優異的表現沒有色差的暈輪。(from Chung-Ang University韓國中央大學)
網絡主要進行了環境光照明(e illumination map)的估計,隨後用於暗光加強和去霧,最後進行細節提高和優化:
在這裏插入圖片描述github

一些結果的比較:
在這裏插入圖片描述
在這裏插入圖片描述
對於暗光加強的結果:
在這裏插入圖片描述
real world dataset:Fattal dataset [13]

web

📚人體行爲識別綜述,綜述了不一樣的行爲識別方法、設備和分類。基於行爲、移動和交互的行爲識別以及十個不一樣的子類別,並綜述了各個領域的最新研究結果的度量標準 (from 悉尼Macquarie University)
在這裏插入圖片描述
識別技術的分類:
在這裏插入圖片描述

算法

📚全天候全氣候室外光照估計, (from adobe)數據庫

code:http://lvsn.github.io/allweather

跨域

📚壓縮模型過擬合用於圖像超分辨, (from SIAT-SenseTime Joint Lab 中科院深圳)

安全


Daily Computer Vision Papers

Presence-Only Geographical Priors for Fine-Grained Image Classification
Authors Oisin Mac Aodha, Elijah Cole, Pietro Perona
單獨的外觀信息一般不足以準確區分細粒度的視覺類別。人類專家利用其餘線索,例如拍攝給定圖像的位置和時間,以便爲最終決定提供信息。該上下文信息在許多在線圖像集合中容易得到,可是現有的圖像分類器僅僅關注於基於圖像內容進行預測而未充分利用。

LAEO-Net: revisiting people Looking At Each Other in videos
Authors Manuel J. Marin Jimenez, Vicky Kalogeiton, Pablo Medina Suarez, Andrew Zisserman
捕捉人們的相互凝視對於理解和解釋他們之間的社會互動相當重要。爲此,本文解決了在視頻序列中檢測人們看彼此LAEO的問題。爲此,咱們提出了LAEO Net,這是一個新的深度CNN,用於肯定視頻中的LAEO。與以前的做品相比,LAEO Net將時空軌跡做爲輸入和整個軌道的緣由。它由三個分支組成,一個用於每一個角色的跟蹤頭部,另外一個用於相對位置。此外,咱們介紹了兩個新的LAEO數據集UCO LAEO和AVA LAEO。完全的實驗評估證實了LAEONet成功肯定兩我的是不是LAEO的能力以及它發生的時間窗口。咱們的模型在現有的TVHID LAEO視頻數據集上實現了最早進的結果,明顯優於之前的方法。最後,咱們將LAEO Net應用於社交網絡分析,咱們根據他們LAEO的頻率和持續時間自動推斷出一對人之間的社會關係。

Compressed Sensing MRI via a Multi-scale Dilated Residual Convolution Network
Authors Yuxiang Dai, Peixian Zhuang
磁共振成像MRI重建是一個主動的反問題,能夠經過傳統的壓縮感知CS MRI算法來解決,該算法在基於迭代優化的方式中利用MRI的稀疏性質。然而,基於迭代優化的CSMRI方法的兩個主要缺點是耗時且在模型容量方面受限。同時,最近基於深度學習的CSMRI的一個主要挑戰是模型性能和網絡規模之間的權衡。爲了解決上述問題,咱們開發了一種新的多尺度擴張網絡,用於MRI重建,具備高速和卓越的性能。與具備相同感覺野的卷積核相比,擴散卷積減小了較小核的網絡參數,並擴展了核的接收域以得到幾乎相同的信息。爲了保持豐富的特徵,咱們提供全局和局部殘差學習,以提取更多的圖像邊緣和細節。而後咱們利用鏈接層融合多尺度特徵和殘差學習,以便更好地重建。與幾種非深度和深度學習CSMRI算法相比,該方法能夠提供更好的重建精度和明顯的視覺改進。此外,咱們執行噪聲設置以驗證模型穩定性,而後在MRI超分辨率任務上擴展所提出的模型。

**Handwritten Text Segmentation via End-to-End Learning of Convolutional Neural Network
Authors Junho Jo, Hyung Il Koo, Jae Woong Soh, Nam Ik Cho
咱們經過端到端訓練卷積神經網絡CNN來提出一種新的手寫文本分割方法。許多傳統方法經過提取鏈接的組件而後對它們進行分類來解決該問題。然而,當手寫組件和機器印刷部件重疊時,這兩步方法具備侷限性。與傳統方法不一樣,咱們針對此問題開發了端到端深度CNN,不須要任何預處理步驟。因爲沒有針對此目標的公開數據集,而且像素明智的註釋耗時且成本高,咱們還提出了一種生成實際訓練樣本的數據合成算法。爲了訓練咱們的網絡,咱們開發了基於交叉熵的損失函數來解決不平衡問題。合成圖像和真實圖像的實驗結果代表了該方法的有效性。具體而言,所提出的網絡僅針對合成圖像進行了訓練,然而在真實文檔中刪除手寫文本將OCR性能從71.13提升到92.50,顯示了咱們的網絡和合成圖像的泛化性能。

Towards Real-Time Head Pose Estimation: Exploring Parameter-Reduced Residual Networks on In-the-wild Datasets
Authors Ines Rieger, Thomas Hauenstein, Sebastian Hettenkofer, Jens Uwe Garbas
頭部姿式是人體交流的關鍵組成部分,所以是人機交互的決定性因素。實時頭部姿式估計在人類機器人交互或駕駛員輔助系統的背景下是相當重要的。用於頭部姿式估計的最有但願的方法基於卷積神經網絡CNN。然而,CNN模型一般太複雜而沒法實現實時性能。爲了應對這一挑戰,咱們探索了一個受歡迎的CNN子組,剩餘網絡ResNets並對其進行修改以減小參數數量。 ResNets針對不一樣的圖像尺寸進行了修改,包括低分辨率圖像和不一樣數量的圖層。他們接受野生數據集的培訓,以確保真實世界的適用性。所以,咱們證實能夠在減小參數數量的同時保持ResNets的性能。修改後的ResNets實現了最早進的精確度,併爲實時適用性提供了快速推理。

Tackling Partial Domain Adaptation with Self-Supervision
Authors Silvia Bucci, Antonio D Innocente, Tatiana Tommasi
域適應方法已經顯示出減小視域之間的邊際分佈差別的有但願的結果。它們容許訓練可靠的模型,這些模型適用於不一樣性質的照片,繪畫等數據集,可是當域不共享相同的標籤空間時,它們仍然很難。在部分域適配設置中,其中目標僅覆蓋源類的子集,在不引發負轉移的狀況下減少域間隙是具備挑戰性的。許多解決方案只是經過添加啓發式樣本加權策略來保持標準域自適應技術。在這項工做中,咱們展現瞭如何從補丁的空間協同定位得到的自監控信號如何定義支持適應的輔助任務,而無論跨域的確切標籤共享條件。咱們構建了最近的一項工做,該工做引入了用於領域泛化的拼圖遊戲任務,咱們描述瞭如何從新構建部分領域適應的這種方法,而且咱們展現了它如何在與它們結合時加強現有的自適應解決方案。得到的三個數據集的實驗結果支持了咱們的方法的有效性。

Vispi: Automatic Visual Perception and Interpretation of Chest X-rays
Authors Xin Li, Rui Cao, Dongxiao Zhu
醫學成像包含用於提供診斷和治療決策的基本信息。檢查視覺感知和解釋圖像以生成報告是放射科醫師的繁瑣臨牀程序,其中自動化預期將大大減小工做量。儘管天然圖像字幕的快速發展,計算機輔助醫學圖像視覺感知和解釋仍然是一項具備挑戰性的任務,主要是因爲缺少高質量的註釋圖像報告對和量身定製的生成模型,足以提取和利用局部語義特徵,特別是那些與異常有關。爲了應對這些挑戰,咱們提出了一種自動醫學圖像解釋系統Vispi,該系統首先經過視覺支持對常見胸部疾病進行分類和定位,而後經過細緻的LSTM模型生成報告,對圖像進行註釋。經過分析開放的IU X射線數據集,咱們使用自動性能評估指標ROUGE和CIDEr證實了Vispi在疾病分類,本地化和報告生成方面的卓越性能。

Boosting Few-Shot Visual Learning with Self-Supervision
Authors Spyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick P rez, Matthieu Cord
少數鏡頭學習和自我監督學習解決了同一問題的不一樣方面如何訓練具備不多或沒有標記數據的模型。不多有鏡頭學習的目的是優化方法和模型,能夠有效地學習識別低數據體系中的模式。自我監督學習的重點是未標記的數據,並調查監測信號以提供高容量的深度神經網絡。在這項工做中,咱們利用這兩個領域的互補性,並提出一種經過自我監督改善少數鏡頭學習的方法。咱們使用自我監督做爲一些鏡頭學習管道中的輔助任務,使特徵提取器可以學習更豐富和更可轉移的視覺表示,同時仍然使用少許註釋樣本。經過自我監督,咱們的方法能夠天然地擴展到在少數鏡頭設置中使用來自其餘數據集的各類未標記數據。咱們報告了一系列架構,數據集和自我監督技術的持續改進。

Evaluation of Dataflow through layers of Deep Neural Networks in Classification and Regression Problems
Authors Ahmad Kalhor, Mohsen Saffar, Melika Kheirieh, Somayyeh Hoseinipoor, Babak N. Araabi University of Tehran, College of Engineering, School of Electrical and Computer Engineering, Tehran, Iran
本文介紹了兩個簡單有效的指標來評估輸入數據和流經前饋深度神經網絡層的數據。對於分類問題,數據流空間中目標標籤的分離率被解釋爲代表設計層在改善網絡泛化方面的性能的關鍵因素。根據所解釋的概念,提出了基於無形距離的評估指標。相似地,對於迴歸問題,數據流空間中目標輸出的平滑率被解釋爲表示設計層在改善網絡泛化方面的性能的關鍵因素。根據所解釋的平滑概念,針對迴歸問題提出了基於無形距離的平滑度指數。爲了更嚴格地考慮分離和平滑的概念,引入了它們的擴展版本,而且經過將回歸問題解釋爲分類問題,代表分離和平滑度指數是相關的。經過四個案例研究,顯示了使用引入指數的利潤。在第一個案例研究中,對於分類和迴歸問題,一些已知輸入數據集的挑戰性分別經過提出的分離和平滑度指數進行比較。在第二個案例研究中,數據流的質量經過Cifar10和Cifar100分類中的兩個預先訓練的VGG 16網絡層進行評估。在第三個案例研究中,代表正確的分類率和分離指數幾乎相同,特別是在鋸齒指數增長時。在最後一個案例研究中,經過使用所提出的平滑度指數逐層比較兩個用於預測波士頓房價的多層神經網絡。

Recognizing Manipulation Actions from State-Transformations
Authors Nachwa Aboubakr, James L. Crowley, Remi Ronfard
操縱動做將對象從初始狀態轉換爲最終狀態。在本文中,咱們報告使用對象狀態轉換做爲識別操做動做的手段。咱們的方法受到直覺的啓發,即對象狀態在視覺上比靜止幀的動做更明顯,所以提供與空間時間動做識別互補的信息。咱們首先定義一個狀態轉換矩陣,將動做標籤映射到前置狀態和後置狀態。從每一個關鍵幀,咱們學習對象及其狀態的外觀模型。而後能夠從狀態轉移矩陣識別操縱動做。咱們報告了EPIC廚房行動識別挑戰的結果。

High Accuracy Classification of White Blood Cells using TSLDA Classifier and Covariance Features
Authors Hamed Talebi, Amin Ranjbar, Alireza Davoudi, Hamed Gholami, Mohammad Bagher Menhaj
近幾十年來,經過應用工程工具在醫學科學的不一樣領域建立自動化流程是一個高度發展的領域。在這種背景下,許多醫學圖像處理和分析研究人員在人工智能中使用有價值的方法,這能夠減小必要的人力,同時提升結果的準確性。在各類醫學圖像中,血液顯微圖像在心力衰竭診斷中起重要做用,例如,血癌。血癌診斷中的突出成分是白細胞WBC,因爲其在顯微圖像中的通常特徵,有時難以識別和分類任務,例如不均勻的顏色照度,不一樣的形狀,尺寸和紋理。此外,骨髓圖像中與紅細胞相鄰的重疊WBC被識別爲分類部分中的錯誤的緣由。在本文中,咱們努力經過Na ve Bayes聚類方法在醫學圖像中分割各個部分,並在下一階段經過TSLDA分類器進行分割,TSLDA分類器由從協方差描述符結果98.02準確度得到的特徵提供。看來這個結果在WBC識別中是使人愉快的。

LED2Net: Deep Illumination-aware Dehazing with Low-light and Detail Enhancement
Authors Guisik Kim, Junseok Kwon
咱們提出了一種基於照明圖的新型去霧和低光加強方法,該方法由卷積神經網絡CNN精確估計。在本文中,照明圖被用做三個不一樣任務的組件,即大氣光估計,透射圖估計和弱光加強。爲了基於視網膜理論同時訓練CNN用於去霧和低光加強,咱們歷來自FADE數據集的正常模糊圖像合成了許多低光和模糊圖像。此外,咱們使用細節加強進一步改善網絡。實驗結果代表,咱們的方法在數量上和質量上都優於theart算法的最新狀態。特別是,咱們的無霧圖像呈現鮮豔的色彩,加強了可見度,沒有光暈效果或顏色失真。

***Pose from Shape: Deep Pose Estimation for Arbitrary 3D Objects
Authors Yang Xiao, Xuchong Qiu, Pierre Alain Langlois, Mathieu Aubry, Renaud Marlet
大多數深度姿態估計方法須要針對特定​​對象實例或類別進行訓練。在這項工做中,咱們提出了一種徹底通用的深度姿態估計方法,該方法不要求網絡在相關類別上進行訓練,也不要求類別中的對象具備規範姿式。咱們相信這是設計機器人系統的關鍵步驟,該機器人系統能夠與不屬於預約義類別的野外新對象進行交互。咱們的主要觀點是經過表示目標對象的3D形狀來動態地調整姿式估計。更確切地說,咱們訓練卷積神經網絡,其將測試圖像和3D模型做爲輸入,並輸出相對於3D模型的輸入圖像中的對象的相對3D姿式。咱們證實了咱們的方法提升了標準基準的監督類別姿態估計的性能,即Pascal3D,ObjectNet3D和Pix3D,咱們提供的結果優於現有技術。更重要的是,咱們經過在LINEMOD數據集以及ImageNet上的動物等天然實體上提供結果,代表咱們的網絡訓練了來自ShapeNet的平常人造物體,無需對全新類型的3D物體進行任何額外培訓。

Different Approaches for Human Activity Recognition: A Survey
Authors Zawar Hussain, Michael Sheng, Wei Emma Zhang
近年來,人類活動識別因其在健康,安全和監視,娛樂和智能環境等各個領域的應用而變得愈來愈重要。在人類活動識別方面已經作了大量工做,研究人員利用不一樣的方法,如可穿戴,物體標記和無設備,來識別人類活動。在本文中,咱們對2010年至2018年期間在人類活動識別的各個領域開展的工做進行了全面調查,主要關注無設備解決方案。無設備方法變得很是流行,由於主體不須要攜帶任何東西,相反,環境被標記有設備以捕獲所需信息。咱們提出了一種新的分類法,用於對在活動識別領域進行的研究工做進行分類,並將現有文獻分爲基於行動,基於運動和基於交互的三個子領域。咱們進一步將這些領域劃分爲十個不一樣的子主題,並介紹這些子主題的最新研究工做。與以前僅關注一種活動的調查不一樣,據咱們所知,咱們涵蓋了活動識別中的全部子領域,並對這些子領域的最新研究工做進行了比較。具體來講,咱們討論了所提出工做的關鍵屬性和設計方法。而後,咱們基於10個重要指標提供普遍的分析,爲讀者提供人類活動識別的不一樣子領域的最新技術和趨勢的完整概述。最後,咱們討論了開放式研究問題,並提供了人類活動識別領域的將來研究方向。

Indoor image representation by high-level semantic features
Authors Chiranjibi Sitaula, Yong Xiang, Yushu Zhang, Xuequan Lu, Sunil Aryal
室內圖像特徵提取是圖像處理,模式識別,機器人等多個領域的基本問題。然而,基於像素,顏色,形狀對象部分或圖像上的對象提取特徵的大多數現有特徵提取方法在描述語義信息(例如,對象關聯)方面具備有限的能力。所以,這些技術涉及不指望的分類性能。爲了解決這個問題,咱們提出了高級語義特徵的概念,並設計了四個步驟來提取它們。具體來講,咱們首先經過提取圖像中的原始對象來構造對象模式字典,而後從對象模式字典中檢索和提取語義對象。咱們最終基於計算的機率和del參數提取咱們的高級語義特徵。在三個公開可用的數據集MIT 67,Scene15和NYU V1上的實驗代表,咱們的特徵提取方法優於用於室內圖像分類的最早進的特徵提取方法,由於咱們的特徵的維度低於那些方法。

***DeepSquare: Boosting the Learning Power of Deep Convolutional Neural Networks with Elementwise Square Operators
Authors Sheng Chen, Xu Wang, Chao Chen, Yifan Lu, Xijin Zhang, Linfu Wen
可以顯着提升學習能力的現代神經網絡模塊一般會給原始神經網絡增長太多的計算複雜性。在本文中,咱們追求很是有效的神經網絡模塊,它能夠顯着提升深度卷積神經網絡的學習能力,並且額外的計算成本能夠忽略不計。咱們首先在理論上和實驗上都提出元素方形算子有可能加強神經網絡的學習能力。而後,咱們設計了四種帶有元素方形算子的輕量級模塊,命名爲Square Pooling,Square Softmin,Square Excitation和Square Encoding。咱們將四個輕量級模塊添加到Resnet18,Resnet50和ShuffleNetV2,以便在ImageNet 2012數據集的實驗中得到更好的性能。實驗結果代表,咱們的模塊能夠爲基本卷積神經網絡模型帶來顯着的精度提高。咱們的輕量級模塊的性能甚至能夠與許多複雜的模塊相媲美,例如雙線性池,擠壓和激勵以及Gather Excite。咱們的高效模塊特別適用於移動型號。例如,當配備單個Square Pooling模塊時,ImageNet 2012上ShuffleNetV2 0.5x的前1個分類精度絕對提升1.45,沒有額外的參數和可忽略的推理時間開銷。

CDPM: Convolutional Deformable Part Models for Person Re-identification
Authors Kan Wang, Changxing Ding, Stephen J. Maybank, Dacheng Tao
部分級別表示對於健壯的人員識別相當重要。因爲行人檢測中的錯誤,對於身體部位一般存在嚴重的錯誤對齊問題,這下降了部件表示的質量。爲了解決這個問題,咱們提出了一種名爲Convolutional Deformable Part Models CDPM的新模型。 CDPM經過將複雜的零件對齊過程分離爲兩個更簡單的步驟來工做。首先,垂直對準步驟藉助多任務學習模型檢測垂直方向上的每一個部分。其次,基於自我關注的水平細化步驟抑制每一個檢測到的身體部位周圍的背景信息。因爲這兩個步驟是正交和順序執行的,所以部分對齊的難度顯着下降。在測試階段,CDPM可以精確對準柔性身體部位,而無需任何外部信息。普遍的實驗結果證實了CDPM對零件對齊的有效性。最使人印象深入的是,CDPM在三個大型數據集市場1501,DukeMTMC ReID和CUHK03上實現了最早進的性能。

Synthesizing Diverse Lung Nodules Wherever Massively: 3D Multi-Conditional GAN-based CT Image Augmentation for Object Detection
Authors Changhee Han, Yoshiro Kitamura, Akira Kudo, Akimichi Ichinose, Leonardo Rundo, Yujiro Furukawa, Kazuki Umemoto, Hideki Nakayama, Yuanzhong Li
準確的計算機輔助診斷,依靠大規模註釋的病理圖像,能夠減輕忽視診斷的風險。不幸的是,在醫學成像中,大多數可用數據集都是小碎片。爲了解決這個問題,做爲數據加強DA方法,3D條件生成對抗網絡GAN能夠將指望的真實多樣化3D圖像合成爲附加訓練數據。然而,對於基於通常邊界框的3D對象檢測,不存在基於3D條件GAN的DA方法,而與嚴格的3D分割不一樣,它能夠以醫生最小的註釋成原本定位疾病區域。此外,因爲病變位置大小衰減不一樣,所以基於GAN的進一步DA性能須要多種條件。所以,咱們建議3D多條件GAN MCGAN生成逼真的多樣化32 x 32 x 32結節,這些結節天然放置在肺部計算機斷層掃描圖像上,以提升3D物體檢測的靈敏度。咱們的MCGAN採用兩個鑑別器來調節上下文鑑別器學習將真實與合成結節分類爲具備噪聲盒居中環境的對,結節鑑別器試圖將具備大小衰減條件的真實與合成結節分類。結果代表,基於三維卷積神經網絡的檢測能夠在固定的假陽性率下在任何結節大小衰減下實現更高的靈敏度,而且克服了MCGAN生成的真實結節的醫療數據缺少,甚至專家醫生也沒法將它們與視覺圖靈中的真實區分開來。測試。

**Hand Orientation Estimation in Probability Density Form
Authors Kazuaki Kondo, Daisuke Deguchi, Atsushi Shimada
手部定位是理解手部行爲並隨後支持人類活動所必需的基本特徵。在本文中,咱們提出了一種估計機率密度形式的手方向的新方法。它能夠解決直接角度表示中的循環性問題,而且能夠基於不一樣的特徵集成多個預測。咱們驗證了所提方法的性能以及使用咱們的數據集的集成示例,該數據集捕獲了協做組的工做。

Pay Attention to Convolution Filters: Towards Fast and Accurate Fine-Grained Transfer Learning
Authors Xiangxi Mo, Ruizhe Cheng, Tianyi Fang
咱們提出了一種有效的轉移學習方法,用於使ImageNet預訓練的卷積神經網絡CNN適應細粒度圖像分類任務。傳統的轉移學習方法通​​常面臨訓練時間和準確性之間的權衡。經過將注意模塊添加到預訓練網絡的每一個卷積濾波器,咱們可以在端到端流水線中對每一個卷積信號的重要性進行排序和調整。在本報告中,咱們展現了咱們的方法能夠在幾個時期內使預先測試的ResNet50適應細粒度轉移學習任務,而且實現高於傳統轉移學習方法的準確性,並接近從頭開始訓練的模型。咱們的模型還提供可解釋的結果,由於卷積信號的等級顯示利用和放大哪些卷積通道以得到更好的分類結果,以及哪些信號應被視爲特定轉移學習任務的噪聲,能夠將其修剪爲更低型號尺寸。

Semi-Supervised Exploration in Image Retrieval
Authors Cheng Chang, Himanshu Rai, Satya Krishna Gorti, Junwei Ma, Chundi Liu, Guangwei Yu, Maksims Volkovs
咱們提出了咱們的Landmark圖像檢索挑戰2019的解決方案。這一挑戰基於大型Google標誌性數據集V2 9。目標是爲每一個提供的查詢圖像檢索包含相同地標的全部數據庫圖像。咱們的解決方案是全局和本地模型的組合,以造成初始KNN圖。而後,咱們使用最近提出的圖形遍歷方法EGT 1的新擴展,稱爲半監督EGT,以細化圖形並檢索更好的候選者。

Recurrent U-Net for Resource-Constrained Segmentation
Authors Wei Wang, Kaicheng Yu, Joachim Hugonot, Pascal Fua, Mathieu Salzmann
現有技術的分割方法依賴於很是深的網絡,這些網絡在沒有很是大的訓練數據集的狀況下並不老是容易訓練,而且在標準GPU上運行每每相對較慢。在本文中,咱們介紹了一種新穎的循環U Net架構,它保留了原始U Net的緊湊性,同時大大提升了其性能,使其在幾個基準測試中表現優於最新技術水平。咱們將展現其在多個任務中的有效性,包括手部分割,視網膜血管分割和道路分割。咱們還引入了用於手部分割的大規模數據集。

**Inferring 3D Shapes from Image Collections using Adversarial Networks
Authors Matheus Gadelha, Aartika Rai, Subhransu Maji, Rui Wang
咱們研究了在三維形狀下學習機率分佈的問題,給出了從未知視點獲取的多個對象的二維視圖。咱們的方法稱爲投影生成對抗網絡PrGAN訓練3D形狀的深度生成模型,其投影或渲染與所提供的2D分佈的分佈相匹配。經過添加可微分投影模塊,咱們能夠在學習階段推斷出潛在的3D形狀分佈,而無需訪問任何明確的3D或視點註釋。咱們展現了咱們的方法能夠生成與直接在3D數據上訓練的GAN至關的3D形狀。適用於多種形狀類別,包括椅子,飛機和汽車。實驗還代表,二維形狀在幾何和視點上的解纏結表示致使二維形狀的良好生成模型。咱們模型的關鍵優點在於它能夠估計3D形狀,視點,並以徹底無監督的方式從輸入圖像生成新穎的視圖。咱們進一步研究如何在訓練時得到諸如深度,視點或部分分割等附加信息的狀況下如何改進生成模型。爲此,咱們提出了新的可微分投影算子,可供PrGAN用於學習更好的3D生成模型。咱們的實驗代表,咱們的方法能夠成功地利用額外的視覺線索來建立更多樣化和準確的形狀。

All-Weather Deep Outdoor Lighting Estimation
Authors Jinsong Zhang, Kalyan Sunkavalli, Yannick Hold Geoffroy, Sunil Hadap, Jonathan Eisenmann, Jean Fran ois Lalonde
咱們提出了一種神經網絡,能夠從單個LDR圖像預測HDR室外照明。咱們工做的核心是在任何天氣條件下從LDR全景圖準確學習HDR照明的方法。咱們經過在合成圖像和真實圖像的組合上訓練另外一個CNN來得到這一點,以做爲LDR全景圖的輸入,並回歸Lalonde Matthews室外照明模型的參數。訓練該模型使得它重建天空的外觀,而且b渲染由該照明點亮的物體的外觀。咱們使用該網絡標記具備照明參數的LDR全景圖的大規模數據集,並使用它們來訓練咱們的單圖像戶外照明估計網絡。咱們經過大量實驗證實,咱們的全景和單幅圖像網絡都優於現有技術,與之前的工做不一樣,可以處理從晴天到陰天的天氣情況。

Compressive Hyperspherical Energy Minimization
Authors Rongmei Lin, Weiyang Liu, Zhen Liu, Chen Feng, Zhiding Yu, James M. Rehg, Li Xiong, Le Song
最近關於最小超球面能量MHE的研究已經證實了它在規範神經網絡和改進它們的推廣方面的潛力。 MHE的靈感來自物理學中的湯姆遜問題,其中單個球體上的多個推動電子的分佈能夠經過最小化一些勢能來建模。儘管具備實際效果,但MHE受到局部最小值的影響,由於它們的數量在高維度上急劇增長,從而限制了MHE釋放其在改善網絡泛化方面的所有潛力。爲了解決這個問題,咱們提出壓縮最小超球面能CoMHE做爲神經網絡的替代正則化。具體而言,CoMHE利用投影映射來下降神經元的維數並最小化它們的超球面能量。根據投影矩陣的不一樣結構,咱們提出了隨機投影CoMHE和角度保持CoMHE兩個主要變量。此外,咱們提供理論看法來證實其有效性。咱們代表,CoMHE在綜合實驗中始終優於MHE,並展現了其在各類任務中的多樣化應用,如圖像識別和點雲識別。

Visual Relationships as Functions: Enabling Few-Shot Scene Graph Prediction
Authors Apoorva Dornadula, Austin Narcomey, Ranjay Krishna, Michael Bernstein, Li Fei Fei
在視覺場景中對對象組和謂詞進行分類的場景圖預測須要大量的訓練數據。然而,長尾關係的分佈多是這種方法的障礙,由於它們只能在帶有足夠標籤的一小組謂詞上進行訓練。咱們引入了第一個場景圖預測模型,它支持不多的謂詞鏡頭學習,使場景圖方法可以推廣到一組新的謂詞。首先,咱們引入一個新的謂詞模型做爲對象特徵或圖像位置進行操做的函數。接下來,咱們定義一個場景圖模型,其中這些函數在新的圖卷積框架中被訓練爲消息傳遞協議。咱們使用頻繁出現的謂詞訓練框架,並代表咱們的方法優於那些在召回50時使用相同數量的監督1.78而且與其餘場景圖模型相同的方法。接下來,咱們提取由訓練的謂詞函數生成的對象表示,以在罕見的謂詞上訓練幾個鏡頭謂詞分類器,其中只有1個標記示例。與強大的基線相比,例如從現有技術表現形式的轉移學習,咱們經過4.16回憶1顯示改進的5鏡頭表現。最後,咱們展現咱們的謂詞函數生成可解釋的可視化,啓用第一個可解釋的場景圖模型。

Task-Aware Deep Sampling for Feature Generation
Authors Xin Wang, Fisher Yu, Trevor Darrell, Joseph E. Gonzalez
基於過去的經驗,人類想象新穎物體的各類外觀的能力對於基於少數例子快速學習新穎的視覺概念是相當重要的。賦予具備相似能力的機器能夠爲新的視覺概念生成特徵分佈,這是對高效模型歸納進行抽樣的關鍵。在這項工做中,咱們提出了一種適用於零點設置中的特徵生成的新型發生器架構。咱們引入任務感知深度採樣TDS,其在發生器中逐層注入任務感知噪聲,與現有淺採樣SS方案相反,其中隨機噪聲僅在發生器的輸入層處被採樣一次。咱們提出了一種樣本有效學習模型,其由TDS生成器,鑑別器和分類器(例如,軟最大分類器)組成。咱們發現咱們的模型在組合零射擊學習基準上實現了最早進的結果,而且以更快的收斂速度改進了傳統零射擊學習中的既定基準。

Edge-Direct Visual Odometry
Authors Kevin Christensen, Martial Hebert
在本文中,咱們提出了一種邊緣直接視覺測距算法,該算法有效地利用邊緣像素來找到最小化圖像之間光度偏差的相對姿式。利用邊緣像素的先前工做將邊緣視爲特徵,並採用各類技術來匹配邊緣線或像素,這增長了沒必要要的複雜性。直接方法一般對全部像素強度進行操做,這被證實是高度冗餘的。相比之下,咱們的方法創建在直接視覺測距方法的基礎之上,天然而它不只比直接密集方法更有效,由於咱們使用一小部分像素進行迭代,但也更準確。咱們經過僅從一個圖像中提取邊緣來實現高精度和高效率,而且利用魯棒的高斯牛頓來最小化這些邊緣像素的光度偏差。這同時找到參考圖像中的邊緣像素,以及最小化光度偏差的相對相機姿式。咱們測試各類邊緣檢測器,包括學習邊緣,並肯定該方法的最佳邊緣檢測器是使用自動閾值處理的Canny邊緣檢測算法。咱們強調了邊緣直接方法和直接密集方法之間的關鍵差別,特別是更高級別的圖像金字塔如何致使顯着的混疊效應並致使不正確的解決方案收斂。咱們經過實驗證實,減小邊緣像素的光度偏差也會下降全部像素的光度偏差,咱們經過消融研究顯示經過優化邊緣像素得到的精度提升。咱們在RGB D TUM基準測試中評估咱們的方法,在此基礎上咱們實現了最早進的性能。

Weakly-supervised Compositional FeatureAggregation for Few-shot Recognition
Authors Ping Hu, Ximeng Sun, Kate Saenko, Stan Sclaroff
從一些例子中學習是機器學習的一項具備挑戰性的任務。雖然最近已經對這個問題取得了進展,可是大多數現有方法忽略了視覺概念表示中的組合性,例如對象是由部分構建的或由語義屬性組成,這是人類從少許示例中輕鬆學習的能力的關鍵。爲了加強具備組合性的少數鏡頭學習模型,在本文中,咱們提出了簡單而強大的組合特徵聚合CFA模塊做爲深度網絡的弱監督正則化。給定從輸入中提取的深度特徵圖,咱們的CFA模塊首先將特徵空間解開爲不相交的語義子空間,這些子空間模擬不一樣的屬性,而後雙線性地聚合每一個子空間內的局部特徵。 CFA明確地使用語義和空間組合來規範表示,以產生用於少數鏡頭識別任務的辨別表示。此外,咱們的方法在訓練過程當中不須要對屬性和對象部分進行任何監督,所以能夠方便地插入到現有模型中進行端到端優化,同時保持模型大小和計算成本幾乎相同。對少數鏡頭圖像分類和動做識別任務的普遍實驗代表,咱們的方法相對於最近的現有技術方法提供了實質性的改進。

Suppressing Model Overfitting for Image Super-Resolution Networks
Authors Ruicheng Feng, Jinjin Gu, Yu Qiao, Chao Dong
大型深度網絡在單圖像超分辨率SISR中表現出競爭性,涉及大量數據。然而,在現實世界場景中,因爲可訪問的訓練對有限,大型模型表現出不合適的行爲,例如過分擬合和記憶。爲了抑制模型過分擬合併進一步享受大模型容量的優勢,咱們完全研究了提供額外訓練數據對的通用方法。特別是,咱們引入了一個簡單的學習原理MixUp來訓練網絡對樣本對的插值,這鼓勵網絡支持訓練樣本之間的線性行爲。此外,咱們提出了一種具備學習退化的數據合成方法,使模型可以使用具備更高內容多樣性的超高質量圖像。該策略證實能夠成功地減小數據誤差。經過將這些組件MixUp和合成訓練數據相結合,能夠在很是有限的數據樣本下訓練大型模型而不會過分擬合,並得到使人滿意的泛化性能。咱們的方法在NTIRE2019 Real SR Challenge中得到第二名。

Differential Imaging Forensics
Authors Aur lien Bourquard, Jeff Yan
咱們介紹了一些基於差分紅像的新取證,其中經過光與場景的微妙相互做用(例如暗淡反射)建立的一類新的視覺證據能夠經過比較分析從附加圖像中進行計算提取和放大。在相似條件下得到的參考基線圖像。這種差別成像取證DIF的範例使得法醫檢查員第一次可以檢索在圖像或視頻鏡頭中容易得到的所述視覺證據,可是不然對於人類觀察者來講仍然是微弱的甚至是不可見的。咱們經過實踐實驗證實了咱們方法的相關性和有效性。咱們還展現了DIF提供了一種檢測僞造圖像和視頻剪輯的新方法,包括深度僞造。

Continual and Multi-Task Architecture Search
Authors Ramakanth Pasunuru, Mohit Bansal
架構搜索是自動學習最適合給定任務的神經模型或細胞結構的過程。最近,該方法使用稱爲Efficient Neural Architecture Search ENAS的權重共享策略,在合理的訓練速度下,在語言建模和圖像分類方面表現出了有但願的性能改進。在咱們的工做中,咱們首先介紹一種新穎的連續架構搜索CAS方法,以便在幾個任務的順序訓練期間不斷演化模型參數,而不會經過塊稀疏性和正交性約束損失先前學習的任務的性能,從而實現終身學習。接下來,咱們探索一種基於ENAS的多任務架構搜索MAS方法,用於找到經過聯合控制器獎勵在多個任務中表現良好的統一單細胞結構,所以容許更普遍地將細胞結構知識轉移到看不見的新任務。咱們憑經驗證實了咱們的順序連續學習和基於並行多任務學習的架構搜索方法對不一樣句子對分類任務GLUE和基於多模式生成的視頻字幕任務的有效性。此外,咱們提出了幾個關於學習細胞結構的消融和分析。

Manifold Graph with Learned Prototypes for Semi-Supervised Image Classification
Authors Chia Wen Kuo, Chih Yao Ma, Jia Bin Huang, Zsolt Kira
半監督學習方法的最新進展依賴於使用在標記數據僞標記上訓練的模型估計未標記數據的類別,並使用未標記數據用於各類基於一致性的正則化。在這項工做中,咱們建議另外明確地利用數據流形的結構,該結構基於在特徵空間內的圖像實例上構建的流形圖。具體而言,咱們提出了一種基於圖形網絡的體系結構,它以端到端的方式聯合優化特徵提取,圖形鏈接以及特徵傳播和聚合到未標記數據。此外,咱們提出了一種新穎的原型生成器,用於生成各類原型,緊湊地表明每一個類別,支持特徵傳播。爲了評估咱們的方法,咱們首先提供了一個強大的基線,它結合了兩個基於一致性的正則化器,這些正則化器已經實現了最早進的結果,特別是標籤更少而後,咱們代表,當與這些損失相結合時,所提出的方法有助於將信息從生成的原型傳播到圖像數據,以進一步改善結果。咱們在半監督基準測試中提供了普遍的定性和定量實驗結果,證實了咱們的設計所帶來的改進,並代表咱們的方法與使用單一模型和與集合方法至關的現有方法相比,實現了最早進的性能。具體來講,咱們在SVHN上的錯誤率爲3.35,在CIFAR 10上爲8.27,在CIFAR 100上的錯誤率爲33.97。因爲標籤少得多,咱們的顯着優點超過了現有技術水平,平均有39個相對偏差減小。

Stereoscopic Omnidirectional Image Quality Assessment Based on Predictive Coding Theory
Authors Zhibo Chen, Jiahua Xu, Chaoyi Lin, Wei Zhou
立體全方位圖像的客觀質量評估是一個具備挑戰性的問題,由於它受到多個方面的影響,如投影變形,視野FoV範圍,雙目視覺,視覺溫馨度等。現有研究代表經典的2D或3D圖像質量評估IQA指標不能很好地表現立體全方位圖像。然而,不多有研究工做集中在評估全方位圖像的感知視覺質量,特別是對於立體全方位圖像。在本文中,基於人類視覺系統HVS的預測編碼理論,咱們提出了一種立體全方位圖像質量評估器SOIQE,以應對3D 360度圖像的特徵。基於SOIQE預測編碼理論的雙目競爭模塊和多視圖融合模塊涉及兩個模塊。在雙目競爭模塊中,咱們引入預測編碼理論來模擬高層次模式之間的競爭,並計算類似性和競爭優點,以得到視口圖像的質量分數。此外,咱們開發了多視圖融合模塊,藉助於內容權重和位置權重來聚合視口圖像的質量分數。建議的SOIQE是一個參數模型,沒有必要的迴歸學習,這確保了它的可解釋性和泛化性能。咱們發佈的立體全方位圖像質量評估數據庫SOLID的實驗結果代表,咱們提出的SOIQE方法優於現有技術指標。此外,咱們還驗證了每一個提議的模塊在公共立體圖像數據集和全景圖像數據集上的有效性。

eSLAM: An Energy-Efficient Accelerator for Real-Time ORB-SLAM on FPGA Platform
Authors Runze Liu, Jianlei Yang, Yiran Chen, Weisheng Zhao
同時本地化和映射SLAM是自主導航的關鍵任務。然而,因爲SLAM算法的計算複雜性,很難在低功耗平臺上實現實時實現。咱們提出了一種節能架構,用於實時ORB定向FAST和基於旋轉簡介的可視SLAM系統,加速最耗時在FPGA平臺上進行特徵提取和匹配的階段。此外,原始ORB描述符模式被改造爲旋轉對稱方式,更加硬件友好。進一步利用包括從新調度和並行化的優化來提升吞吐量並減小存儲器佔用。與TUM數據集上的Intel i7和ARM Cortex A9 CPU相比,咱們的FPGA實現分別實現了高達3倍和31倍的幀速率提高,以及高達71倍和25倍的能效提高。

Non-Parametric Calibration for Classification
Authors Jonathan Wenger, Hedvig Kjellstr m, Rudolph Triebel
分類方法的許多應用不只須要高精度,並且還須要對預測不肯定性的可靠估計。然而,雖然許多當前的分類框架,特別是深度神經網絡架構,在準確性方面提供了很是好的結果,可是它們傾向於低估它們的預測不肯定性。在本文中,咱們提出了一種方法,它能夠校訂通常分類器的置信度輸出,使其接近正確分類的真實機率。與現有方法相比,該分類器校準基於使用潛在高斯過程的非參數表示而且專門設計用於多類分類。它能夠應用於輸出置信度估計的任何分類方法,而且不限於神經網絡。咱們還提供了關於分類器的過分和不足以及其與校準的關係的理論分析。在實驗中,咱們展現了咱們的方法在不一樣的分類器和基準數據集中的廣泛強大的性能,與現有的分類器校準技術相比。

Adaptive Navigation Scheme for Optimal Deep-Sea Localization Using Multimodal Perception Cues
Authors Arturo Gomez Chavez, Qingwen Xu, Christian A. Mueller, S ren Schwertfeger, Andreas Birk
水下機器人干預須要高水平的安全性和可靠性。要解決的一個主要挑戰是強大而準確地獲取本地化估算,由於這是實現更復雜任務的先決條件,例如:浮動操縱和映射。商業運營中的現有技術導航,例如石油自然氣生產OGP,依賴於昂貴的儀器。這些能夠經過視覺導航方法部分地替換或輔助,尤爲是在設備部署具備高成本和風險的深海場景中。咱們的工做提出了一種多模式方法,它適應陸地機器人技術的最新方法,即密集點雲生成與平面表示和配準相結合,以提升水下定位性能。提出了一種兩階段導航方案,其初始生成工做空間的粗略機率圖,其用於從第二階段中的計算點雲和平面過濾噪聲。此外,引入了自適應決策方法,其肯定將哪些感知提示結合到定位濾波器中以優化準確性和計算性能。咱們首先在模擬中研究咱們的方法,而後使用OGP監測和維護方案中的現場試驗數據進行驗證。

Using Small Proxy Datasets to Accelerate Hyperparameter Search
Authors Sam Shleifer, Eric Prokop
機器學習工做流程中最大的瓶頸之一是等待模型訓練。根據可用的計算資源,可能須要數天到數週才能在具備許多類(如ImageNet)的大型數據集上訓練神經網絡。對於試驗新算法方法的研究人員來講,這是不切實際的耗時且成本高昂的。咱們的目標是生成較小的代理數據集,其中實驗運行成本更低,但結果與完整數據集上的實驗結果高度相關。咱們使用從示例或類中隨機抽樣來生成這些代理數據集,僅對最簡單或最難的示例進行培訓,並對數據蒸餾生成的合成示例進行培訓。咱們將這些技術與更普遍使用的完整數據集訓練基線進行比較,以得到更少的時期。對於每一個代理策略,咱們估計代理質量的三個度量能夠經過代理數據集上的實驗結果來解釋實驗結果在完整數據集上的多少方差。

Joint 3D Localization and Classification of Space Debris using a Multispectral Rotating Point Spread Function
Authors Chao Wang, Grey Ballard, Robert Plemmons, Sudhakar Prasad
咱們使用多光譜旋轉點擴散函數RPSF考慮了未解決的空間碎片的聯合三維3D定位和材料分類的問題。 RPSF的使用容許人們從由單個2D傳感器陣列獲取的旋轉圖像估計點源的3D位置,由於每一個源圖像關於其x,y位置的旋轉量取決於其軸向距離z。使用多光譜圖像,每一個光譜帶有一個RPSF,咱們不只能夠定位空間碎片的3D位置,還能夠對其材料成分進行分類。咱們提出了一種實現聯合定位和分類的三階段方法。在階段1中,咱們採用用於定位的優化方案,其中假設每種材料的光譜特徵是均勻的,這顯着提升了效率而且產生比單個光譜帶更好的定位結果。在階段2中,咱們經過交替方法估計光譜特徵並細化定位結果。咱們在最後階段處理分類。考慮了泊松噪聲和高斯噪聲模型,並討論了各自的實現。使用來自NASA的多光譜數據的數值測試顯示了咱們的三階段方法的效率,並說明了在單個頻帶上使用多個頻帶的點源定位和光譜分類的改進。

Chinese Abs From Machine Translation

Papers from arxiv.org網絡

更多精彩請移步主頁架構


在這裏插入圖片描述
pic from pexels.com框架

相關文章
相關標籤/搜索