今日CS.CV 計算機視覺論文速覽
Wed, 10 Apr 2019
Totally 67 papers
👉上期速覽 ✈更多精彩請移步主頁html
📚通用物體檢測框架, 在不須要先驗知識的強化下實現了橫跨多個域的目標檢測,這要經過引入一系列的適應層,基於序列和激活的原理和新域的注意力機制。同時在全部域間共享參數和計算。(from UCSD)
在11個不一樣數據集上的通用檢測:
不一樣類型的檢測器:
網絡模型及序列激活單元
code:http://www.svcl.ucsd.edu/projects/universal-detection/
ios
📚基於圖割的多模態風格遷移, 經過將風格圖像的特徵聚類到不一樣的元素,這些元素則基於圖割的方法由局部信息獲得。網絡將這些特徵遷移並渲染到最終的目標圖上去。(from 西北大學)
對於風格特徵的聚類:
對於風格特徵的匹配:
git
📚3DPeople, 着裝狀況下的人體幾何建模。(from CSIC-UPC 哈佛)
包含了80個主體280段視頻序列(四個相機),70個動做的數據集,標註了3D紋理、分割mask、骨架、深度、法向量和光流。
利用二維來表示三維形狀,創建了球區域保持參數化算法。以及估計的流程:
最後設計了從着裝人體到生成幾何圖像的網絡:
以及一些結果:
數據集:3DPeople Dataset
ref:
https://www.blender.org/
http://www.makehumancommunity.org/
https://www.mixamo.com/#/
matlabICP:https://www.mathworks.com/search/site_search.html?c[]=entire_site&q=ICP
https://www.mathworks.com/matlabcentral/fileexchange/41396-nonrigidicp?s_tid=srchtitle
github
📚Gaussian YOLOv3,利用高斯參數和從新設計的損失來改進yolo v3的精度,經過預測檢測過程的不肯定度減少了假陽性並提升了TP的機率,最終提升了3.09-3.5的mAP,減少了41.4%-40.62%的FP,增長了4.3%-7.26%的TP,實現了42fps。(from 首爾大學)
將位置xywh的估計變爲了四個高斯分佈的估計,均值和方差。損失函數最小化均值和方差:
最後是一些結果,下面是加了高速估計的結果:
web
📚NDP三維點雲去噪, 基於神經網絡估計參考平面,隨後將點雲投影到參考平面去噪。(from CMU)
流程圖和網絡架構:
code:https://github.com/chaojingduan/Neural-Projection
算法
📚CompenNet光度投影補償方法, (from Meitu HiScene Lab)
訓練和補償的狀況,訓練重受到平面干擾的圖像中個恢復出原圖,而補償則使用網絡獲得一個補償後的投影圖像,投影后就能夠補償平面的干擾。
不一樣表面的結果以下:
code:https://github.com/BingyaoHuang/CompenNet
數據庫
📚UG2+ Track 2 弱視覺條件下的圖像理解基準數據集, 包括了雨、霧和弱光條件下的場景。(from http://www.ug2challenge.org/)
ref:
1https://github.com/tzutalin/labelImg
2https://github.com/matterport/Mask RCNN
3https://github.com/fizyr/keras-retinanet
4https://github.com/ayooshkathuria/pytorch-yolo-v3
5https://github.com/DetectionTeamUCAS/FPN Tensorflow
6https://github.com/Boyiliee/AOD-Net
7https://github.com/rwenqi/Multi-scale-CNN-Dehazing
8https://github.com/hezhangsprinter/DCPDN
9https://github.com/TencentYoutuResearch/FaceDetection-DSFD
10https://github.com/EricZgw/PyramidBox
11https://github.com/sfzhang15/SFD
12https://github.com/mahyarnajibi/SSH.git
13https://github.com/playerkk/face-py-faster-rcnn
14https://github.com/baidut/BIMEF
15https://sites.google.com/view/xjguo/lime
16https://github.com/tonghelen/JED-Method
17https://github.com/weichen582/RetinexNet
18http://www.icst.pku.edu.cn/struct/Projects/joint rain removal.html
19https://github.com/XMU-smartdsp/Removing Rain
20https://github.com/TrinhQuocNguyen/Edited Original IDCGAN
21https://github.com/hezhangsprinter/DID-MDN
22https://github.com/rui1996/DeRaindrop
編程
📚Rain O’er Me,合成逼真下雨圖片來去雨滴。(from廈門大學)
跨域
📚表面缺陷分類及數據集, 將會發布數據集,22000 多種材質的表面缺陷標註圖像。(from 德國AI研究中心 )
ref:http://faculty.neu.edu.cn/yunhyan/NEU_surface_defect_database.html安全
Prime Sample Attention in Object Detection Authors Yuhang Cao, Kai Chen, Chen Change Loy, Dahua Lin 對象檢測框架中的常見範例是平等地處理全部樣本而且目標是平均地最大化性能。在這項工做中,咱們經過仔細研究不一樣樣本如何對按mAP衡量的總體績效作出貢獻來從新審視這一範例。咱們的研究代表,每一個小批次中的樣本既不是獨立的也不是同等重要的,所以平均更好的分類器並不必定意味着更高的mAP。在本研究的推進下,咱們提出了Prime樣本的概念,即那些在推進檢測性能方面發揮關鍵做用的樣本。咱們進一步開發了一種簡單而有效的採樣和學習策略,稱爲PrIme Sample Attention PISA,將培訓過程的重點轉向此類樣本。咱們的實驗代表,在訓練探測器時,關注質數樣本一般比硬樣本更有效。特別是,在MSCOCO數據集上,PISA優於隨機抽樣基線和硬挖掘方案,例如: OHEM和Focal Loss,在單級和兩級探測器上始終保持1個以上,具備強大的主幹ResNeXt 101。 |
Learning from Videos with Deep Convolutional LSTM Networks Authors Logan Courtney, Ramavarapu Sreenivas 本文探討了使用卷積LSTM同時學習視頻中的空間和時間信息。卷積LSTM的深度網絡容許模型在數據的全部空間尺度上訪問整個時間信息範圍。咱們描述了涉及用於脣讀的卷積LSTM的實驗,證實該模型可以選擇性地選擇哪一個時空尺度與特定數據集最相關。所提出的深層體系結構在其餘應用中也具備前景,其中時空特徵起着相當重要的做用,而沒必要特別知足網絡的設計以知足問題中存在的特定時空特徵。對於Wild LRW數據集中的Lip Reading,咱們的模型略微優於先前的83.4與83.0相比,而且當模型在Lip Reading Sentences LRS2數據集上預先訓練時,將新技術水平設置爲85.2。 |
Unsupervised 3D Pose Estimation with Geometric Self-Supervision Authors Ching Hang Chen, Ambrish Tyagi, Amit Agrawal, Dylan Drover, Rohith MV, Stefan Stojanov, James M. Rehg 咱們提出了一種無監督學習方法,用於從單個圖像中提取的2D骨骼關節中恢復3D人體姿式。咱們的方法不須要任何多視圖圖像數據,3D骨架,2D 3D點之間的對應關係,或者在訓練期間使用先前學習的3D先驗。提高網絡接受2D地標做爲輸入並生成相應的3D骨架估計。在訓練期間,恢復的3D骨架在隨機攝像機視點上從新投影以生成新的合成2D姿式。經過將合成2D姿式提高回3D並在原始相機視圖中從新投影它們,咱們能夠在3D和2D中定義自身一致性損失。所以,經過利用升力從新投影升力過程的幾何自洽性,能夠自我監督訓練。咱們代表單獨的自我一致性不足以生成逼真的骨架,可是添加2D姿式鑑別器使得升降器可以輸出有效的3D姿式。此外,爲了從野外的2D姿式中學習,咱們訓練了一個無監督的2D域適配器網絡,以容許擴展2D數據。這改善告終果而且證實了2D姿式數據對於無監督3D提高的有用性。用於3D人體姿式估計的Human3.6M數據集的結果代表咱們的方法在先前的無監督方法上改進了30而且優於許多明確使用3D數據的弱監督方法。 |
CMIR-NET : A Deep Learning Based Model For Cross-Modal Retrieval In Remote Sensing Authors Ushasi Chaudhuri, Biplab Banerjee, Avik Bhattacharya, Mihai Datcu 咱們解決了遙感領域中的交叉模態信息檢索問題。特別地,咱們感興趣的是兩種應用場景,即在全色PAN和多光譜圖像之間進行模態檢索,以及ii在很是高分辨率的VHR圖像和基於語音的標籤註釋之間的多標籤圖像檢索。請注意,考慮到模態之間分佈的固有差別,這些多模態檢索場景比傳統的單模態檢索方法更具挑戰性。然而,隨着多源遙感數據的日益普及以及足夠的語義註釋的缺少,多模態檢索的任務最近變得極爲重要。在這方面,咱們提出了一種新穎的基於深度神經網絡的體系結構,其被認爲是針對全部輸入模態學習辨別共享特徵空間,適用於語義相干信息檢索。對基準大規模PAN多光譜DSRSID數據集和多標籤UC Merced數據集進行了大量實驗。與Merced數據集一塊兒,咱們生成對應於標籤的語音信號語料庫。在全部狀況下都觀察到相對於現有技術的優異性能。 |
Multi-Agent Tensor Fusion for Contextual Trajectory Prediction Authors Tianyang Zhao, Yifei Xu, Mathew Monfort, Wongun Choi, Chris Baker, Yibiao Zhao, Yizhou Wang, Ying Nian Wu 準確預測其餘軌跡對於自動駕駛相當重要。軌跡預測具備挑戰性,由於它須要推理代理人過去的動做,不一樣數量和類型的代理人之間的社會交互,場景背景的約束以及人類行爲的隨機性。咱們的方法在一個新的Multi Agent Tensor Fusion MATF網絡中共同模擬這些相互做用和約束。具體地,該模型將多個代理通過軌跡和場景上下文編碼到多代理張量中,而後應用卷積融合來捕獲多代理交互,同時保留代理的空間結構和場景上下文。該模型反覆解碼爲多個代理將來軌跡,使用對抗性損失來學習隨機預測。高速公路駕駛和行人人羣數據集的實驗代表,該模型實現了最早進的預測精度。 |
Adversarial Learning of Disentangled and Generalizable Representations for Visual Attributes Authors James Oldfield, Yannis Panagakis, Mihalis A. Nicolaou 最近,用於圖像到圖像轉換的多種方法已經在諸如多域或多屬性轉移的問題上展現了使人印象深入的結果。絕大多數此類工做利用對抗性學習的優點與深度卷積自動編碼器相結合,經過很好地捕獲目標數據分佈來實現真實的結果。然而,這類方法中最突出的表明不利於潛在空間中的語義結構,而且一般依賴於域標籤來進行測試時間轉移。這致使剛性模型沒法捕獲每一個域標籤的方差。有鑑於此,咱們提出了一種新穎的對抗性學習方法,它經過基於新的成本函數解開變異來源來促進潛在結構,而且鼓勵學習可用於諸如不成對的多域圖像之類的任務的可推廣,連續和可轉移的潛在代碼。轉移和合成,無需標記的測試數據。所獲得的表示能夠以任意方式組合以生成新穎的混合圖像,例如生成身份的混合。咱們經過一組關於流行數據庫的定性和定量實驗證實了所提方法的優勢,其中咱們的方法明顯優於其餘最早進的方法。能夠在如下位置找到複製咱們結果的代碼 |
User-Controllable Multi-Texture Synthesis with Generative Adversarial Networks Authors Aibek Alanov, Max Kochurov, Denis Volkhonskiy, Daniil Yashkov, Evgeny Burnaev, Dmitry Vetrov 咱們提出了一種基於具備用戶可控機制的生成對抗網絡GAN的新型多紋理合成模型。用戶控制能力容許明確指定應由模型生成的紋理。該屬性遵循使用編碼器部分,該編碼器部分從數據集學習每一個紋理的潛在表示。爲了確保數據集覆蓋,咱們使用對抗性損失函數來懲罰給定紋理的錯誤複製。在實驗中,咱們展現了咱們的模型能夠爲大型數據集和原始數據(如高分辨率照片集)學習描述性紋理流形。此外,咱們應用咱們的方法來生成3D紋理並顯示它優於現有基線。 |
Segmentation of Skeletal Muscle in Thigh Dixon MRI Based on Texture Analysis Authors Rafael Rodrigues, Antonio M. G. Pinheiro 磁共振圖像中骨骼肌的分割MRI對肌肉生理學和肌肉病理學診斷的研究相當重要。然而,大型MRI體積的手動分割是一項耗時的任務。關於MRI中肌肉分割的算法的現有技術仍然不是很是普遍而且在某種程度上依賴於數據庫。本文提出了一種基於AdaBoost局部紋理特徵分類的自動分割方法。紋理描述符包括方向梯度直方圖HOG,基於小波的特徵,以及從灰度MRI的高斯濾波的原始和拉普拉斯算子計算的一組統計測量。分類器性能代表紋理分析多是設計通用和自動MRI肌肉分割框架的有用工具。此外,本文還描述了基於圖譜的個體肌肉分割方法。經過使用適當的仿射變換在圖像對準以後覆蓋由放射科醫師提供的肌肉分割基礎事實來得到圖譜。而後,它用於在AdaBoost二進制分割上定義肌肉標籤。當得到準確的肌肉組織分割時,開發的圖譜方法提供合理的結果。 |
Cross-Modal Self-Attention Network for Referring Image Segmentation Authors Linwei Ye, Mrigank Rochan, Zhi Liu, Yang Wang 咱們考慮引用圖像分割的問題。給定輸入圖像和天然語言表達,目標是分割圖像中語言表達引用的對象。此區域中的現有做品將語言表達式和輸入圖像分別用於表示。它們沒有充分捕捉這兩種方式之間的長距離相關性。在本文中,咱們提出了一種跨模式自我關注CMSA模塊,它有效地捕獲了語言和視覺特徵之間的長期依賴關係。咱們的模型能夠自適應地關注參考表達中的信息詞和輸入圖像中的重要區域。此外,咱們提出了一種門控多級融合模塊,以選擇性地集成對應於圖像中不一樣級別的自注意交叉模態特徵。該模塊控制不一樣級別的功能的信息流。咱們在四個評估數據集上驗證了所提出的方法。咱們提出的方法始終優於現有技術方法。 |
Learning Across Tasks and Domains Authors Pierluigi Zama Ramirez, Alessio Tonioni, Samuele Salti, Luigi Di Stefano 最近的工做證實,許多相關的視覺任務彼此密切相關。然而,因爲缺少將學習概念轉移到不一樣列車的實用方法,這種聯繫在實踐中不多被部署。在這項工做中,咱們引入了一個新的適應框架,能夠跨任務和域運行。咱們的框架學習如何在徹底受監督的域中跨任務傳遞知識,例如合成數據,並將該知識用於咱們僅具備部分監督的不一樣域,例如真實數據。咱們的提議是對現有域適應技術的補充,並將其擴展到跨任務場景,從而提供額外的性能提高。咱們證實了咱們的框架在兩個具備挑戰性的任務中的有效性,即單眼深度估計和語義分割以及四個不一樣的領域Synthia,Carla,Kitti和Cityscapes。 |
Generative Models for Novelty Detection: Applications in abnormal event and situational change detection from data series Authors Mahdyar Ravanbakhsh 新穎性檢測是用於區分在某些方面與訓練模型的觀察結果不一樣的觀察結果的過程。新穎性檢測是良好分類或識別系統的基本要求之一,由於有時測試數據包含在訓練時未知的觀察結果。換句話說,新穎類一般不會在訓練階段呈現或沒有明肯定義。 |
Label Propagation for Deep Semi-supervised Learning Authors Ahmet Iscen, Giorgos Tolias, Yannis Avrithis, Ondrej Chum 半監督學習變得愈來愈重要,由於它能夠將人類仔細標記的數據與豐富的未標記數據相結合,以訓練深度神經網絡。關於轉導學習的半監督學習的經典方法還沒有在現代深度學習的概括框架中獲得充分利用。對於相似的例子應該獲得相同的預測的多方面假設也是如此。在這項工做中,咱們採用轉換標籤傳播方法,該方法基於流形假設對整個數據集進行預測,並使用這些預測爲未標記數據生成僞標籤並訓練深度神經網絡。轉換方法的核心是咱們基於同一網絡的嵌入建立的數據集的最近鄰圖。所以,咱們的學習過程在這兩個步驟之間進行迭代。咱們改進了幾個數據集的性能,特別是在少數標籤制度中,並代表咱們的工做是對當前最新技術的補充。 |
End-to-End Learning-Based Ultrasound Reconstruction Authors Walter Simson, R diger G bl, Magdalini Paschali, Markus Kr nke, Klemens Scheidhauer, Wolfgang Weber, Nassir Navab 在尋求最高圖像質量和臨牀可用性的必要性之間捕獲超聲成像。咱們的貢獻是雙倍首先,咱們提出了一種用於超聲重建的新型徹底卷積神經網絡。其次,針對模態定製的自定義損失函數用於網絡的端到端訓練。咱們證實,訓練網絡將時間延遲的原始數據映射到最小的方差基礎事實能夠提升臨牀環境中的性能。在這樣作的過程當中,探索了一條改進臨牀可行的超聲重建的途徑。所提出的方法在集成用於實時超聲掃描時顯示有前途的圖像重建質量和獲取頻率。進行臨牀評估以驗證所提出的方法在臨牀環境中的診斷有用性。 |
Fast Accurate CT Metal Artifact Reduction using Data Domain Deep Learning Authors Muhammad Usman Ghani, W. Clem Karl 濾波反投影FBP是X射線計算機斷層掃描CT掃描儀中最普遍使用的圖像重建方法。場景中存在超高密度材料(例如金屬)會強烈衰減X射線,從而在重建中產生嚴重的條紋僞影。這些金屬僞影能夠極大地限制隨後的物體描繪和從圖像中提取信息,從而限制了它們的診斷價值。這個問題在安全領域尤爲嚴重,在安全領域中,可能出如今場景中的對象存在很大的異質性,必須快速作出高度準確的決策。減小CT圖像中的金屬僞影的標準實用方法是基於簡單的非自適應插值的投影數據完成方法或直接圖像後處理方法。這些標準方法的成功有限。主要受安全應用的推進,咱們提出了一種新的基於深度學習的金屬僞影減小MAR方法,該方法解決了投影數據領域中的問題。咱們將對應於金屬物體的投影數據視爲缺失數據,並訓練對抗性深層網絡以完成投影域中的缺失數據。而後,隨後的完整投影數據與FBP一塊兒用於重建旨在沒有僞像的圖像。這種新方法產生了端到端MAR算法,該算法在計算上很是有效,而且很是適合現有的CT工做流程,能夠在現有掃描儀中輕鬆採用。訓練深度網絡可能具備挑戰性,咱們工做的另外一個貢獻是證實使用精確的X射線模擬生成的訓練數據能夠用於在與使用有限的真實數據集的轉移學習相結合時成功訓練深度網絡。咱們證實了咱們的算法在模擬和實際例子中的有效性和潛力。 |
Action Recognition from Single Timestamp Supervision in Untrimmed Videos Authors Davide Moltisanti, Sanja Fidler, Dima Damen 識別視頻中的動做依賴於訓練期間的標記監督,一般是每一個動做實例的開始和結束時間。這種監督不只是主觀的,並且也很昂貴。弱視頻級別監控已成功用於未修剪視頻中的識別,可是當培訓視頻中不一樣操做的數量增長時,它受到挑戰。咱們提出了一種方法,該方法由位於每一個動做實例周圍的單個時間戳監視,在未修剪的視頻中。咱們用從這些時間戳初始化的採樣分佈替換昂貴的動做範圍。而後,咱們使用分類器的響應來迭代地更新採樣分佈。咱們證實這些分佈收斂於判別行爲部分的位置和範圍。咱們在三個數據集上評估咱們的方法以進行細粒度識別,每一個視頻的不一樣操做數量不斷增長,而且代表單個時間戳在識別性能和標記工做之間提供了合理的折衷,與完整的時間監督相比。咱們的更新方法將前1個測試精度提升了5.4。跨評估的數據集。 |
Multi-Target Embodied Question Answering Authors Licheng Yu, Xinlei Chen, Georgia Gkioxari, Mohit Bansal, Tamara L. Berg, Dhruv Batra 體驗性問題回答EQA是一項相對較新的任務,要求代理人以自我中心的方式回答有關其環境的問題。 EQA作出了一個基本的假設,即每一個問題,例如汽車的顏色,都只有一輛目標車被詢問。這種假設直接限制了代理人的能力。咱們提出了EQA多目標EQA MT EQA的歸納。具體來講,咱們研究其中有多個目標的問題,例如臥室中的梳妝檯是否比廚房中的烤箱大,其中代理必須導航到臥室中的多個位置梳妝檯,廚房中的烤箱以及執行比較推理的梳妝檯更大而不是烤箱才能回答問題。這些問題須要在代理中開發全新的模塊或組件。爲了解決這個問題,咱們提出了一種模塊化架構,它由程序生成器,控制器,導航器和VQA模塊組成。程序生成器將給定問題轉換爲順序可執行子程序,導航器將代理引導到與導航相關子程序相關的多個位置,而且控制器學習沿其路徑選擇相關觀察。而後將這些觀察結果輸入VQA模塊以預測答案。咱們對每一個模型組件進行詳細分析,並代表咱們的聯合模型能夠大大優於之前的方法和強大的基線。 |
Domain-Symmetric Networks for Adversarial Domain Adaptation Authors Yabin Zhang, Hui Tang, Kui Jia, Mingkui Tan 無監督域適應的目的是在給定源域上標記樣本的訓練數據的狀況下,學習目標域上未標記樣本的分類器模型。最近經過深度網絡的域對抗性訓練學習不變特徵,取得了使人矚目的進展。儘管最近取得了進展,但領域適應仍然有限,沒法在更精細的類別級別實現特徵分佈的不變性。爲此,咱們在本文中提出了一種新的域自適應方法,稱爲域對稱網絡SymNets。建議的SymNet基於源和目標任務分類器的對稱設計,在此基礎上咱們還構造了一個額外的分類器,與它們共享其層神經元。爲了訓練SymNet,咱們提出了一種新穎的對抗性學習目標,其關鍵設計基於兩級域混淆方案,其中類別級別的混淆損失經過推進中間網絡特徵的學習在不變的狀況下在域級別1上獲得改善。兩個域的相應類別。域辨別和域混淆都是基於構造的附加分類器實現的。因爲目標樣本未標記,咱們還提出了跨域培訓方案,以幫助學習目標分類器。仔細消融研究代表咱們提出的方法的功效。特別是,基於經常使用的基礎網絡,咱們的SymNets在三個基準域自適應數據集上實現了新的技術水平。 |
Holistic and Comprehensive Annotation of Clinically Significant Findings on Diverse CT Images: Learning from Radiology Reports and Label Ontology Authors Ke Yan, Yifan Peng, Veit Sandfort, Mohammadhadi Bagheri, Zhiyong Lu, Ronald M. Summers 在放射科醫師的平常工做中,一個主要任務是讀取醫學圖像,例如CT掃描,發現重大病變,並在放射學報告中描述它們。在本文中,咱們研究病變描述或註釋問題。鑑於病變圖像,咱們的目標是預測一組全面的相關標籤,例如病變的身體部位,類型和屬性,這可能有助於下游細粒度診斷。爲了解決這個任務,咱們首先設計一個深度學習模塊,從與病變圖像相關的放射學報告中提取相關的語義標籤。利用圖像和文本挖掘標籤,咱們提出了一個基於多標記卷積神經網絡CNN的病變註釋網絡LesaNet,以全面學習全部標籤。利用標籤之間的分層關係和互斥關係來提升標籤預測的準確性。這些關係用於標籤擴展策略和關係硬件示例挖掘算法。咱們還在LesaNet上附加了一個簡單的分數傳播層,以加強回憶並探索標籤之間的隱式關係。多標籤度量學習與分類相結合以實現可解釋的預測。咱們在公共DeepLesion數據集上評估了LesaNet,該數據集包含超過32K的不一樣病變圖像。實驗代表,LesaNet可使用171個細粒度標籤的本體論精確地對病變進行註釋,平均AUC爲0.9344。 |
Towards Analyzing Semantic Robustness of Deep Neural Networks Authors Abdullah Hamdi, Bernard Ghanem 儘管深度神經網絡DNN在各類視覺任務上的表現使人印象深入,但它們仍然對語義原語表現出錯誤的高靈敏度,例如:對象姿式。咱們提出了DNN在語義空間中的魯棒性的理論基礎分析。咱們經過將DNN全局行爲可視化爲語義映射並觀察某些DNN的有趣行爲來定性地分析不一樣DNN的語義穩健性。因爲生成這些語義映射不能很好地與語義空間的維度成比例,所以咱們開發了一種自下而上的方法來檢測DNN的穩健區域。爲了實現這一點,咱們將尋找網絡的強大語義區域做爲整數邊界的優化併爲區域邊界的更新方向開發表達式的問題正式化。咱們使用咱們開發的公式來定量評估不一樣着名網絡架構的語義穩健性。咱們經過大量實驗展現了幾個網絡,雖然在同一數據集上訓練而且在享受至關的準確性的同時,但它們在語義魯棒性方面的表現並不必定。例如,儘管InceptionV3在語義上比ResNet50更健壯,但它更準確。咱們但願這個工具將成爲理解DNN語義魯棒性的第一個里程碑。 |
Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving Authors Jiwoong Choi, Dayoung Chun, Hyun Kim, Hyuk Jae Lee 物體檢測算法的使用在自動車輛中變得愈來愈重要,而且高精度和快速推理速度的物體檢測對於安全自動駕駛是必不可少的。在自動駕駛期間來自錯誤定位的假陽性FP可致使致命事故而且妨礙安全且有效的駕駛。所以,在自動駕駛應用中須要可以應對誤定位的檢測算法。本文提出了一種在支持實時操做的同時,經過建模YOLOv3的邊界框bbox來提升檢測精度的方法,YOLOv3是一階段檢測器中最具表明性的,具備高斯參數並從新設計損失函數。此外,本文提出了一種預測定位不肯定性的方法,該方法指出了bbox的可靠性。經過在檢測過程當中使用預測的定位不肯定性,所提出的方案能夠顯着下降FP並增長真正的TP,從而提升準確度。與傳統的YOLOv3相比,所提出的算法Gaussian YOLOv3分別在KITTI和Berkeley深度驅動BDD數據集上將平均精度mAP提升了3.09和3.5。此外,在相同的數據集上,所提出的算法能夠將FP下降41.40和40.62,而且將TP分別增長7.26和4.3。然而,所提出的算法可以以比每秒42幀fps更快的速度進行實時檢測。 |
Rain O'er Me: Synthesizing real rain to derain with data distillation Authors Huangxing Lin, Yanlong Li, Xinghao Ding, Weihong Zeng, Yue Huang, John Paisley 咱們提出了一種監督技術,用於學習如何在不使用合成雨軟件的情該方法基於兩階段數據蒸餾方法1首先使用簡單的過濾技術雨來清潔雨季圖像與粗略排除的版本。 2而後將乾淨的圖像與雨下的軟標記對隨機匹配。經過共享的深度神經網絡,而後將從第一圖像移除的雨添加到清潔圖像以產生第二對清潔雨。神經網絡同時學習映射兩個圖像,使得清潔圖像中的高分辨率結構能夠通知雨天圖像的消除。演示代表,這種方法能夠解決雨水的視覺特徵,這些特徵不容易經過軟件以一般的方式合成。 |
3DPeople: Modeling the Geometry of Dressed Humans Authors Albert Pumarola, Jordi Sanchez, Gary P. T. Choi, Alberto Sanfeliu, Francesc Moreno Noguer 3D人體形狀估計的最新進展創建在參數化表示上,其很是好地模擬裸體的形狀,但不適合於表示服裝幾何形狀。在本文中,咱們提出了一種模擬穿着人類的方法,並從單個圖像中預測它們的幾何形狀。咱們在該問題的三個基本方面作出貢獻,即新數據集,新穎的形狀參數化算法和用於預測形狀的端到端深度生成網絡。 |
Deep Virtual Networks for Memory Efficient Inference of Multiple Tasks Authors Eunwoo Kim, Chanho Ahn, Philip H.S. Torr, Songhwai Oh 深度網絡本質上消耗大量內存。一個天然的問題是咱們能夠在保持性能的同時減小內存需求。特別是,在這項工做中,咱們解決了針對多個任務的內存有效學習問題。爲此,咱們提出了一種新穎的網絡架構,用於生成不一樣配置的多個網絡,稱爲深度虛擬網絡DVN,用於不一樣的任務。每一個DVN專門用於單個任務並按層次結構進行組織。包含對應於不一樣數量的參數的多個層次結構的分層結構使得可以對不一樣的存儲器預算進行多個推斷。深度虛擬網絡的構建塊基於網絡參數的不相交集合,咱們將其稱爲單元。深層虛擬網絡中的最低層次結構是一個單元,更高層次的層次結構包含較低級別的單元和其餘附加單元。給定參數數量的預算,能夠選擇不一樣級別的深度虛擬網絡來執行任務。一個單元能夠由不一樣的DVN共享,容許單個網絡中的多個DVN。此外,共享單元經過從其餘任務中學到的額外知識爲目標任務提供幫助。 DVN的這種協做配置使得以存儲器感知方式處理不一樣任務成爲可能。咱們的實驗代表,所提出的方法優於現有的多任務方法。值得注意的是,咱們的效率比其餘任務更高,由於它容許對全部任務進行內存感知推理。 |
Assessing Capsule Networks With Biased Data Authors Bruno Ferrarini 1 , Shoaib Ehsan 1 , Adrien Bartoli 2 , Ale Leonardis 3 , Klaus D. McDonald Maier 1 1 University of Essex, CSEE, Wivenhoe Park, Colchester CO4 3SQ, UK 2 Facult e de M edecine, 28 Place Henri Dunant, 63000 Clermont Ferrand, France 3 University of Birmingham, School of Computer Science, Birmingham B15 2TT, UK 基於機器學習的方法在對象分類和檢測方面取得了使人矚在訓練階段利用視覺世界的表明性數據對於利用這種數據驅動方法實現良好性能相當重要。然而,並不老是能夠訪問無誤差數據集,所以對誤差數據的魯棒性是學習系統的理想特性。 Capsule Networks最近已經推出,它們對偏見數據的容忍度不多受到關注。本文旨在填補這一空白,並提出兩種實驗方案來評估對不平衡訓練數據的容忍度,並肯定模型的泛化性能,並對圖像進行不熟悉的仿射變換。本文評估了基於動態路由和EM路由的膠囊網絡,並在兩個測試場景中提出了與卷積神經網絡的比較。所呈現的結果提供了對膠囊網絡行爲的新看法。 |
BoLTVOS: Box-Level Tracking for Video Object Segmentation Authors Paul Voigtlaender, Jonathon Luiten, Bastian Leibe 咱們經過將任務分紅兩個子任務來限制盒級跟蹤,而後是邊界框分割來接近視頻對象分割VOS。在這個範例以後,咱們提出了針對VOS的BoLTVOS盒級跟蹤,其包括以第一幀邊界框爲條件的R CNN檢測器以檢測感興趣的對象,時間一致性從新綁定算法以及將邊界框轉換爲分割的Box2Seg網絡。口罩。 BoLTVOS僅使用沒有掩碼的第一幀邊界框執行VOS。咱們評估了咱們在DAVIS 2017和YouTube VOS上的方法,並代表它優於全部不執行第一幀微調的方法。咱們進一步展現了BoLTVOS ft,它學習在跟蹤時使用第一個幀掩碼對所討論的對象進行分段,而不增長運行時間。 BoLTVOS ft優於PReMVOS,這是以前在DAVIS 2016和YouTube VOS上性能最佳的VOS方法,運行速度提升了45倍。咱們的邊界框跟蹤器在邊界框級跟蹤數據集OTB 2015和LTB35上也優於全部之前的短時間和長期跟蹤器。 |
Graphonomy: Universal Human Parsing via Graph Transfer Learning Authors Ke Gong, Yiming Gao, Xiaodan Liang, Xiaohui Shen, Meng Wang, Liang Lin 先前高度調整的人類解析模型傾向於適合特定域中的每一個數據集或具備不一致的標籤粒度,而且在沒有大量從新訓練的狀況下很難適應其餘人類解析任務。在本文中,咱們的目標是學習一個通用的人類解析模型,它能夠經過統一來自不一樣域或不一樣粒度級別的標籤註釋來解決各類人類解析需求。這帶來了許多基本的學習挑戰,例如發現不一樣標籤粒度之間的基礎語義結構,跨不一樣圖像域執行適當的轉移學習,以及識別和利用相關任務中的標籤冗餘。 |
Uncertainty Measures and Prediction Quality Rating for the Semantic Segmentation of Nested Multi Resolution Street Scene Images Authors Matthias Rottmann, Marius Schubert 在街景的語義分割中,預測的可靠性以及所以不肯定性度量是最受關注的。咱們提出了一種方法,該方法爲每一個輸入圖像生成圖像中心周圍的嵌套做物的層次結構,並將這些做物從新縮放到相同的大小,並提供給神經網絡以進行語義分割。而後對獲得的softmax輸出進行後處理,以便咱們能夠研究全部圖像做物的均值和方差,以及從像素方面得到的不肯定性熱圖的均值和方差,如熵,應用於每一個做物的softmax輸出。在咱們的測試中,咱們使用在Cityscapes數據集上訓練的公開可用的DeepLabv3 MobilenetV2網絡,並證實做物的結合提升了預測的質量,而且咱們得到了更可靠的不肯定性測量。而後將這些聚合在預測的片斷上,用於在IoU 0和IoU 0元分類之間進行分類或經過線性迴歸元迴歸預測IoU。後者爲分段網絡產生可靠的性能估計,特別是在沒有基礎事實的狀況下有用。對於元分類的任務,咱們得到81.93的分類準確度和89.89的AUROC。對於元迴歸,咱們獲得R 2值爲84.77。與其餘方法相比,這些結果產生顯着改善。 |
High-Resolution Representations for Labeling Pixels and Regions Authors Ke Sun, Yang Zhao, Borui Jiang, Tianheng Cheng, Bin Xiao, Dong Liu, Yadong Mu, Xinggang Wang, Wenyu Liu, Jingdong Wang 高分辨率表示學習在許多視覺問題中起着重要做用,例如姿式估計和語義分割。最近開發用於人體姿態估計的高分辨率網絡HRNet引用SunXLW19,經過在並行鏈接高分辨率和低分辨率卷積的整個過程當中保持高分辨率表示,並經過在並行卷積上重複進行融合來產生強大的高分辨率表示。 |
Convolutional Temporal Attention Model for Video-based Person Re-identification Authors Tanzila Rahman, Mrigank Rochan, Yang Wang 基於視頻的人物識別的目標是匹配兩個輸入視頻,以便若是兩個視頻包含相同的人,則兩個視頻的距離很小。用於人物識別的常見方法是首先提取視頻中全部幀的圖像特徵,而後聚合全部特徵以造成視頻級特徵。而後可使用兩個視頻的視頻級別功能來計算兩個視頻的距離。在本文中,咱們提出了一種時間關注方法,用於將幀級特徵聚合到視頻級特徵向量中以進行從新識別。咱們的方法的動機是,視頻中並不是全部幀都具備同等信息。咱們提出了一種徹底卷積時間注意模型來產生注意力得分。徹底卷積網絡FCN已普遍用於語義分割以生成2D輸出映射。在本文中,咱們將基於視頻的人從新識別制定爲序列標註問題,如語義分割。咱們在它們之間創建鏈接並修改FCN以生成注意力分數以表示每一個幀的重要性。對三種不一樣基準數據集的普遍實驗,即iLIDS VID,PRID 2011和SDU VID,代表咱們提出的方法優於其餘最早進的方法。 |
UG$^{2+}$ Track 2: A Collective Benchmark Effort for Evaluating and Advancing Image Understanding in Poor Visibility Environments Authors Ye Yuan, Wenhan Yang, Wenqi Ren, Jiaying Liu, Walter J. Scheirer, Zhangyang Wang IEEE CVPR 2019中的UG 2挑戰旨在喚起對低水平視覺技術如何在各類狀況下有益於高水平自動視覺識別的全面討論和探索。在第二條軌道中,咱們專一於物體或人臉檢測,由於惡劣的天氣霧霾,雨水和低光照條件致使能見度下降。雖然現有的加強方法在經驗上有望用於幫助高級別的最終任務,但實際狀況並不是老是如此。爲了提供更完全的檢查和公平比較,咱們分別介紹了在現實世界中模糊的,陰雨天氣和低光照條件下收集的三個基準集,其中註釋對象面臨註釋。據咱們所知,這是同類中第一個也是目前最大的努力。報告了經過級聯現有加強和檢測模型的基線結果,代表咱們的新數據極具挑戰性,以及進一步技術創新的巨大空間。咱們指望普遍的研究團體大量參與,共同應對這些挑戰。 |
MVF-Net: Multi-View 3D Face Morphable Model Regression Authors Fanzi Wu, Linchao Bao, Yajing Chen, Yonggen Ling, Yibing Song, Songnan Li, King Ngi Ngan, Wei Liu 咱們解決了在多個視圖中從一組面部圖像恢復人臉的3D幾何的問題。雖然最近的研究已經顯示出基於3D Morphable Model 3DMM的面部重建的使人印象深入的進展,可是設置主要限於單個視圖。單一視圖設置存在固有的缺點,缺少可靠的3D約束可能致使沒法解決的模糊。在本文中,咱們在不一樣的設置中探索基於3DMM的形狀恢復,其中給出一組多視圖面部圖像做爲輸入。提出了一種新方法,用於從具備端到端可訓練卷積神經網絡CNN的多視圖輸入迴歸3DMM參數。經過利用新穎的自監督視圖對準損失在不一樣視圖之間創建密集對應,將多視圖幾何約束結合到網絡中。視圖對齊損失的主要成分是可微分密集光流估計器,其能夠反向傳播輸入視圖與來自另外一輸入視圖的合成渲染之間的對齊偏差,其經過3D形狀投影到目標視圖以被推斷。經過最小化視圖對準損失,能夠恢復更好的3D形狀,使得從一個視圖到另外一個視圖的合成投影能夠更好地與觀察到的圖像對準。大量實驗證實了所提方法優於其餘3DMM方法的優越性。 |
Intra-Ensemble in Neural Networks Authors Yuan Gao, Zixiang Cai, Yimin Chen, Wenke Chen, Kan Yang, Chen Sun, Cong Yao 提升模型性能始終是機器學習的關鍵問題,包括深度學習。然而,當堆疊更多層時,獨立的神經網絡老是受到邊際效應的影響。同時,集合是進一步加強模型性能的有用技術。然而,訓練幾個獨立的獨立深度神經網絡須要花費多種資源。在這項工做中,咱們提出Intra Ensemble,一種端到端策略,具備隨機訓練操做,可在一個神經網絡內同時訓練多個子網絡。因爲大多數參數是相互共享的,所以附加參數大小是邊際的。同時,隨機訓練經過權重共享增長子網絡的多樣性,這顯着加強了內部集合性能。大量實驗證實了幀內集合在各類數據集和網絡架構中的適用性。咱們的模型與CIFAR 10和CIFAR 100上的最新架構實現了可比較的結果。 |
SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking Authors Guangting Wang, Chong Luo, Zhiwei Xiong, Wenjun Zeng 視覺對象跟蹤面臨的最大挑戰是對魯棒性和辨別力的同時要求。在本文中,咱們提出了一個基於SiamFC的跟蹤器,名爲SPM Tracker,以應對這一挑戰。基本思想是在兩個獨立的匹配階段解決這兩個要求。經過廣義訓練在粗匹配CM階段中加強魯棒性,同時經過遠程學習網絡在精細匹配FM階段中加強辨別力。當CM階段的輸入提議由CM階段生成時,這兩個階段串聯鏈接。它們也是並行鏈接的,由於匹配分數和盒位置細化被融合以產生最終結果。這種創新的串聯並聯結構充分利用了兩個階段,從而實現了卓越的性能。擬議的SPM跟蹤器在GPU上以120fps運行,在OTB 100上達到了0.687的AUC,在VOT 16上達到了0.434的EAO,超過了其餘實時跟蹤器的顯着優點。 |
Ultrafast Video Attention Prediction with Coupled Knowledge Distillation Authors Kui Fu, Jia Li, Yafei Song, Yu Zhang, Shiming Ge, Yonghong Tian 最近,大型卷積神經網絡模型在視頻注意力預測方面表現出了使人印象深入傳統上,這些模型具備密集的計算和大的存儲器。爲了解決這些問題,咱們設計了一個超快速的超輕型網絡,名爲UVA Net。網絡基於深度方式的卷積構建,並將低分辨率圖像做爲輸入。可是,這種直接加速方法會顯着下降性能。爲此,咱們提出了一種耦合知識蒸餾策略,以有效地加強和訓練網絡。經過此策略,模型能夠進一步自動發現並強調數據中包含的隱含有用提示。由高分辨率複雜教師網絡學習的空間和時間知識也能夠被提煉並轉移到所提出的低分辨率輕量級時空網絡中。實驗結果代表,咱們的模型的性能可與視頻注意力預測中的十種最早進模型相媲美,而其內存佔用僅爲0.68 MB,GPU上運行約10,106 FPS,CPU上運行404 FPS,比其快206倍。之前的型號。 |
Semi-Supervised Segmentation of Salt Bodies in Seismic Images using an Ensemble of Convolutional Neural Networks Authors Yauhen Babakhin, Artsiom Sanakoyeu, Hirotoshi Kitamura 地震圖像分析在普遍的工業應用中起着相當重要的做用,而且受到了極大的關注。地震成像的一個基本挑戰是探測地下鹽結構,這對於識別油氣藏和鑽探路徑規劃是必不可少的。不幸的是,大型鹽沉積物的精確識別是衆所周知的困難,專業的地震成像一般須要專業的人體解釋鹽體。卷積神經網絡CNN已經成功應用於許多領域,而且已經在地震成像領域進行了屢次嘗試。可是地球物理專家手動註釋的高成本以及稀缺的公開標記數據集阻礙了現有基於CNN的方法的性能。在這項工做中,咱們提出了一種半監督方法,用於地震圖像中鹽體的劃分描繪,利用未標記的數據進行多輪自我訓練。爲了減小自我訓練期間的偏差放大,咱們提出了一種使用CNN集合的方案。咱們證實咱們的方法在TGS Salt Identification Challenge數據集上優於現有技術水平,而且在3234種競爭方法中排名第一。 |
Multimodal Style Transfer via Graph Cuts Authors Yulun Zhang, Chen Fang, Yilin Wang, Zhaowen Wang, Zhe Lin, Yun Fu, Jimei Yang 在最近的神經風格轉移方法中普遍使用的假設是圖像樣式能夠經過諸如Gram或協方差矩陣的深度特徵的全局靜態來描述。替代方法經過將樣式分解爲局部像素或神經片來表示樣式。儘管最近取得了進展,但大多數現有方法均勻地處理樣式圖像的語義模式,從而在複雜樣式上產生使人不愉快的結果。在本文中,咱們介紹了一種更靈活和通用的通用風格轉移技術多模式轉移MST。 MST明確考慮了內容和樣式圖像中語義模式的匹配。具體而言,樣式圖像特徵被聚類成子樣式組件,其在圖形切割公式下與本地內容特徵匹配。訓練重建網絡以傳輸每一個子樣式並呈現最終的程式化結果。大量實驗證實了MST的卓越效果,穩健性和靈活性。 |
Reliable and Efficient Image Cropping: A Grid Anchor based Approach Authors Hui Zeng, Lida Li, Zisheng Cao, Lei Zhang 圖像裁剪旨在經過從圖像中去除無關內容來改善圖像的構圖和美學質量。現有的圖像裁剪數據庫僅提供一個或幾我的註釋邊界框做爲地面實體,這不能反映實際中圖像裁剪的非惟一性和靈活性。所採用的評估指標(例如交叉聯合)也不能可靠地反映裁剪模型的實際性能。該工做從新審視了圖像裁剪的問題,而且經過考慮特殊屬性和要求(例如,局部冗餘,內容保存,圖像裁剪的縱橫比)來呈現基於網格錨的公式。咱們的配方將候選做物的搜尋空間從數百萬減小到不到100。所以,構建基於網格錨點的裁剪基準,其中每一個圖像的全部裁剪都被註釋而且定義了更可靠的評估度量。咱們還設計了一個有效且輕量級的網絡模塊,它同時考慮了感興趣的區域和丟棄區域,以便更準確地進行圖像裁剪。咱們的模型能夠穩定地輸出視覺上使人愉悅的做物,用於不一樣場景的圖像,並以125 FPS的速度運行。代碼和數據集可在如下位置得到 |
Efficient Decision-based Black-box Adversarial Attacks on Face Recognition Authors Yinpeng Dong, Hang Su, Baoyuan Wu, Zhifeng Li, Wei Liu, Tong Zhang, Jun Zhu 近年來,因爲深度卷積神經網絡CNN的巨大改進,人臉識別取得了顯着的進步。然而,深度CNN易受對抗性示例的攻擊,這可能會在具備安全敏感性目的的真實世界人臉識別應用中形成致命後果。對抗性攻擊被普遍研究,由於它們能夠在部署以前識別模型的脆弱性。在本文中,咱們評估了基於決策的黑盒攻擊設置中最早進的人臉識別模型的穩健性,其中攻擊者沒法訪問模型參數和梯度,但只能經過向查詢發送查詢來獲取硬標籤預測。目標模型。這種攻擊設置在現實世界的人臉識別系統中更實用。爲了提升先前方法的效率,咱們提出了一種進化攻擊算法,該算法能夠對搜索方向的局部幾何進行建模並減少搜索空間的維數。大量實驗證實了所提出方法的有效性,該方法以較少的查詢引發對輸入面部圖像的最小擾動。咱們還應用所提出的方法成功地攻擊真實世界的人臉識別系統。 |
Label Super Resolution with Inter-Instance Loss Authors Maozheng Zhao, Le Hou, Han Le, Dimitris Samaras, Nebojsa Jojic, Danielle Fassler, Tahsin Kurc, Rajarsi Gupta, Kolya Malkin, Shahira Abousamra, Shroyer Kenneth, Joel Saltz 對於語義分割的任務,高分辨率像素級地面實況的收集很是昂貴,尤爲是對於諸如千兆像素病理圖像的高分辨率圖像。另外一方面,爲這些高分辨率圖像收集像素塊的低分辨率標籤標籤更具成本效益。在這些低分辨率標籤上訓練的常規方法僅可以給出低分辨率預測。鑑於低分辨率和高分辨率標籤之間的聯合分佈,現有技術標籤超分辨率LSR方法可以僅使用低分辨率監視來預測高分辨率標籤。可是,它沒有考慮在理想數學公式中相當重要的實例間方差。在這項工做中,咱們提出了一種新的損失函數來模擬實例間方差。咱們在多重免疫組織化學IHC圖像中的兩個實際應用細胞檢測中測試咱們的方法,並在組織病理學載玻片中滲透乳腺癌區域分割。實驗結果代表了該方法的有效性。 |
3D Point Cloud Denoising via Deep Neural Network based Local Surface Estimation Authors Chaojing Duan, Siheng Chen, Jelena Kovacevic 咱們提出了一種基於神經網絡的三維點雲去噪架構,稱爲神經投影去噪NPD。在咱們以前的工做中,咱們提出了一種兩階段去噪算法,它首先估計參考平面,而後經過將噪聲點投影到估計的參考平面來實現。因爲估計的參考平面不可避免地有噪聲,所以應用多投影來穩定去噪性能。 NPD算法使用神經網絡來估計噪聲點雲中的點的參考平面。經過更精確的參考平面估計,咱們只需一次投影便可實現更好的去噪性能。據咱們所知,NPD是第一個使用深度學習技術去噪3D點雲的工做。爲了進行實驗,咱們從ShapeNet中的3D數據中採集40000點雲來訓練網絡,並從ModelNet10中的3D數據中採樣350點雲進行測試。實驗結果代表,咱們的算法能夠估計噪聲點雲中點的法向量。與五種競爭方法相比,所提出的算法實現了更好的去噪性能而且產生了更小的方差。 |
FPGA/DNN Co-Design: An Efficient Design Methodology for IoT Intelligence on the Edge Authors Cong Hao, Xiaofan Zhang, Yuhong Li, Sitao Huang, Jinjun Xiong, Kyle Rupnow, Wen mei Hwu, Deming Chen 雖然嵌入式FPGA因其低延遲和高能效而成爲邊緣設備上DNN加速的有吸引力的平臺,但邊緣規模FPGA器件的資源稀缺也使得它對DNN部署具備挑戰性。在本文中,咱們提出了一種同時FPGA DNN協同設計方法,包括自下而上和自頂向下方法,自下而上的面向硬件的DNN模型搜索,以實現高精度,以及自上而下的FPGA加速器設計,考慮DNN特定的特性。咱們還構建了一個自動協同設計流程,包括一個Auto DNN引擎,用於執行面向硬件的DNN模型搜索,以及一個Auto HLS引擎,用於生成探測DNN的FPGA加速器的可合成C代碼。咱們使用PYNQ Z1 FPGA演示了對象檢測任務的協同設計方法。結果代表,咱們提出的DNN模型和加速器在各個方面均優於最早進的FPGA設計,包括Intersoction over Union IoU 6.2更高,每秒幀數FPS高2.48倍,功耗低40,能效高2.5倍。與基於GPU的解決方案相比,咱們的設計提供了相似的精度,但消耗的能 |
Embryo staging with weakly-supervised region selection and dynamically-decoded predictions Authors Tingfung Lau, Nathan Ng, Julian Gingold, Nina Desai, Julian McAuley, Zachary C. Lipton 爲了優化臨牀結果,生育診所必須戰略性地選擇轉移哪些胚胎。共同選擇啓發式是根據達到各類發育里程碑所需的持續時間表示的公式,歷史上由經驗豐富的胚胎學家根據時間流逝的EmbryoScope視頻手動註釋的數量。咱們提出了一種自動胚胎分期的新方法,該方法利用了這個時間推移數據中的幾種結構來源。首先,注意到在每一個圖像中胚胎佔據一個小的子區域,咱們聯合訓練區域建議網絡與下游分類器以隔離胚胎。值得注意的是,因爲咱們缺少地面真實邊界框,咱們經過強化學習來弱化監督區域建議網絡優化其參數,以改善下游分類器的損失。此外,注意到胚胎到達胚泡階段經過早期階段單調進展,咱們開發了一個基於動態編程的解碼器,後處理咱們的預測,以選擇最可能的單調發育階段序列。咱們的方法優於香草殘差網絡,而且與現代論文中的最佳數字相媲美,這能夠經過每幀精度和轉換預測偏差來衡量,儘管操做的數據比許多數據要小。 |
3D Quantum Cuts for Automatic Segmentation of Porous Media in Tomography Images Authors Junaid Malik, Serkan Kiranyaz, Riyadh Al Raoush, Olivier Monga, Patricia Garnier, Sebti Foufou, Abdelaziz Bouras, Alexandros Iosifidis, Moncef Gabbouj, Philippe C. Baveye 多孔介質體積圖像的二元分割是得到對微小尺度生物地球化學過程控制因素的深刻理解的關鍵步驟。當代工做主要圍繞基於全局或局部自適應閾值處理的原始技術,這些技術已經在圖像分割中具備已知的共同缺點。此外,缺少統一的基準會禁止定量評估,這進一步影響了現有方法的影響。在這項研究中,咱們在兩個方面解決了這個問題。首先,經過與天然圖像分割的平行,咱們提出了一種新穎的自動分割技術,3D Quantum Cuts QCuts 3D基於最早進的光譜聚類技術。其次,咱們策劃並提供一個公開可用的68個多相體積圖像的數據集,其中多孔介質具備不一樣的固體幾何形狀,以及每一個構成階段的體素明智的地面實況註釋。咱們經過各類評估指標提供QCuts 3D與該數據集的當前最新技術水平之間的比較評估。所提出的系統方法實現了AUROC的26增長,同時實現了現有技術競爭者的計算複雜性的顯着下降。此外,統計分析代表,所提出的方法對多孔介質的組成變化具備顯着的穩健性。 |
Context-Aware Query Selection for Active Learning in Event Recognition Authors Mahmudul Hasan, Sujoy Paul, Anastasios I. Mourikis, Amit K. Roy Chowdhury 活動識別是許多實際應用中的挑戰性問題。除了視覺特徵以外,最近的方法已經受益於上下文的使用,例如活動和對象之間的相互關係。然而,這些方法須要標記數據,事先徹底可用,而且不能設計爲連續更新,這使得它們不適合於監視應用。相比之下,咱們提出了一個連續學習框架,用於從未標記的視頻中識別上下文感知活動,與現有方法相比,它具備兩個明顯的優點。首先,它採用了一種新穎的主動學習技術,該技術不只利用了我的活動的信息性,並且在查詢選擇期間利用其上下文信息,這致使昂貴的手動註釋工做的顯着減小。其次,隨着更多數據的可用,能夠在線調整學習模型。咱們制定了一個條件隨機場模型,該模型對上下文進行編碼,並設計了一種信息理論方法,該方法利用節點的熵和互信息來計算由人類標記的最具信息性的查詢集。這些標籤與圖形推理技術相結合,用於增量更新。咱們經過分析解決方案提供主動學習框架的理論表述。對六個具備挑戰性的數據集的實驗代表,咱們的框架實現了卓越的性能,而且手動標記顯着減小 |
Embodied Visual Recognition Authors Jianwei Yang, Zhile Ren, Mingze Xu, Xinlei Chen, David Crandall, Devi Parikh, Dhruv Batra 被動視覺系統一般沒法識別amodal設置中被嚴重遮擋的物體。相反,人類和其餘具體代理具備在環境中移動的能力,而且主動控制視角以更好地理解對象形狀和語義。在這項工做中,咱們介紹了體驗視覺識別EVR的任務代理在靠近被遮擋的目標對象的3D環境中實例化,而且能夠在環境中自由移動以執行對象分類,amodal對象定位和amodal對象分割。爲了解決這個問題,咱們開發了一個名爲Embodied Mask R CNN的新模型,讓代理商學習如何戰略性地提高他們的視覺識別能力。咱們使用House3D環境進行實驗。實驗結果代表,1個具備實施例移動的代理實現了比被動2更好的視覺識別性能,以提升視覺識別能力,代理能夠學習不一樣於最短路徑的戰略移動路徑。 |
Towards Universal Object Detection by Domain Attention Authors Xudong Wang, Zhaowei Cai, Dashan Gao, Nuno Vasconcelos 儘管對視覺識別的通用表示的努力愈來愈多,但不多有人解決了對象檢測問題在本文中,咱們開發了一個有效和高效的通用物體檢測系統,可以處理各類圖像域,從人臉和交通標誌到醫學CT圖像。與多域模型不一樣,該通用模型不須要對感興趣的域的先驗知識。這是經過引入基於擠壓和激發原理的新的適應層族和新的域注意機制來實現的。在所提出的通用檢測器中,全部參數和計算在域之間共享,而且單個網絡始終處理全部域。在一個新創建的11個不一樣數據集的通用目標檢測基準上的實驗代表,所提出的檢測器優於單個檢測器組,多域檢測器和基線通用檢測器,在單個域基線檢測器上增長了1.3倍的參數。代碼和基準可在如下位置得到 |
Controlling Steering Angle for Cooperative Self-driving Vehicles utilizing CNN and LSTM-based Deep Networks Authors Rodolfo Valiente, Mahdi Zaman, Sedat Ozer, Yaser P. Fallah 自動駕駛車輛的一個基本挑戰是在不一樣的道路條件下調整轉向角。解決該挑戰的最新技術解決方案包括深度學習技術,由於它們提供端到端解決方案以更高精度直接從原始輸入圖像預測轉向角。大多數這些工做忽略了圖像幀之間的時間依賴性。在本文中,咱們經過考慮圖像幀之間的時間依賴性來解決利用兩個自動駕駛車輛之間共享的多組圖像來提升控制轉向角度的準確性的問題。該問題還沒有在文獻中普遍研究。咱們提出並研究了一種新的深度架構,經過在咱們的深層架構中使用長短時間記憶LSTM來自動預測轉向角。咱們的深層架構是利用CNN,LSTM和徹底鏈接的FC層的端到端網絡,它使用前方車輛共享的當前和將來圖像,經過車輛到車輛V2V通訊做爲輸入來控制轉向角。與文獻中的其餘現有方法相比,咱們的模型顯示出最低的偏差。 |
Improved Embeddings with Easy Positive Triplet Mining Authors Hong Xuan, Abby Stylianou, Robert Pless 深度量度學習試圖定義嵌入,其中語義類似的圖像被嵌入到附近的位置,而且語義上不類似的圖像被嵌入到遠處的位置。大量的工做集中在損失函數和學習這些嵌入的策略,方法是儘量未來自同一類的圖像儘量地緊密地推在一塊兒。在本文中,咱們提出了一種替代的鬆散嵌入策略,該策略要求嵌入功能僅將每一個訓練圖像映射到同一類中最類似的示例,咱們稱之爲Easy Positive挖掘。咱們提供了一系列實驗和可視化,突出顯示這種Easy Positive挖掘可使嵌入更靈活,更好地歸納爲新的看不見的數據。這種簡單的挖掘策略產生的回憶性能超過了現有技術方法,包括那些具備複雜損失函數和集合方法的圖像檢索數據集,包括CUB,Stanford Online Products,In Shop Clothes和Hotels 50K。 |
A Robust Visual System for Small Target Motion Detection Against Cluttered Moving Backgrounds Authors Hongxin Wang, Jigen Peng, Xuqiang Zheng, Shigang Yue 針對雜亂的移動背景監控小物體是將來機器人視覺系統的巨大挑戰。做爲靈感的來源,昆蟲很是適合尋找配偶和追蹤獵物,它們在視野中老是顯得微小的斑點。最近發現的昆蟲對小目標運動的精確敏感性來自一類稱爲小目標運動探測器STMD的特定神經元。儘管已經提出了一些基於STMD的模型,可是這些現有模型僅使用運動信息進行小目標檢測,而且不能將小目標與小目標區分開,例如稱爲僞特徵的背景特徵。針對這一問題,本文提出了一種新的小目標運動檢測視覺系統模型STMD,它由四個子系統組成,包括小波,運動路徑,對比路徑和蘑菇體。與現有的基於STMD的模型相比,附加的對比度路徑從亮度信號中提取方向對比度以消除誤報背景運動。經過運動路徑的方向對比度和提取的運動信息被集成在蘑菇體中以用於小目標辨別。大量實驗代表,與現有的基於STMD的假特徵模型相比,所提出的視覺系統模型獲得了顯着和持續的改進。 |
Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering Authors Chenyou Fan, Xiaofan Zhang, Shu Zhang, Wensheng Wang, Chi Zhang, Heng Huang 在本文中,咱們提出了一個新穎的端到端可訓練視頻問題解答VideoQA框架,其中包含三個主要組件1,一個新的異構存儲器,能夠從外觀和運動特徵中有效地學習全局上下文信息2從新設計的問題存儲器,有助於理解複雜的語義。問題和重點查詢主題和3一個新的多模式融合層,經過參與相關的視覺和文本提示與自我更新的注意執行多步驟推理。咱們的VideoQA模型首先經過將當前輸入與內存內容進行交互來分別生成全局上下文感知視覺和文本功能。在此以後,它使多模式視覺和文本表示的注意融合推斷出正確的答案。能夠進行多個推理循環以迭代地改進多模態數據的注意權重並改善QA對的最終表示。實驗結果代表,咱們的方法在四個VideoQA基準數據集上實現了最早進的性能。 |
What and How Well You Performed? A Multitask Learning Approach to Action Quality Assessment Authors Paritosh Parmar, Brendan Tran Morris 經過利用對行動及其質量的描述,能夠改善行動質量評估AQA任務的績效當前AQA和技能評估方法建議學習僅用於評估最終得分的一項任務的特徵。在本文中,咱們建議學習時空特徵,解釋三個相關任務細粒度動做識別,評論生成和估計AQA分數。一個新的多任務AQA數據集,迄今爲止最大,包括1412個潛水樣本,用於評估咱們的方法 |
Quantifying the presence of graffiti in urban environments Authors Eric K. Tokuda, Claudio T. Silva, Roberto M. Cesar Jr 塗鴉是城市場景中的常見現象。與城市藝術不一樣,塗鴉標籤是一種故意破壞行爲,許多地方政府正在努力打擊它。一個地區的塗鴉地圖多是一個很是有用的資源,由於它可能容許人們在高水平塗鴉的地方打擊破壞行爲,並清理飽和地區以阻止將來的行爲。目前沒有得到區域的塗鴉地圖的自動方式,而且它是經過警察的手動檢查或經過民衆參與得到的。從這個意義上講,咱們描述了一項正在進行的工做,咱們提出了一種獲取鄰域塗鴉地圖的自動方法。它包括系統地收集街景圖像,而後在收集的數據集中識別塗鴉標籤,最後,計算該位置的擬議塗鴉水平。咱們經過評估巴西聖保羅塗鴉濃度高的城市塗鴉的地理分佈來驗證所提出的方法。 |
End-to-end Projector Photometric Compensation Authors Bingyao Huang, Haibin Ling 投影儀光度補償旨在修改投影儀輸入圖像,使其能夠補償投影表面外觀的干擾。在本文中,咱們首次將補償問題表述爲端到端學習問題,並提出了一個名爲CompenNet的卷積神經網絡,以隱含地學習複雜的補償函數。 CompenNet由一個相似骨幹網的UNet和一個自動編碼器子網組成。這種架構鼓勵相機捕獲的投影表面圖像和輸入圖像之間的豐富的多級交互,所以捕獲投影表面的光度和環境信息。此外,視覺細節和交互信息沿着多級跳過卷積層被傳送到更深層。該架構對於投影儀補償任務特別重要,在實踐中僅容許小的訓練數據集。咱們作出的另外一項貢獻是一種新穎的評估基準,它獨立於系統設置,所以能夠進行定量驗證。據咱們所知,因爲傳統評估要求硬件系統實際投影最終結果,所以之前沒法得到此類基準。從咱們的端到端問題公式出發,咱們的主要思想是使用合理的代理來避免這樣的投影過程,以便設置獨立。咱們的方法在基準測試中獲得了仔細評估,結果代表咱們的端到端學習解決方案在質量和數量上均大大超過了現有技術水平。 |
Automated Monitoring Cropland Using Remote Sensing Data: Challenges and Opportunities for Machine Learning Authors Xiaowei Jia, Ankush Khandelwal, Vipin Kumar 本文概述了機器學習的最新進展和地球觀測衛星數據的可用性如何可以顯着提升咱們在長期和大區域自動繪製農田的能力。它討論了做物監測領域的三個應用,其中ML方法開始顯示出巨大的但願。對於每一個應用程序,它都突出了機器學習挑戰,建議的方法和最近的結果。本文最後討論了在ML方法充分發揮這一具備重大社會意義的問題以前須要解決的主要挑戰。 |
$\mathcal{G}$-softmax: Improving Intra-class Compactness and Inter-class Separability of Features Authors Yan Luo, Yongkang Wong, Mohan Kankanhalli, Qi Zhao 類內緊緻性和類間可分性是衡量模型產生判別特徵的有效性的關鍵指標,其中類內緊湊性表示具備相同標籤的特徵彼此之間的接近程度,而且類間可分性表示特徵與特徵的距離有多遠不一樣的標籤是。在這項工做中,咱們研究了卷積網絡學習的特徵的類內緊緻性和類間可分性,並提出了一種基於高斯的softmax mathcal G softmax函數,它能夠有效地提升類內緊緻性和類間可分性。所提出的功能易於實現而且能夠容易地替換softmax功能。咱們評估在分類數據集上提出的mathcal G softmax函數,即CIFAR 10,CIFAR 100和Tiny ImageNet以及多標籤分類數據集,即MS COCO和NUS WIDE。實驗結果代表,所提出的mathcal G softmax函數改進了全部評估數據集的現有模型狀態。此外,對類內緊湊性和類間可分性的分析證實了所提出的函數優於softmax函數的優勢,這與性能改進一致。更重要的是,咱們觀察到高內類緊緻性和類間可分性與MS COCO和NUS WIDE的平均精度線性相關。這意味着類內緊湊性和類間可分性的改善將致使平均精度的提升。 |
Learned 3D Shape Representations Using Fused Geometrically Augmented Images: Application to Facial Expression and Action Unit Detection Authors Bilal Taha, Munawar Hayat, Stefano Berretti, Naoufel Werghi 本文提出了一種使用融合紋理和幾何數據的新方案來學習通用多模態網格表面表示的方法。咱們的方法定義了在網格表面或其下采樣版本上計算的不一樣幾何描述符與網格的相應2D紋理圖像之間的逆映射,容許構建融合的幾何加強圖像FGAI。這種新的融合模式使咱們可以經過在轉移學習模式中簡單地採用標準卷積神經網絡,以高效的方式從3D數據中學習特徵表示。與現有方法相比,所提出的方法在計算和存儲器方面都是有效的,經過在數據級別有效地融合形狀和紋理信息來保留內在幾何信息並學習高度辨別特徵表示。咱們的方法的功效證實了面部動做單元檢測和表達分類的任務。在Bosphorus和BU 4DFE數據集上進行的大量實驗代表,與現有技術解決方案相比,咱們的方法能夠顯着提升性能 |
Neural Rerendering in the Wild Authors Moustafa Meshry, Dan B Goldman, Sameh Khamis, Hugues Hoppe, Rohit Pandey, Noah Snavely, Ricardo Martin Brualla 咱們探索全景捕捉錄製,建模和從新渲染場景,如季節和時間等不一樣的外觀。從旅遊地標的互聯網照片開始,咱們應用傳統的3D重建來註冊照片並將場景近似爲點雲。對於每張照片,咱們將場景點渲染爲深度幀緩衝,並訓練神經網絡以學習這些初始渲染到實際照片的映射。該從新渲染網絡還將潛在外觀向量和語義掩碼做爲輸入,該語義掩碼指示諸如行人的瞬態對象的位置。該模型在跨越普遍照明條件的公共可用圖像的若干數據集上進行評估。咱們建立短視頻,展現對圖像視點,外觀和語義標籤的逼真操做。咱們還將結果與之前互聯網照片的場景重建工做進行了比較。 |
SCSampler: Sampling Salient Clips from Video for Efficient Action Recognition Authors Bruno Korbar, Du Tran, Lorenzo Torresani 雖然許多動做識別數據集由簡短的,修剪過的視頻集合組成,每一個視頻都包含相關動做,可是現實世界中的視頻(例如,在YouTube上)顯示出很是不一樣的屬性,它們一般是幾分鐘長,其中簡短的相關剪輯一般與擴展的片斷交錯。持續時間不多變化。密集地將動做識別系統應用於這些視頻內的每一個時間片斷是很是昂貴的。此外,正如咱們在實驗中所示,這致使了次優的識別準確性,由於來自相關剪輯的信息預測在視頻的長信息部分上被無心義的分類輸出超過了數量。在本文中,咱們介紹了一種輕量級的剪輯採樣模型,能夠有效地識別長視頻中最顯着的時間片斷。咱們證實,經過僅在這些最顯着的剪輯上調用識別,能夠顯着下降未修剪視頻上動做識別的計算成本。此外,咱們代表,與分析全部剪輯或隨機統一選擇的剪輯相比,這能夠顯着提升識別準確度。在Sports1M上,咱們的剪輯採樣方案將已經最早進的動做分類器的準確度提升了7,而且下降了其計算成本的15倍以上。 |
3D Local Features for Direct Pairwise Registration Authors Haowen Deng, Tolga Birdal, Slobodan Ilic 咱們提出了一種新穎的數據驅動方法,用於解決兩點雲掃描的註冊問題。咱們的方法是直接的,即一對相應的本地補丁已經爲全局註冊提供了必要的轉換提示。爲了實現這一目標,咱們首先賦予最早進的PPF FoldNet自動編碼器AE以及姿式變體兄弟,其中二者之間的差別致使姿式特定描述符。基於此,咱們引入了相對姿態估計網絡RelativeNet,以便爲關鍵點分配對應的特定方向,從而消除任何局部參考幀計算。最後,咱們設計了一個簡單而有效的假設和驗證算法,以快速使用預測並對齊兩個點集。咱們普遍的定量和定性實驗代表,咱們的方法在挑戰成對配準的真實數據集方面優於現有技術,而且利用局部姿式信息增長關鍵點能夠實現更好的泛化和顯着的加速。 |
Identity-preserving Face Recovery from Stylized Portraits Authors Fatemeh Shiri, Xin Yu, Fatih Porikli, Richard Hartley, Piotr Koniusz 鑑於藝術肖像,恢復保留主體身份的潛在逼真的面部是具備挑戰性的,由於面部細節常常在藝術肖像中被扭曲或徹底丟失。咱們開發了一種從Portraits IFRP方法開發的身份保護面部恢復,該方法利用了樣式移除網絡SRN和判別網絡DN。咱們的SRN由具備殘餘塊嵌入式跳過鏈接的自動編碼器組成,旨在將風格化圖像的特徵映射傳輸到相應照片級真實面的特徵映射。因爲空間變換器網絡STN,SRN自動補償程式化肖像的未對準以輸出對齊的逼真面部圖像。爲了確保身份保護,咱們經過距離測量來促進恢復和地面真相面部分享相似的視覺特徵,該距離測量比較從訓練有素的FaceNet網絡提取的恢復和地面真實面部的特徵。 DN具備多個卷積和徹底鏈接的層,其做用是強制恢復的面部與真實面部類似。所以,咱們能夠從未對齊的肖像中恢復高質量的照片級逼真的臉部,同時保留圖像中臉部的身份。經過對大規模合成數據集和手繪草圖數據集進行普遍評估,咱們證實了咱們的方法實現了卓越的面部恢復並得到了最早進的結果。此外,咱們的方法能夠從看不見的風格化肖像,藝術繪畫和手繪草圖中恢復逼真的面孔。 |
Surface Defect Classification in Real-Time Using Convolutional Neural Networks Authors Selim Arikan, Kiran Varanasi, Didier Stricker 表面檢測系統是計算機視覺的重要應用領域,由於它們用於製造業中的缺陷檢測和分類。現有系統使用手工製做的功能,須要普遍的領域知識才能建立。儘管卷積神經網絡CNN已經證實在許多大規模挑戰中取得了成功,但因爲實時處理速度要求和專門的窄域特定數據集(有時尺寸有限)存在兩個重大挑戰,工業檢測系統還沒有意識到它們的潛力。在本文中,咱們提出了專門設計用於處理表面檢測系統的容量和實時速度要求的CNN模型。爲了訓練和評估咱們的網絡模型,咱們建立了一個表面圖像數據集,其中包含22000多個帶有多種表面材料的標記圖像,並在二進制缺陷分類中實現了98.0的精度。爲了解決數據集中的類不平衡問題,咱們引入了神經數據加強方法,這些方法也適用於遭受一樣問題的相似域。咱們的研究結果代表,基於深度學習的方法可用於表面檢測系統,而且在準確度和推理時間方面優於傳統方法。 |
Automated Search for Configurations of Deep Neural Network Architectures Authors Salah Ghamizi, Maxime Cordy, Mike Papadakis, Yves Le Traon 深度神經網絡DNN被普遍用於解決各類複雜問題。雖然功能強大,但此類系統須要手動配置和調整。爲此,咱們將DNN視爲可配置系統,並提出端到端框架,容許對DNN架構進行配置,評估和自動搜索。所以,咱們的貢獻是三倍的。首先,咱們使用特徵模型FM對DNN體系結構的可變性進行建模,該模型能夠歸納現有體系結構。 FM的每一個有效配置對應於能夠構建和訓練的有效DNN模型。其次,咱們在Tensorflow之上實施了一個自動化程序,用於部署,訓練和評估已配置模型的性能。第三,咱們提出了一種搜索配置的方法,並證實它能夠產生良好的DNN模型。咱們經過將其應用於圖像分類任務MNIST,CIFAR 10來評估咱們的方法,而且代表,經過有限的計算和訓練,咱們的方法能夠高精度地識別高性能架構。咱們還證實咱們的表現優於ML研究人員手工製做的現有最早進的架構。咱們的FM和框架已經發布並可公開發布,以支持複製和將來的研究。 |
PUNCH: Positive UNlabelled Classification based information retrieval in Hyperspectral images Authors Anirban Santara, Jayeeta Datta, Sourav Sarkar, Ankur Garg, Kirti Padia, Pabitra Mitra 由機載或衛星安裝的傳感器捕獲的土地覆蓋的高光譜圖像提供了關於給定位置中存在的材料的化學組成的豐富信息源。這使得高光譜成像成爲地球科學,土地覆蓋研究以及軍事和戰略應用的重要工具。然而,標記訓練樣本的稀缺性和光譜特徵的空間變異性是高光譜圖像分類面臨的兩大挑戰。爲了解決這些問題,咱們的目標是開發一個基於正無標記PU分類的高光譜圖像中材料不可知信息檢索的框架。給定高光譜場景,用戶標記他正在尋找的材料的一些正樣本,而且咱們的目標是檢索場景中查詢材料的全部剩餘實例。此外,咱們要求系統一樣適用於任何場景中的任何材料,而無需用戶披露查詢材料的身份。框架的這種材料不可知性使其具備出色的泛化能力。咱們探索了兩種在該框架內解決高光譜圖像分類問題的替代方法。第一種方法是針對高光譜數據的基於非負風險評估的PU學習的改編。第二種方法基於一對全部正負分類,其中使用新穎的光譜空間檢索模型近似地對負分類進行採樣。咱們提出兩個註釋器模型uniform和blob,它們表明人類註釋器的標記模式。咱們比較了每一個註釋器模型的算法在三個基準高光譜圖像數據集Indian Pines,Pavia University和Salinas上的性能。 |
Regression Concept Vectors for Bidirectional Explanations in Histopathology Authors Mara Graziani, Vincent Andrearczyk, Henning M ller 根據域相關概念對深度神經網絡預測的解釋在醫學應用中多是有價值的,其中理由對於決策的可信度是重要的。在這項工做中,咱們提出了一種方法,能夠在層的激活空間中利用連續概念測量做爲迴歸概念向量RCV。沿着RCV的決策函數的方向導數表示網絡對給定概念測量值的增長值的敏感性。當應用於乳腺癌分級時,核質地做爲乳腺淋巴結樣品中腫瘤組織檢測的相關概念出現。咱們經過統計分析評估得分穩健性和一致性。 |
Relational Reasoning Network (RRN) for Anatomical Landmarking Authors Neslisah Torosdagli, Mary McIntosh, Denise K. Liberton, Payal Verma, Murat Sincan, Wade W. Han, Janice S. Lee, Ulas Bagci 準確識別解剖標誌是顱頜面CMF骨骼變形分析和手術計劃的關鍵步驟。可用的方法須要分割感興趣的對象以進行精確的標記。與那些不一樣,咱們在這項研究中的目的是使用CMF骨骼的固有關係來執行解剖標記,而無需明確地對它們進行分割。咱們提出了一種新的深度網絡架構,稱爲關係推理網絡RRN,以準確地瞭解地標的本地和全球關係。具體來講,咱們有興趣學習CMF區域下頜骨,上頜骨和鼻骨的地標。所提出的RRN以端到端的方式工做,利用基於密集塊單元的地標的學習關係而不須要分段。對於給定的幾個界標做爲輸入,所提出的系統準確且有效地將剩餘的界標定位在上述骨骼上。爲了全面評估RRN,咱們使用了250名患者的錐形束計算機斷層掃描CBCT掃描。即便在骨骼中存在嚴重的病變或變形時,所提出的系統也很是準確地識別界標位置。建議的RRN還揭示了地標之間的獨特關係,這有助於咱們推斷出關於具備里程碑意義的點的信息量的幾個推理。 RRN對於地標的順序是不變的,而且它容許咱們發如今感興趣的對象下頜骨或附近的對象上頜骨和鼻腔內定位的地標的最佳配置數量和位置。據咱們所知,這是第一種使用深度學習找到物體解剖關係的算法。 |
L2AE-D: Learning to Aggregate Embeddings for Few-shot Learning with Meta-level Dropout Authors Heda Song, Mercedes Torres Torres, Ender zcan, Isaac Triguero 不多有鏡頭學習側重於學習一個新的視覺概念,標籤示例很是有限。解決該問題的成功方法是比較基於卷積神經網絡的學習度量空間中的示例之間的類似性。然而,因爲訓練任務的數量有限,現有方法一般遭受元級過分擬合,而且一般不考慮同一信道內不一樣示例的卷積特徵的重要性。爲了解決這些侷限性,咱們作了如下兩個貢獻:咱們提出了一種新穎的元學習方法,用於聚合有用的卷積特徵,並基於渠道明智的注意機制來抑制噪聲,以改進類表示。所提出的模型不須要微調,而且能夠以端對端的方式進行訓練。主要的新穎之處在於結合了共享權重生成模塊,該模塊學習爲同一信道內的不一樣示例的特徵映射分配不一樣的權重。 b咱們還介紹了一種簡單的元級別丟失技術,該技術能夠減小几種鏡頭學習方法中的元級別過分擬合。在咱們的實驗中,咱們發現這種簡單的技術顯着提升了所提出方法的性能以及各類最早進的元學習算法。將咱們的方法應用於使用Omniglot和miniImageNet數據集的少許鏡頭圖像識別,代表它可以提供最早進的分類性能。 |
SoDeep: a Sorting Deep net to learn ranking loss surrogates Authors Martin Engilberge, Louis Chevallier, Patrick P rez, Matthieu Cord 機器學習中的幾個任務使用不可微的度量來評估,例如平均精度或Spearman相關性。然而,它們的非差別性阻礙了它們在學習框架中做爲目標函數使用。存在替代和放鬆方法,但傾向於特定於給定度量。 |
Chinese Abs From Machine Translation |