【今日CV 計算機視覺論文速覽 第122期】Fri, 31 May 2019

今日CS.CV 計算機視覺論文速覽
Fri, 31 May 2019
Totally 50 papers
👉上期速覽更多精彩請移步主頁
git

在這裏插入圖片描述

Interesting:

📚基於條件GANs的圖像去水印方法,加強了條件L1損失和感知損害,做爲對抗訓練損失來給出了更爲真實的圖像。 (from 中山大學)
在這裏插入圖片描述
改造的損失函數:
在這裏插入圖片描述

github

📚iSAID大規模的航空圖像實例分割數據集, 包含了655451個實例標註,15個類別(from Inception Institute of Artificial Intelligence, UAE)
語義分割ss和實例分割is:
在這裏插入圖片描述
一些數據樣例:
在這裏插入圖片描述
相關數據集:
在這裏插入圖片描述
ref:PANet++,Path aggregation network for instance segmentation. 用於實例分割
在這裏插入圖片描述

web

📚RoNIN,神經慣性里程計的基準數據集,包含了超過40h的IMU數據,收集於100我的類的正式三維軌跡數據,基於新型神經慣性導航架構來改進位姿估計,定量定性的評測了相關方法。(from 華盛頓大學St. Louis)

用於估計軌跡的模型:
在這裏插入圖片描述
項目網站:http://ronin.cs.sfu.ca/算法

📚Gaze-in-wild, 大規模數據集研究平常生活中人眼和頭部的位置座標。(from Center for Imaging Science, RIT )
在這裏插入圖片描述

數據庫

📚利用胃內窺鏡視頻,基於sfm的胃部三維重建, (from 東京技術大學)
在這裏插入圖片描述
ref:http://www.ok.sc.e.titech.ac.jp/res/Stomach3D/

編程

📚一種內存高效、快速實現的局域自適應二值化方法, (from 中山大學)
算法的一些實現:
在這裏插入圖片描述
和一些方法的比較:
在這裏插入圖片描述
ref: Sauvola’s method

跨域

📚基於wasserstein的風格遷移, 研究人員利用高斯優化輸運過程用於編碼器解碼器的圖像風格遷移。基於高斯測度的優化輸運能夠將原分佈映射到目標分佈,同時也能夠在內容和風格圖像間進行差值,並進行多種風格混合。因爲高斯在wasserstein質心下有閉合形式使得遷移和差值成爲可能。(from IBM research)
遷移器的形式:
在這裏插入圖片描述
兩種風格間的差值:
在這裏插入圖片描述
內容圖像在四種風格下的wasserstein重心插值:
在這裏插入圖片描述

安全

📚基於量子計算機D-WAVE2X進行圖像分類, (from Los Alamos National Laboratory)

網絡

📚2D3D目標分類的檢測的彙總, 這篇論述詳細的總結了2d向3d擴展視覺任務所面臨的困難,包括數據表示、計算資源消耗、不一樣的分佈狀況、數據較爲稀疏標記缺少等。並總結了基於二維圖像和三維信息的視覺識別系統。文章綜述了不一樣系統、數據集和方法。(from 紐約大學研究生中心)

數據結構

📚FashionID Dataset 基於次要信息和天然語言反饋的時尚圖像檢索, 數據集中包含了屬性標籤和相關的圖像標題,能夠用於構建天然語言反饋(from IBM research AI)
在這裏插入圖片描述

📚基於U-Net的醫學圖像分割模型, 充分利用了多尺度和先驗信息(from DeepMind)
在這裏插入圖片描述
一些結果:
在這裏插入圖片描述
在這裏插入圖片描述
三維醫學圖像分割比賽:http://brainiac2.mit.edu/SNEMI3D/
機率Unet ref:A Probabilistic U-Net for Segmentation of Ambiguous Imageslink

📚一種基於遷移學習的小樣本缺陷檢測方法, (from 滑鐵盧大學)
在這裏插入圖片描述
一些結果,來自混泥土裂紋數據集Concrete crack
在這裏插入圖片描述


Daily Computer Vision Papers

On Network Design Spaces for Visual Recognition
Authors Ilija Radosavovic, Justin Johnson, Saining Xie, Wan Yen Lo, Piotr Doll r
在過去幾年中,設計用於視覺識別的更好的神經網絡架構的進展是巨大的。爲了幫助維持這一進展速度,咱們建議在這項工做中從新審視比較網絡架構的方法。特別地,咱們引入了一種新的分佈估計比較範例,其中經過將統計技術應用於採樣模型的羣體來比較網絡設計空間,同時控制網絡複雜性等混雜因素。與目前比較模型族的點和曲線估計的方法相比,分佈估計能夠更全面地描繪整個設計格局。做爲案例研究,咱們研究了神經架構搜索NAS中使用的設計空間。咱們發現最近的NAS設計空間變體之間存在顯着的統計差別,而這些差別在很大程此外,咱們的分析代表,像ResNeXt這樣的標準模型系列的設計空間能夠與最近NAS工做中使用的更復雜的設計空間相媲美。咱們但願這些對分佈分析的看法可以在發現更好的視覺識別網絡方面取得更大的進展。

AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures
Authors Michael S. Ryoo, AJ Piergiovanni, Mingxing Tan, Anelia Angelova
學習表示視頻在算法和計算上都是一項很是具備挑戰性的任務。標準視頻CNN架構的設計是經過使用有限數量的空間時間模塊(如3D卷積)直接將用於圖像理解的架構擴展到第三維,或者經過引入手工製做的兩個流設計來捕獲視頻中的外觀和運動。咱們將視頻CNN解釋爲彼此鏈接的多流時空卷積塊的集合,並提出了自動尋找具備更好鏈接性的視覺理解的神經架構的方法。這是經過改進由鏈接權重學習引導的過分鏈接的體系結構來完成的。搜索組合抽象不一樣輸入類型的表示的結構,即,以多個時間分辨率的RGB和光流,搜索容許不一樣類型或信息源彼此交互。咱們的方法(稱爲AssembleNet)優於公共視頻數據集的先前方法,在某些狀況下大幅提高。

An attention-based multi-resolution model for prostate whole slide imageclassification and localization
Authors Jiayun Li, Wenyuan Li, Arkadiusz Gertych, Beatrice S. Knudsen, William Speier, Corey W. Arnold
組織學評論一般被用做疾病診斷的金標準。計算機輔助診斷工具能夠經過減小檢查時間和觀察者之間的可變性來幫助改善當前的病理學工做流程。之前在癌症分級方面的工做主要集中在對預約義的感興趣區域ROI進行分類,或依賴於大量細粒度標籤。在本文中,咱們提出了一個基於兩階段注意的多實例學習模型,用於幻燈片水平癌症分級和弱監督ROI檢測,並證實其在前列腺癌中的應用。與現有的Gleason分類模型相比,咱們的模型更進一步,利用可視化顯着性圖來選擇信息化的瓷磚進行細粒度等級分類。該模型主要是在大規模的整個幻燈片數據集上開發的,該數據集由3,521個前列腺活檢切片組成,僅有718名患者的載玻片水平標籤。該模型實現了前列腺癌分級的最早進性能,精確度爲85.11,用於分類良性,低級Gleason 3級或3級,以及高級Gleason 4級3級或更高級別的滑動在獨立測試組上。

The Art of Food: Meal Image Synthesis from Ingredients
Authors Fangda Han, Ricardo Guerrero, Vladimir Pavlovic
在這項工做中,咱們提出了一個基於生成深度模型的新計算框架,用於從其成分的文本描述中合成照片真實食物餐圖像。之前關於從文本合成圖像的工做一般依賴於預先訓練的文本模型來提取文本特徵,接着是生成神經網絡GAN,旨在生成以文本特徵爲條件的逼真圖像。這些做品主要集中在產生空間緊湊和明肯定義的物體類別,如鳥類或花卉。相比之下,膳食圖像明顯更復雜,由多種成分組成,其外觀和空間質量經過烹飪方法進一步改變。咱們提出了一種方法,首先創建基於注意力的成分圖像關聯模型,而後用於調節負責合成膳食圖像的生成神經網絡。此外,添加循環一致約束以進一步改善圖像質量和控制外觀。大量實驗代表,咱們的模型可以生成與成分相對應的膳食圖像,可用於增長現有數據集以解決其餘計算食品分析問題。

Moving Target Defense for Deep Visual Sensing against Adversarial Examples
Authors Qun Song, Zhenyu Yan, Rui Tan
基於深度學習的視覺傳感已經得到了極具吸引力的準確性,可是很容易受到對抗性示例攻擊。具體來講,一旦攻擊者得到深度模型,他們就能夠構建對抗性示例來誤導模型以產生錯誤的分類結果。可展開的對抗性示例,例如粘貼在道路標誌和車道上的小貼紙,已經被證實能夠有效地誤導高級駕駛員輔助系統。針對對抗性示例的許多現有對策構建了對攻擊者無視防護機制的安全性。所以,他們沒有遵循Kerckhoffs的原則,而且一旦攻擊者知道防護的細節就能夠被顛覆。本文采用移動目標防護MTD策略,在系統部署後生成多個新的深度模型,協同檢測和阻止對抗實例。咱們的MTD設計基於對抗性示例,對模型的可轉移性不一樣,例如,用於攻擊構造的工廠設計模型。部署後的準祕密深度模型顯着增長了攻擊者構建有效對抗示例的門檻。咱們還應用串行數據融合技術和早期中止技術,將推理時間縮短了5倍,同時保持了傳感和防護性能。基於三個數據集的普遍評估,包括道路標誌圖像數據庫和配備GPU的Jetson嵌入式計算板,顯示了咱們的方法的有效性。

Anomaly Detection in Images
Authors Manpreet Singh Minhas, John Zelek
視覺缺陷評估是一種異常檢測。這與在路面和汽車零件等各類表面檢測任務中發現諸如裂縫和標記等缺陷很是相關。該任務涉及檢測異常樣本與正常樣本的誤差分歧。監督異常檢測的兩個主要挑戰是缺少標記的訓練數據和異常實例的低可用性。半監督方法,其學習正常樣本的基礎分佈,而後測量偏離誤差與估計模型,由於異常分數在其檢測異常的整體能力方面具備侷限性。本文提出了基於網絡的卷積神經網絡CNNs深度傳遞學習在異常檢測中的應用。單類SVM在過去已經成功使用,可是咱們假設單類分類的更深層網絡應該表現更好。在已創建的異常檢測基準以及現實世界數據集上得到的結果代表,經過在測試數據的接收器操做特徵曲線值0.99下實現驚人的平均面積,所提出的方法明顯優於現有技術方法。 CIFAR10的平均改進爲41,MNIST爲20,水泥裂縫數據爲16。

Gaze-in-wild: A dataset for studying eye and head coordination in everyday activities
Authors Rakshit Kothari, Zhizhuo Yang, Christopher Kanan, Reynold Bailey, Jeff Pelz, Gabriel Diaz
前庭和眼睛系統之間的相互做用主要在受控環境中進行研究。所以,用於分類凝視事件的現成工具,例如,當容許頭部運動時,注意力,追求,掃視失敗。咱們的方法是在佩戴配備慣性測量單元和3D立體相機的移動眼動儀時,在受試者執行平常任務時收集眼睛頭部運動的新穎,天然和多模態數據集。該野外數據集GW中的凝視包括眼頭旋轉速度deg,紅外眼睛圖像和場景圖像RGB D.編碼器將一部分標記爲凝視運動事件,其中基於0.72樣本的Cohen s kappa相互協商。該標記數據用於訓練和評估兩種機器學習算法,隨機森林和迴歸神經網絡模型,用於凝視事件分類。評估涉及應用既定的和新穎的基於事件的績效指標。分類器在檢測固定和掃視時達到了人類的性能,但在檢測追蹤運動方面達不到60。並且,在沒有頭部運動信息的狀況下,追求分類更加糟糕。在咱們的最佳表現模型中對特徵顯着性的後續分析揭示了對絕對眼睛和頭部速度的依賴,代表分類不須要頭部和眼睛跟蹤座標系統的空間對準。 GW數據集,訓練有素的分類器和評估指標將公開提供,旨在促進頭部自由凝視事件分類的新興領域的增加。

Prostate Cancer Detection using Deep Convolutional Neural Networks
Authors Sunghwan Yoo, Isha Gujrathi, Masoom A. Haider, Farzad Khalvati
前列腺癌是最多見的癌症形式之一,也是北美癌症死亡的第三大緣由。做爲計算機輔助檢測CAD工具的一個組成部分,擴散加權磁共振成像DWI已被深刻研究,以準確檢測前列腺癌。利用深度卷積神經網絡,CNN在計算機視覺任務(例如物體檢測和分割)方面取得了重大成功,不一樣的CNN架構在醫學成像研究界愈來愈多地被研究做爲設計更準確的癌症檢測CAD工具的有但願的解決方案。在這項工做中,咱們開發並實施了基於CNN的自動化管道,用於檢測臨牀上顯着的前列腺癌PCa,用於給定的軸向DWI圖像和每位患者。將427名患者的DWI圖像用做數據集,其中包含175名PCa患者和252名健康患者。爲了測量所提出的管道的性能,預留了427名患者中的108名測試裝置,而且未在訓練階段使用。所提出的管道在切片水平和患者水平下的接收器操做特徵曲線AUC分別達到0.87 95置信區間CI 0.84 0.90和0.84 95 CI 0.76 0.91。

Semantics-Aligned Representation Learning for Person Re-identification
Authors Xin Jin, Cuiling Lan, Wenjun Zeng, Guoqiang Wei, Zhibo Chen
人物識別reID旨在匹配人物圖像以檢索具備相同身份的人物圖像。這是一項具備挑戰性的任務,由於要匹配的圖像一般在語義上不對齊,由於人體姿式和捕獲視點的多樣性,因爲遮擋等緣由致使的可見體的不完整性等。在本文中,咱們提出了一個驅動reID的框架。網絡經過精細的監督設計學習語義對齊的特徵表示。具體來講,咱們構建了一個語義對齊網絡SAN,它包括一個基本網絡做爲編碼器SA Enc用於從新ID,以及一個解碼器SA Dec用於重建迴歸密集語義對齊的全紋理圖像。咱們在人員識別和對齊紋理生成的監督下共同訓練SAN。此外,在解碼器處,除了重建損失以外,咱們在特徵圖上添加三元組reID約束損失做爲感知損失。在推理測試中丟棄解碼器,所以咱們的方案在計算上是有效的。消融研究證實了咱們設計的有效性。咱們在基準數據集CUHK03,Market1501,MSMT17和部分人reID數據集Partial REID上實現了最早進的性能。

A Deep Framework for Bone Age Assessment based on Finger Joint Localization
Authors Xiaoman Zhang, Ziyuan Zhao, Cen Chen, Songyou Peng, Min Wu, Zhongyao Cheng, Singee Teo, Le Zhang, Zeng Zeng
骨齡評估是衡量骨骼兒童成熟度和生長障礙診斷的重要臨牀試驗。諸如Tanner Whitehouse TW和Greulich和Pyle GP之類的傳統方法因爲它們的大觀察者和觀察者內部變化而可能表現不佳。在本文中,咱們提出了一種手指關節定位策略來過濾掉圖像中大多數非信息部分。當與傳統的基於全圖像的深度網絡結合時,咱們觀察到了大大改進的性能。咱們的方法利用全手和特定關節圖像進行骨骼成熟度預測。在這項研究中,咱們應用強大的深度神經網絡,並探索了骨骼年齡預測的過程與特定的聯合關節圖像,以提升與整個手部圖像相比的性能準確性。

A Hierarchical Probabilistic U-Net for Modeling Multi-Scale Ambiguities
Authors Simon A. A. Kohl, Bernardino Romera Paredes, Klaus H. Maier Hein, Danilo Jimenez Rezende, S. M. Ali Eslami, Pushmeet Kohli, Andrew Zisserman, Olaf Ronneberger
醫學成像僅間接測量每一個體素內組織的分子身份,這一般僅產生目標感興趣測量的模糊圖像證據,如語義分割。這種多樣性和似是而非的解釋的變化一般特定於給定的圖像區域,而且所以能夠在從像素到圖像級別的全部路徑上的各類尺度上表現出來。爲了學習能夠解釋多種變化尺度的靈活分佈,咱們提出了分層機率U Net,一種帶有條件變分自動編碼器cVAE的分割網絡,它使用分層潛在空間分解。咱們證實了這種模型公式可以對高保真度的分段進行採樣和重建,即具備精細分辨的細節,同時提供了跨尺度學習複雜結構分佈的靈活性。咱們在分割模糊醫學掃描以及神經生物學和天然圖像的實例分割的任務上展現了這些能力。咱們的模型自動地將不一樣尺度的獨立因素分開,這是咱們認爲在分割以外的結構化輸出預測任務中有益的概括誤差。

Robust Sparse Regularization: Simultaneously Optimizing Neural Network Robustness and Compactness
Authors Adnan Siraj Rakin, Zhezhi He, Li Yang, Yanzhi Wang, Liqiang Wang, Deliang Fan
已知經過梯度降低法訓練的深度神經網絡DNN易受惡意擾動的對抗性輸入,也就是說。對抗性攻擊。做爲抵禦對抗性攻擊的對策之一,提出了增長DNN魯棒性加強的模型容量,而且做爲近期許多工做的有效方法進行了報告。在這項工做中,咱們代表經過適當的重量修剪縮小模型大小甚至能夠有助於提升對抗性攻擊下的DNN穩健性。爲了得到同時穩健和緊湊的DNN模型,咱們提出了一種稱爲魯棒稀疏正則化RSR的多目標訓練方法,經過各類正則化技術的融合,包括通道噪聲注入,套索權重懲罰和對抗訓練。咱們在流行的ResNet 20,ResNet 18和VGG 16 DNN架構上進行了大量實驗,以證實RSR對流行白盒的有效性,即PGD和FGSM以及黑盒攻擊。得益於RSR,與其PGD對抗性訓練基線相比,能夠修剪ResNet 18的85個重量鏈接,同時在CIFAR 10數據集上分別實現乾淨和擾動數據準確度的0.68和8.72改善。

Align-and-Attend Network for Globally and Locally Coherent Video Inpainting
Authors Sanghyun Woo, Dahun Kim, KwanYong Park, Joon Young Lee, In So Kweon
咱們提出了一種用於視頻修復的新型前饋網絡。咱們使用一組採樣視頻幀做爲參考,以獲取可見內容以填充目標幀的孔。咱們的視頻修復網絡包括兩個階段。第一階段是對齊模塊,其使用參考幀和目標幀之間的計算的單應性。而後基於幀類似性彙集可見補丁以粗略地填充目標孔。第二階段是非本地關注模塊,其將生成的補丁與空間和時間中的已知參考補丁相匹配,以細化先前的全局對齊階段。兩個階段都包括用於參考的大空間時間窗口大小,所以可以建模遠程信息和孔區域之間的長程相關性。所以,甚至能夠處理具備大的或緩慢移動的孔的具備挑戰性的場景,這些場景幾乎不能經過現有的基於流的方法建模。咱們的網絡還設計有循環傳播流,以鼓勵視頻結果的時間一致性。視頻對象去除的實驗代表,咱們的方法使用全局和局部相干內容來繪製漏洞。

Recognition in Unseen Domains: Domain Generalization via Universal Non-volume Preserving Models
Authors Thanh Dat Truong, Chi Nhan Duong, Khoa Luu, Minh Triet Tran
跨領域的承認最近成爲研究界的一個活躍話題。然而,在新的看不見的領域中,它的識別問題在很大程度上被忽視了。在這種狀況下,交付的深層網絡模型沒法更新,調整或微調。所以,不能應用最近的深度學習技術,例如域自適應,特徵傳遞和微調。本文提出了一種在深度學習背景下解決領域歸納問題的新方法。所提出的方法在各類問題的不一樣數據集上進行評估,即,對MNIST,SVHN和MNIST M進行數字識別,ii對擴展耶魯B,CMU PIE和CMU MPIE進行面部識別,以及iii對RGB和熱圖像數據集進行行人識別。實驗結果代表,咱們提出的方法不斷提升性能的準確性。它還能夠輕鬆地與端到端深度網絡設計中的任何其餘CNN框架結合,用於對象檢測和識別問題,以改善其性能。

Memory-efficient and fast implementation of local adaptive binarization methods
Authors Chungkwong Chan
二值化被普遍用做圖像預處理步驟,以在識別以前將對象尤爲是文本與背景分離。對於具備不均勻照明的噪聲圖像,應逐像素地計算閾值以得到良好的分割。因爲局部閾值一般取決於基於矩的統計量,例如矩形窗口內的灰度級的均值和方差,所以一般使用積分圖像來加速計算。可是,積分圖像是消耗內存的。對於Sauvola方法,給定H倍W輸入圖像,兩個積分圖像佔據16HW字節。經過使用遞歸技術來避免積分圖像,中間數據結構的存儲器使用能夠顯着減小到6分鐘H,W字節,而時間複雜度保持爲O HW而與窗口大小無關。所以,所提出的實現使得各類局部自適應二值化方法可以在具備有限資源的設備上的實時使用狀況中應用。

3D Reconstruction of Whole Stomach from Endoscope Video Using Structure-from-Motion
Authors Aji Resindra Widya, Yusuke Monno, Kosuke Imahori, Masatoshi Okutomi, Sho Suzuki, Takuji Gotoda, Kenji Miki
胃內窺鏡檢查是一種常見的臨牀實踐,使醫生可以診斷體內的胃。爲了識別胃病變位置,例如胃內的早期胃癌,該工做旨在利用從標準單眼內窺鏡視頻產生的顏色紋理信息重建整個胃的3D形狀。之前的工做已經嘗試從內窺鏡圖像重建各類器官的3D結構。然而,它們主要集中在部分表面上。在這項工做中,咱們研究瞭如何從運動SfM啓用結構,以從標準內窺鏡視頻重建胃的整個形狀。咱們專門研究了染色內窺鏡檢查和顏色通道選擇對SfM的綜合影響。咱們的研究發現,經過使用染色內窺鏡下捕獲的紅色通道圖像,經過在胃表面上散佈靛藍胭脂紅IC染料,能夠實現全胃的3D重建。

Interactive-predictive neural multimodal systems
Authors lvaro Peris, Francisco Casacuberta
儘管神經模型在序列學習中取得了進步,但在各類任務中被利用,它們仍然會產生錯誤。在許多使用案例中,這些都是由後期修訂過程當中的人類專家糾正的。交互式預測框架旨在經過考慮用於迭代地改進假設的部分校訂來最小化在該過程上花費的人力。在這項工做中,咱們歸納了一般應用於機器翻譯領域的交互式預測方法,以解決其餘多模式問題,即圖像和視頻字幕。咱們研究了該框架在多模態神經序列中對序列模型的應用。咱們代表,遵循這個框架,咱們大約將用於糾正自動系統生成的輸出的工做減半。此外,咱們將系統部署在可公開訪問的演示中,以便更好地理解交互式預測框架的行爲。

Learning Semantics-aware Distance Map with Semantics Layering Network for Amodal Instance Segmentation
Authors Ziheng Zhang, Anpei Chen, Ling Xie, Jingyi Yu, Shenghua Gao
在這項工做中,咱們演示了另外一種解決模塊分割問題的方法。具體來講,咱們首先引入一個新的表示,即語義感知距離圖sem dist map,做爲咱們的氨基分割目標,而不是經常使用的掩模和熱圖。 sem dist map是一種水平集表示,其中對象的不一樣區域根據其可見性被放置在地圖上的不一樣級別中。它是掩模和熱圖的天然延伸,其中模態,模式分割以及深度順序信息都被很好地描述。而後,咱們還介紹了一種新穎的卷積神經網絡CNN架構,咱們將其稱爲語義分層網絡,從圖像中的全部對象逐層估計sem dist map,從全局級到實例級。關於COCOA和D2SA數據集的大量實驗已經證實,咱們的框架可使用最早進的性能預測結構分割,遮擋和深度順序。

Does computer vision matter for action?
Authors Brady Zhou, Philipp Kr henb hl, Vladlen Koltun
計算機視覺產生場景內容的表示。許多計算機視覺研究都是基於這些中間表示對行動有用的假設。最近在機器學習和機器人技術的交叉點上的工做經過直接針對手頭的任務(從像素到動做)訓練感受運動系統而使這個假設成爲問題,沒有明確的中間表示。所以,咱們工做的核心問題計算機視覺是否對行動起重要做用咱們經過沉浸式模擬探索這個問題及其分支,這使咱們可以進行大規模的可控制的可重複實驗。咱們採用沉浸式三維環境來模擬城市駕駛,越野越野行走和戰鬥等挑戰。咱們的主要發現是計算機視覺確實重要。配備中間表示的模型訓練更快,實現更高的任務性能,並更好地歸納到之前看不見的環境。能夠在如下位置找到總結工做並說明結果的視頻

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images
Authors Syed Waqas Zamir, Aditya Arora, Akshita Gupta, Salman Khan, Guolei Sun, Fahad Shahbaz Khan, Fan Zhu, Ling Shao, Gui Song Xia, Xiang Bai
現有的Earth Vision數據集適用於語義分割或對象檢測。在這項工做中,咱們引入了第一個基準數據集,用於航拍圖像中的實例分割,它結合了實例級對象檢測和像素級分割任務。與天然場景中的實例分割相比,航空圖像呈現獨特的挑戰,例如,每一個圖像的大量實例,大的物體尺度變化和豐富的微小物體。咱們在航空圖像數據集中進行大規模且密集註釋的實例分割iSAID在2,806個高分辨率圖像中爲15個類別提供655,451個對象實例。每一個實例的這種精確的每像素註釋確保了精確的定位,這對於詳細的場景分析是必不可少的。與現有的基於小規模航空圖像的實例分割數據集相比,iSAID包含對象類別數量的15倍和實例數量的5倍。咱們使用兩種流行的天然圖像實例分割方法對數據集進行基準測試,即Mask R CNN和PANet。在咱們的實驗中,咱們展現了在航拍圖像上直接應用現成的Mask R CNN和PANet提供了次優的實例分割結果,所以須要來自研究界的專門解決方案。

P3SGD: Patient Privacy Preserving SGD for Regularizing Deep CNNs in Pathological Image Classification
Authors Bingzhe Wu, Shiwan Zhao, Guangyu Sun, Xiaolu Zhang, Zhong Su, Caihong Zeng, Zhihong Liu
最近,深度卷積神經網絡CNN在病理圖像分類方面取得了巨大成功。然而,因爲標記的病理圖像的數量有限,仍然存在兩個須要解決的挑戰1過分擬合CNN模型的性能因爲其大量參數和標記的訓練數據的不足而被過分擬合破壞。使用傳統方法訓練的模型的隱私泄漏能夠不自覺地揭示訓練數據集中患者的私人信息。數據集越小,隱私泄漏越嚴重。爲了解決上述兩個挑戰,咱們引入了一種新的隨機梯度降低SGD方案,命名爲患者隱私保護SGD P3SGD,其經過基於每一個患者數據創建的大步驟更新來執行患者級別中SGD的模型更新。具體來講,爲了保護隱私並規範CNN模型,咱們建議將精心設計的噪聲注入更新中。此外,咱們爲P3SGD配備了精確的策略,以自適應地控制注入噪聲的規模。爲了驗證P3SGD的有效性,咱們對現實世界的臨牀數據集進行了大量實驗,並定量證實了P3SGD在下降過分擬合風險方面的卓越能力。咱們還對差別隱私下的隱私成本進行了嚴格的分析。此外,咱們發現使用P3SGD訓練的模型與使用非私人SGD訓練的模型相比,可以抵抗模型反轉攻擊。

A Trainable Multiplication Layer for Auto-correlation and Co-occurrence Extraction
Authors Hideaki Hayashi, Seiichi Uchida
在本文中,咱們爲神經網絡提出了一個可訓練的乘法層TML,可用於計算輸入特徵之間的乘法。將圖像做爲輸入,TML將每一個像素值提高到權重的冪,而後將它們相乘,從而從輸入圖像中提取更高階的局部自相關。 TML還可用於從卷積網絡的特徵映射中提取共現。 TML的訓練是基於對權重的約束的反向傳播而制定的,使咱們可以以端到端的方式學習判別性乘法模式。在實驗中,經過可視化學習的內核和相應的輸出特徵來研究TML的特徵。還使用公共數據集評估TML對分類和神經網絡解釋的適用性。

Hierarchical Structure and Joint Training for Large Scale Semi-supervised Object Detection
Authors Ye Guo, Yali Li, Shengjin Wang
通用對象檢測是計算機視覺中最基本和最重要的問題之一。當涉及到數千個類別的大規模對象檢測時,爲每一個類別提供全部邊界框標籤是不切實際的。在本文中,咱們提出了一種新的大規模半監督對象檢測的層次結構和聯合訓練框架。首先,咱們利用目標類別之間的關係來創建分層網絡,以進一步提升識別的性能。其次,將邊界框級標記圖像和圖像級標記圖像結合起來進行聯合訓練,該方法能夠很容易地應用於當前的兩階段目標檢測框架中,具備良好的性能。實驗結果代表,所提出的大規模半監督目標檢測網絡在ImageNet檢測驗證數據集上得到了最新的性能,mAP爲38.1。

RoNIN: Robust Neural Inertial Navigation in the Wild: Benchmark, Evaluations, and New Methods
Authors Hang Yan, Sachini Herath, Yasutaka Furukawa
本文爲數據驅動的慣性導航研究奠基了新的基礎,其任務是從一系列IMU傳感器測量中估計移動主體的位置和方向。更具體地說,本文提出了一個新的基準,其包含來自100我的類受試者的超過40小時的IMU傳感器數據,其具備在天然人體運動下的地面真實3D軌跡2個新穎的神經慣性導航架構,對具備挑戰性的運動案例和3個定性和三種慣性導航基準的競爭方法的定量評估。咱們將分享代碼和數據,以促進進一步的研究。

Towards Photo-Realistic Visible Watermark Removal with Conditional Generative Adversarial Networks
Authors Xiang Li, Chan Lu, Danni Cheng, Wei Hong Li, Mei Cao, Bo Liu, Jiechao Ma, Wei Shi Zheng
可見水印在圖像版權保護中起着重要做用,而且可見水印對攻擊的魯棒性是必不可少的。爲了評估和提升水印的有效性,水印去除吸引了愈來愈多的關注,成爲一個熱門的研究熱點。當前的方法將水印去除做爲圖像轉換到圖像轉換問題,其中採用具備像素方式損失的編碼解碼體系結構來將透明水印像素轉移到未標記的像素中。然而,當呈現多個逼真圖像時,水印更多是未知的和多樣的,即,水印多是不透明的或半透明的,水印的類別和圖案是未知的。當將現有方法應用於現實世界場景時,它們大多不能使人滿意地重建在複雜和各類水印下模糊的隱藏信息,即殘留的水印痕跡保留而且重建的圖像缺少現實。爲了解決這個難題,在本文中,咱們提出了一個新的水印處理框架,使用條件生成對抗網絡cGANs在現實世界的應用程序中去除可見水印。所提出的方法使得水印去除解決方案可以使用基於水印圖像的基於補片的鑑別器更加接近於照片真實重建,其通過對數訓練以區分恢復圖像和原始無水印圖像之間的差別。在大規模可見水印數據集上的普遍實驗結果證實了所提方法的有效性,並清楚地代表,與現有技術方法相比,咱們提出的方法能夠產生更多的照片真實和使人信服的結果。

Unsupervised Classification of Street Architectures Based on InfoGAN
Authors Ning Wang, Xianhan Zeng, Renjie Xie, Zefei Gao, Yi Zheng, Ziran Liao, Junyan Yang, Qiao Wang
街道建築在城市形象和街景分析中發揮着重要做用。然而,現有方法都受到監督,這須要昂貴的標記數據。爲了解決這個問題,咱們提出了一種基於信息最大化生成對抗網InfoGAN的街道建築無監督分類框架,其中咱們利用InfoGAN的輔助分佈Q做爲無監督分類器。中國南京真實街景圖像數據庫的實驗驗證了咱們框架的實用性和準確性。此外,咱們從隱藏在真實圖像中的內在信息中得出一系列啓發式結論。這些結論將有助於規劃人員更好地瞭解建築類別。

The General Pair-based Weighting Loss for Deep Metric Learning
Authors Haijun Liu, Jian Cheng, Wen Wang, Yanzhou Su
深度量度學習旨在經過深度神經網絡學習樣本對之間的距離度量,以提取相似樣本彼此接近的語義特徵嵌入,而不一樣樣本相距更遠。基於對距離的大量損失函數已經在文獻中提出,用於指導深度量學習的訓練。在本文中,咱們將它們統一在基於通用對的加權損失函數中,其中最小化目標損失僅僅是信息對的距離加權。基於通用對的加權損失包括兩個主要方面,1個樣本挖掘和2個加權。樣本挖掘旨在選擇信息豐富的正對和負對集合,以利用小批量中的樣本的結構化關係,而且還減小非平凡對的數量。對加權旨在根據對距離爲不一樣對分配不一樣的權重,以便有區別地訓練網絡。咱們詳細回顧了那些與現有損失函數一致的現有配對損失,並從樣本挖掘和配對權重的角度探討了一些可能的方法。最後,對三個圖像檢索數據集的大量實驗代表,咱們基於通用對的加權損失得到了新的最新技術性能,證實了基於對的樣本挖掘和對加權的有效性,可用於深度量學習。

Attention: A Big Surprise for Cross-Domain Person Re-Identification
Authors Haijun Liu, Jian Cheng, Shiguang Wang, Wen Wang
在本文中,咱們關注模型泛化和適應跨域人員識別Re ID。與現有的跨域Re ID方法不一樣,利用那些未標記的目標域數據的輔助信息,咱們的目標是經過判別性特徵學習加強模型泛化和適應,並直接利用預先訓練的模型到新的域數據集,而不使用任何信息來自目標域。爲了解決辨別特徵學習問題,咱們驚奇地發現簡單地引入注意機制來自適應地提取每一個域的人物特徵是很是有效的。咱們採用兩種流行的注意機制,基於長程依賴的注意和基於直接生成的注意。它們均可以經過空間或通道尺寸單獨進行關注,甚至是空間和通道尺寸的組合。不一樣注意的輪廓很好地說明了。此外,咱們還經過跳過鏈接將注意結果合併到模型的最終輸出中,以改善具備高級和中級語義視覺信息的特徵。經過直接利用預訓練模型到新域的方式,注意結合方法真正能夠加強模型推廣和適應以執行跨域人Re ID。咱們在三個大型數據集之間進行了大量實驗,市場1501,DukeMTMC reID和MSMT17。使人驚訝的是,僅引入注意力能夠實現最早進的性能,甚至比利用來自目標域的輔助信息的那些跨域Re ID方法更好。

Deep Learning Approach for Receipt Recognition
Authors Anh Duc Le, Dung Van Pham, Tuan Anh Nguyen
受近期計算機視覺和天然語言處理深度學習的成功啓發,咱們提出了一種識別掃描收據的深度學習方法。識別系統具備基於鏈接主義文本提議網絡的兩個主要模塊文本檢測和基於基於注意的編碼器解碼器的文本識別。咱們還提出了預處理來提取收據區域和OCR驗證以忽略手寫。關於掃描收據OCR和信息提取的穩健閱讀挑戰數據集的實驗2019代表,經過整合預處理和OCR驗證,提升了準確度。咱們的識別系統在檢測和識別任務中得到了71.9的F1分數。

The Fashion IQ Dataset: Retrieving Images by Combining Side Information and Relative Natural Language Feedback
Authors Xiaoxiao Guo, Hui Wu, Yupeng Gao, Steven Rennie, Rogerio Feris
咱們爲基於天然語言的時尚圖像檢索貢獻了一個新的數據集和一種新方法。與之前的時尚數據集不一樣,咱們提供天然語言註釋,以促進交互式圖像檢索系統的培訓,以及經常使用的基於屬性的標籤。咱們提出了一種新穎的方法,而且憑經驗證實,將天然語言反饋與視覺屬性信息相結合,能夠產生相對於使用這些模態中的任何一種的卓越的用戶反饋建模和檢索性能。咱們相信,咱們的數據集能夠鼓勵進一步開發更多天然和現實世界適用的會話購物助理。

$d$-SNE: Domain Adaptation using Stochastic Neighborhood Embedding
Authors Xiang Xu, Xiong Zhou, Ragav Venkatesan, Gurumurthy Swaminathan, Orchid Majumder
深度神經網絡一般須要大量標記數據來訓練他們的大量參數。若是沒有適當的正規化,訓練更大更深的網絡是很困難的,特別是在使用小型數據集時。在橫向上,收集註釋良好的數據是昂貴,耗時且一般是不可行的。規範這些網絡的一種流行方法是簡單地使用來自備用表明性數據集的更多數據來訓練網絡。若是表明性數據集的統計數據與咱們的目標不一樣,這可能會致使不利影響。這種困境是因爲域名轉移的問題。當使用來自表明域的特徵提取器時,來自移位域的數據可能不會產生定製特徵。在本文中,咱們提出了一種新的域自適應SNE技術,巧妙地使用隨機鄰域嵌入技術和一種新的修改的Hausdorff距離。所提出的技術是可學習的端到端,所以很是適合訓練神經網絡。大量實驗證實,d SNE優於現有技術水平,而且對於不一樣數據集中的變化具備魯棒性,即便在單次和半監督學習設置中也是如此。 d SNE還展現了同時推廣到多個域的能力。

Distant Pedestrian Detection in the Wild using Single Shot Detector with Deep Convolutional Generative Adversarial Networks
Authors Ranjith Dinakaran, Philip Easom, Li Zhang, Ahmed Bouridane, Richard Jiang, Eran Edirisinghe
在這項工做中,咱們研究了採用單擊檢測器SSD做爲數據處理技術應用深度卷積生成對抗網絡DCGAN的可行性,以應對野外行人檢測的挑戰。具體而言,咱們嘗試在填充完成中使用,其中圖像的一部分被遮蔽以生成圖像的隨機變換,其中部分缺失以擴展示有的標記數據集。在咱們的工做中,GAN已經在低分辨率圖像上進行了大量訓練,以便消除野外行人探測的挑戰,並考慮人類,以及智能城市中幾乎沒有其餘類別的探測。經過訓練GAN模型和SSD執行的物體檢測器實驗提供告終果的實質性改進。該方法在用於對象檢測的GAN網絡的當前現狀中提供了很是有趣的概述。咱們使用加拿大高級研究院CIFAR,Caltech,KITTI數據集來訓練和測試不一樣分辨率下的網絡,實驗結果與DCGAN級聯SSD和SSD自己進行了比較。

Extending Monocular Visual Odometry to Stereo Camera System by Scale Optimization
Authors Jiawei Mo, Junaed Sattar
本文提出了一種將單目視覺測距技術擴展到立體攝像系統的新方法。所提出的方法使用額外的相機來準確地估計和優化單眼視覺測距的尺度,而不是從立體匹配中對3D點進行三角測量。具體地,由單目視覺測距法生成的3D點被投影到立體對的另外一個相機上,而且經過直接最小化光度偏差來恢復和優化比例。特別地,與直接立體匹配相比,它在計算上是有效的,爲立體視覺系統增長了最小的開銷,而且對於重複紋理是魯棒的。此外,直接比例優化使立體視覺測距幾乎徹底基於直接方法。對公共數據集(例如KITTI)以及地面和水下的室外環境進行普遍評估,證實了經過尺度優化擴展的立體視覺測距方法的準確性和效率,以及具備挑戰性紋理的環境中的穩健性。

Dynamic Traffic Scene Classification with Space-Time Coherence
Authors Athma Narayanan, Isht Dwivedi, Behzad Dariush
本文研究了在移動車輛上捕獲的視頻產生的視點下的空間時間變化下的動態交通場景分類問題。該問題的解決方案對於實現解釋或預測道路使用者行爲所需的有效駕駛輔助技術是重要的。目前,因爲缺少考慮由車輛自我運動引發的交通場景的時空演變的基準數據集,動態交通場景分類還沒有獲得充分解決。本文有三個主要貢獻。首先,發佈帶註釋的數據集以實現動態場景分類,其包括在舊金山灣區域收集的80小時的各類高質量駕駛視頻數據剪輯。數據集包括道路位置,道路類型,天氣和路面情況的時間註釋。其次,咱們介紹了利用數據集的語義上下文和時間特性進行道路場景動態分類的新穎和基線算法。最後,咱們展現了算法和實驗結果,突出了場景分類中提取的特徵如何做爲強大的先驗,並有助於戰術駕駛員行爲理解。結果顯示,文獻中先前報道的駕駛行爲檢測基線有顯着改善。

A survey of Object Classification and Detection based on 2D/3D data
Authors Xiaoke Shen
最近,經過使用基於深度神經網絡的算法,對象分類,檢測和語義分割解決方案獲得顯着改善。然而,基於2D圖像的系統的一個挑戰是它們不能提供準確的3D位置信息。這對於位置敏感的應用程序(如自動駕駛和機器人導航)相當重要。另外一方面,諸如RGB D和基於RGB LiDAR的系統之類的3D方法能夠提供顯着改善僅RGB方法的解決方案。這就是爲何這對工業界和學術界來講都是一個有趣的研究領域。與基於2D圖像的系統相比,基於3D的系統因爲如下五個緣由而更復雜1數據表示自己更復雜。 3D圖像能夠用點雲,網格,體積來表示。 2D圖像具備像素網格表示。 2添加額外維度時,計算和內存資源要求更高。 3不一樣的物體分佈和室內外場景區域的差別使得一個統一的框架難以實現。與密集的2D圖像相比,特別是對於室外場景而言,3D數據是稀疏的,這使得檢測任務更具挑戰性。最後,與精心構建的2D數據集(如ImageNet)相比,大尺寸標記數據集(對於基於監​​督的算法很是重要)仍在構建中。基於上面列出的挑戰,所描述的系統由應用場景,數據表示方法和所解決的主要任務組織。同時,還引入了對3D影響很大的基於2D的關鍵系統,以顯示它們之間的聯繫。

What Makes Training Multi-Modal Networks Hard?
Authors Weiyao Wang, Du Tran, Matt Feiszli
在具備多個輸入模態的任務上考慮多模態與單模態網絡的端到端訓練,多模態網絡接收更多信息,所以它應匹配或優於其單個模態對應物。然而,在咱們的實驗中,咱們觀察到相反的最佳單模態網絡老是優於多模態網絡。這種觀察在不一樣的模態組合和不一樣的任務和基準上是一致的。

Entropic Regularisation of Robust Optimal Transport
Authors Rozenn Dahyot, Hana Alghamdi, Mairead Grogan
Grogan等人11,12最近經過最小化捕獲兩個圖像調色板和目標的顏色分佈的兩個機率密度函數之間的歐幾里德距離L2來提出顏色轉移的解決方案。它被證實對基於最佳傳輸的顏色轉移的替代解決方案很是有競爭力。咱們代表事實上Grogan等人的公式也能夠被理解爲一種新的穩健的基於最優運輸的框架,其邊緣上的熵正則化。

Emergence of Object Segmentation in Perturbed Generative Models
Authors Adam Bielski, Paolo Favaro
咱們引入了一個新穎的框架來構建一個模型,該模型能夠學習如何在沒有任何人類註釋的狀況下從一組圖像中分割對象。咱們的方法創建在觀察到對象段的位置能夠相對於給定背景局部擾動而不影響場景的真實性的基礎上。咱們的方法是首先訓練分層場景的生成模型。分層表示由背景圖像,前景圖像和前景的掩模組成。而後經過將掩蔽的前景圖像疊加到背景上來得到合成圖像。生成模型以對抗方式對抗鑑別器進行訓練,這迫使生成模型產生逼真的合成圖像。爲了強制生成器學習前景層對應於對象的表示,咱們經過引入前景圖像和掩模相對於背景的隨機移位來擾亂生成模型的輸出。由於生成器在計算其輸出以前不知道移位,因此它必須產生對於任何這樣的隨機擾動都是現實的分層表示。最後,咱們學習經過定義一個自動編碼器來分割圖像,該自動編碼器由咱們訓練的編碼器和預先訓練好的生成器組成,咱們將其凍結。編碼器將圖像映射到特徵向量,該特徵向量做爲輸入饋送到生成器以給出與原始輸入圖像匹配的合成圖像。由於生成器輸出場景的顯式分層表示,因此編碼器學習檢測和分割對象。咱們在幾個對象類別的真實圖像上演示了這個框架。

Video from Stills: Lensless Imaging with Rolling Shutter
Authors Nick Antipa, Patrick Oare, Emrah Bostan, Ren Ng, Laura Waller
由於圖像傳感器芯片具備用於讀出像素的有限帶寬,因此記錄視頻一般須要在幀速率和像素計數之間進行折衷。壓縮感測技術能夠經過假設圖像是可壓縮的來避免這種折衷。在這裏,咱們建議使用多路複用光學器件對場景進行空間壓縮,從一行傳感器像素中採集有關整個場景的信息,這些信息能夠經過滾動快門CMOS傳感器快速讀取。方便地,這種多路複用能夠經過簡單的無透鏡,基於漫射器的成像系統來實現。使用稀疏恢復方法,咱們可以以每秒超過4,500幀的速度恢復140個視頻幀,全部這些都來自使用滾動快門傳感器的單個捕獲圖像。咱們的概念驗證系統使用易於製造的擴散器與現成的傳感器配對。所獲得的原型使得高幀率視頻的壓縮編碼成爲單個滾動快門曝光,而且超過了對於足夠稀疏的對象的等效全局快門系統的採樣限制性能。

Image classification using quantum inference on the D-Wave 2X
Authors Nga T.T. Nguyen, Garrett T. Kenyon
咱們使用量子退火D Wave 2X計算機來得到NP硬稀疏編碼問題的解決方案。爲了減小稀疏編碼問題的維數以適應量子D Wave 2X硬件,咱們經過瓶頸自動編碼器傳遞下采樣的MNIST圖像。爲了在這個簡化的維度數據集上創建分類性能的基準,咱們使用了在TensorFlow中實現的相似AlexNet的架構,得到了94.54 pm的分類得分0.7。做爲對照,咱們展現了相同的AlexNet相似架構在原始MNIST圖像上產生了接近現有技術的分類性能sim 99。爲了得到用於推斷縮小尺寸MNIST數據集的稀疏表示的一組優化特徵,咱們在隨機的47個圖像塊上打印,隨後是使用隨機梯度降低的離線無監督學習算法以優化稀疏編碼。咱們的單層稀疏編碼與AlexNet的第一個卷積層(如深度神經網絡)的步幅和補丁大小相匹配,包含47個徹底鏈接的特徵,47個是可嵌入D Wave 2 X硬件的字典元素的最大數量。最近的工做代表,稀疏度的最佳水平對應於與推定的二階相變相關聯的折衷參數的臨界值,該觀察由D波能量狀態的自由能分析支持。當由D Wave 2 X推斷的稀疏表示傳遞給線性支持向量機時,咱們得到了95.68的分類得分。所以,在這個問題上,咱們發現單層量子推斷可以賽過標準的深度神經網絡架構。

What Can Neural Networks Reason About?
Authors Keyulu Xu, Jingling Li, Mozhi Zhang, Simon S. Du, Ken ichi Kawarabayashi, Stefanie Jegelka
神經網絡已經成功地應用於解決推理任務,從學習簡單的概念,如接近,到複雜的問題,其推理程序相似於算法。根據經驗,並不是全部網絡結構都能一樣適用於推理。例如,圖形神經網絡已經取得了使人印象深入的實證結果,而結構較少的神經網絡可能沒法學會推理。從理論上講,目前對推理任務與網絡學習之間相互做用的理解有限。在本文中,咱們經過研究其結構與相關推理過程的算法結構的一致性,開發了一個框架來表徵神經網絡能夠很好地學習哪些任務。這代表圖形神經網絡能夠學習動態編程,這是一種強大的算法策略,能夠解決一大類推理問題,例如關係問題回答,排序,直觀物理和最短路徑。咱們的觀點還暗示了爲複雜推理設計神經架構的策略。在幾個抽象的推理任務中,咱們從經驗上看,咱們的理論與實踐很好地吻合。

Graph Neural Tangent Kernel: Fusing Graph Neural Networks with Graph Kernels
Authors Simon S. Du, Kangcheng Hou, Barnab s P czos, Ruslan Salakhutdinov, Ruosong Wang, Keyulu Xu
雖然圖形內核GK很容易訓練而且享受可證實的理論保證,但它們的實際性能受到其表達能力的限制,由於內核函數一般依賴於手工製做的圖形組合特徵。與圖形內核相比,圖形神經網絡GNN一般能夠得到更好的實際性能,由於GNN使用多層體系結構和非線性激活函數來提取圖形的高階信息做爲特徵。然而,因爲大量的超參數和訓練過程的非凸性,GNN更難訓練。 GNN的理論保證也不是很清楚。此外,GNN的表達能力隨着參數的數量而擴展,所以當計算資源有限時很難利用GNN的所有功能。本文提出了一類新的圖形核,即圖形神經切線核GNTK,它們對應於經過梯度降低訓練的無限寬多層GNN。 GNTK享有GNN的所有表達能力,並繼承了GK的優點。從理論上講,咱們展現GNTK能夠在圖上學習一類平滑函數。根據經驗,咱們在圖分類數據集上測試GNTK並顯示它們實現了強大的性能。

Grounding Language Attributes to Objects using Bayesian Eigenobjects
Authors Vanya Cohen, Benjamin Burchfiel, Thao Nguyen, Nakul Gopalan, Stefanie Tellex, George Konidaris
咱們開發了一個基於簡單物理描述消除對象歧義的系統。該系統將天然語言短語和包含分割對象的深度圖像做爲輸入,並預測觀察對象與所描述的對象的類似程度。咱們的系統旨在僅從少許人類標記的語言數據中學習,並推廣到未在語言註釋深度圖像訓練集中表示的視點。經過將3D形狀表示與語言表示分離,咱們的方法可以使用少許語言註釋深度數據和更大的未標記3D對象網格語料將語言與新對象接地,即便從不尋常的視點部分地觀察這些對象也是如此。咱們的系統可以消除基於天然語言描述的經過深度圖像觀察到的新物體之間的歧義。咱們的方法還使得可以在從正面視點捕獲的一小組深度圖像上對人類註釋數據進行訓練的視點轉移,儘管在其訓練集中沒有這樣的深度圖像,可是咱們的系統成功地從後視圖預測了對象屬性。最後,咱們在Baxter機器人上演示咱們的系統,使其可以根據人類提供的天然語言描述選擇特定對象。

Generalized Separable Nonnegative Matrix Factorization
Authors Junjun Pan, Nicolas Gillis
非負矩陣分解NMF是非負數據的線性維數技術,具備圖像分析,文本挖掘,音頻源分離和高光譜分離等應用。給定數據矩陣M和分解等級r,NMF尋找具備r列的非負矩陣W和具備r行的非負矩陣H,使得M近似WH。通常來講,NMF很難解決。然而,它能夠在可分性假設下有效地計算,該可分性假設要求基矢量表現爲數據點,即存在索引集算法K,使得W M,mathcal K.在本文中,咱們歸納了可分性假設咱們只要求對於每一個等級一個因子W,k H k,對於k 1,2,點,r,W,k M,j對於某些j或H k,M i ,對某些人來講。咱們將相應的問題稱爲廣義可分NMF GS NMF。咱們討論了GS NMF的一些性質,並提出了一種咱們用快速梯度法求解的凸優化模型。咱們還提出了一種受連續投影算法啓發的啓發式算法。爲了驗證咱們的方法的有效性,咱們將它們與合成,文檔和圖像數據集上的幾種最早進的可分離NMF算法進行比較。

Wasserstein Style Transfer
Authors Youssef Mroueh
咱們在編碼器解碼器框架中爲圖像樣式傳輸提出高斯最優傳輸。高斯測量的最佳傳輸已經封閉形式從源到目標分佈的Monge映射。此外,內容和風格圖像之間的插值能夠被視爲Wasserstein幾何中的測地線。利用這種洞察力,咱們展現瞭如何使用高斯測量的Wasserstein重心來混合不一樣的目標樣式。因爲高斯人在Wasserstein重心下關閉,這使咱們能夠進行簡單的風格轉換和風格混合和插值。此外,咱們展現瞭如何使用高斯之間的其餘測地指標(例如Fisher Rao度量)來實現不一樣樣式的混合,而內容到新插值樣式的傳輸仍然使用高斯OT圖執行。咱們簡單的方法容許生成在許多藝術風格之間插入的新風格化內容。插值中使用的度量致使不一樣的樣式。

Exploiting Epistemic Uncertainty of Anatomy Segmentation for Anomaly Detection in Retinal OCT
Authors Philipp Seeb ck, Jos Ignacio Orlando, Thomas Schlegl, Sebastian M. Waldstein, Hrvoje Bogunovi , Sophie Klimscha, Georg Langs, Ursula Schmidt Erfurth
經過檢測醫學圖像中的相關生物標誌物來輔助診斷和治療指導。儘管有監督的深度學習能夠對病理區域進行準確的分割,可是經過要求對這些區域的先驗定義,大規模註釋以及訓練集中的表明性患者羣組進行限制。相反,異常檢測不限於病理學的特定定義,而且容許在沒有註釋的狀況下對健康樣品進行訓練。而後,異常區域能夠做爲生物標記物發現的候選者。關於正常解剖結構的知識帶來了用於檢測異常的隱含信息。咱們建議利用貝葉斯深度學習來利用這個屬性,這是基於認知不肯定性將與正常訓練集的解剖學誤差相關聯的假設。貝葉斯U網使用現有方法生成的健康解剖學的弱標籤,在明肯定義的健康環境中進行訓練。在測試時,咱們使用蒙特卡洛輟學捕獲咱們模型的認知不肯定性估計。而後應用一種新穎的後處理技術來利用這些估計並將它們的分層外觀轉移到異常的平滑斑點形分割。咱們使用視網膜層的弱標籤在視網膜光學相干斷層掃描OCT圖像中實驗驗證了這種方法。咱們的方法在年齡相關性黃斑變性AMD病例的獨立異常測試集中達到了0.789的Dice指數。由此產生的分割容許很是高的準確度,用於分離晚期溼性AMD,乾性地理性萎縮GA,糖尿病性黃斑水腫DME和視網膜靜脈阻塞RVO的健康和患病病例。最後,咱們定性地觀察到咱們的方法還能夠檢測正常掃描中的其餘誤差,例如切邊僞影。

Bandlimiting Neural Networks Against Adversarial Attacks
Authors Yuping Lin, Kasra Ahmadi K. A., Hui Jiang
在本文中,咱們從傅里葉分析的角度研究深度學習中的對抗性攻擊和防護問題。咱們首先明確地計算了深ReLU神經網絡的傅立葉變換,而且代表在神經網絡的傅里葉譜中存在衰減但非零的高頻份量。咱們證實神經網絡對對抗性樣本的脆弱性可歸因於這些可有可無但非零的高頻成分。基於此分析,咱們建議使用簡單的後平均技術來平滑這些高頻份量,以提升神經網絡抵禦對抗性攻擊的魯棒性。 ImageNet數據集的實驗結果代表,咱們提出的方法在保護文獻中提出的許多現有對抗攻擊方法方面具備廣泛的效果,包括FGSM,PGD,DeepFool和C W攻擊。咱們的後平均方法很簡單,由於它不須要任何從新訓練,同時它能夠成功地保護這些方法生成的95個以上的對抗樣本,而不會在原始乾淨圖像上引入小於1的任何顯着性能降低。

Batch weight for domain adaptation with mass shift
Authors Miko aj Bi kowski, R Devon Hjelm, Aaron Courville
無監督域轉移是將樣本從源分發轉移或轉換到不一樣目標分佈的任務。當前解決方案無監督域轉移一般對分佈模式很好匹配的數據進行操做,例如在源分佈和目標分佈之間具備相同的類別頻率。然而,當模式不能很好地匹配時,這些模型表現不佳,例如當樣本獨立於兩個不一樣但相關的域繪製時。這種模式不平衡是有問題的,由於生成對抗性網絡GAN(在該設置中的成功方法)對模式頻率敏感,這致使源樣本與生成的目標分佈樣本之間的語義不匹配。咱們提出了一種從新加權訓練樣本的原則方法,以校訂轉移分佈之間的這種質量轉移,咱們稱之爲批量權重。咱們還爲域轉移和訓練傳輸網絡的新簡化目標提供嚴格的機率設置,這是在當前最早進的圖像到圖像轉換模型中使用的複雜的多份量損失函數的替代方案。新目標源於對聯合分佈的區分,並以抽象的,高級的而非像素的方式強制執行循環一致性。最後,咱們經過實驗證實了所提出的方法在幾個圖像到圖像轉換任務中的有效性。

Zeroth-Order Stochastic Alternating Direction Method of Multipliers for Nonconvex Nonsmooth Optimization
Authors Feihu Huang, Shangqian Gao, Songcan Chen, Heng Huang
乘法器的交替方向方法ADMM是一種流行的優化工具,用於機器學習中的複合和約束問題。然而,在許多機器學習問題中,例如黑盒攻擊和強盜反饋,ADMM可能會失敗,由於這些問題的顯式梯度難以得到或不可行。零階梯度自由方法能夠有效地解決這些問題,由於目標函數值僅在優化中須要。最近,雖然存在一些零階ADMM方法,但它們創建在目標函數的凸性上。顯然,這些現有的零階方法在許多應用中受到限制。所以,在本文中,咱們提出了一類快速零階隨機ADMM方法,即ZO SVRG ADMM和ZO SAGA ADMM,用於基於座標平滑梯度估計來解決具備多個非光滑罰分的非凸問題。此外,咱們證實了ZO SVRG ADMM和ZO SAGA ADMM都具備O 1 T的收斂速度,其中T表示迭代次數。特別是,咱們的方法不只達到非凸優化的最佳收斂速度O 1 T,並且可以有效地解決許多複雜的機器學習問題,具備多個正則化的懲罰和約束。最後,咱們對黑盒深度神經網絡進行了黑盒二進制分類和結構化對抗攻擊實驗,驗證了算法的有效性。

A Quaternion-based Certifiably Optimal Solution to the Wahba Problem with Outliers
Authors Heng Yang, Luca Carlone
Wahba問題,也稱爲旋轉搜索,旨在找到最佳旋轉以對齊兩組矢量觀測給定推定的對應關係,而且是許多計算機視覺和機器人應用中的基本例程。當大量矢量觀測是異常值時,這項工做提出了第一個多項式時間可證實最優的方法來解決Wahba問題。咱們的第一個貢獻是使用截斷最小二乘TLS成原本制定Wahba問題,該成本對大部分虛假對應不敏感。第二個貢獻是使用單位四元數重寫問題,並顯示TLS成本能夠被構建爲二次約束二次規劃QCQP。因爲最終的優化仍然是高度非凸的而且難以全局求解,咱們的第三個貢獻是開發凸半定規劃SDP鬆弛。咱們代表,雖然天真的放鬆通常表現不佳,但即便存在大噪音和異常值,咱們的放鬆也很緊張。咱們在合成和真實數據集中驗證了所提出的算法,名爲QUASAR QUAternion的Semidefinite relAxation for Robust alignment,代表該算法優於RANSAC,強大的局部優化技術和全局異常值去除方法。 QUASAR可以計算可認證的最佳解決方案,即即便在95個對應關係是異常值的狀況下,放鬆也是準確的。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


在這裏插入圖片描述
pic from pexels.com

相關文章
相關標籤/搜索