【今日CV 計算機視覺論文速覽 第123期】Mon, 3 Jun 2019

今日CS.CV 計算機視覺論文速覽
Mon, 3 Jun 2019
Totally 54 papers
👉上期速覽更多精彩請移步主頁
前端

在這裏插入圖片描述

Daily Computer Vision Papers

Sketch2code: Generating a website from a paper mockup
Authors Alex Robinson
開發面向用戶的應用程序的早期階段是建立一個線框來佈局界面。一旦建立了線框,就會將其提供給開發人員以在代碼中實現。開發鍋爐板用戶界面代碼是一項耗時的工做,但仍須要有經驗的開發人員。在本文中,咱們提出了兩種自動化這一過程的方法,一種是使用經典的計算機視覺技術,另外一種是使用深層語義分割網絡的新應用。咱們發佈了一個網站數據集,可用於培訓和評估這些方法。此外,咱們設計了一個新穎的評估框架,經過建立合成草圖進行經驗評估。咱們的評估代表,咱們的深度學習方法優於咱們的經典計算機視覺方法,咱們得出結論,深度學習是將來研究最有但願的方向。

Multimodal Joint Emotion and Game Context Recognition in League of Legends Livestreams
Authors Charles Ringer, James Alfred Walker, Mihalis A. Nicolaou
視頻遊戲流向觀衆提供豐富的視聽數據,經過遊戲鏡頭和音頻傳達關於遊戲自己的信息,以及經過網絡攝像頭鏡頭和音頻的流光的情緒狀態和行爲。分析玩家行爲並發現與遊戲背景的相關性對於建模和理解直播的重要方面相當重要,可是會帶來一系列重大挑戰,例如融合不一樣傳感器捕獲的多模態數據,在野外條件下不受控制。首先,據咱們所知,咱們提供了英雄聯盟直播的第一個數據集,註釋了流光效果和遊戲背景。其次,咱們提出了一種利用張量分解進行多模態表示的高階融合的方法。與一組基線融合方法(如晚期和早期融合)相比,所提出的方法在聯合預測遊戲背景和玩家影響的問題上進行了評估。

A Riemanian Approach to Blob Detection in Manifold-Valued Images
Authors Aleksei Shestov, Mikhail Kumskov
本文致力於解決多值圖像中的斑點檢測問題。咱們的解決方案基於blob響應函數的新定義。咱們經過圖像圖的曲率來定義斑點響應函數,圖像圖被視爲子流形。咱們稱之爲提議的框架黎曼斑點檢測。咱們證實咱們的方法能夠被視爲灰度斑點檢測技術的通常化。經過圖像Hessian導出了黎曼斑點響應函數的表達式。咱們爲2D表面上的矢量值圖像的狀況提供實驗,所提出的框架在化學化合物分類的任務上進行測試。

Scene Text Visual Question Answering
Authors Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomez, Mar al Rusi ol, Ernest Valveny, C.V. Jawahar, Dimosthenis Karatzas
當前的視覺問題回答數據集不考慮圖像中文本傳達的豐富語義信息。在這項工做中,咱們提出了一個新的數據集ST VQA,旨在強調利用圖像中存在的高級語義信息做爲VQA過程當中的文本提示的重要性。咱們使用該數據集來定義一系列增長難度的任務,其中在視覺信息提供的上下文中閱讀場景文本是推理和生成適當答案所必需的。咱們爲這些任務提出了一個新的評估指標,以解決推理錯誤以及文本識別模塊的缺點。此外,咱們提出了一系列基線方法,爲新發布的數據集提供了進一步的看法,併爲進一步研究奠基了基礎。

3DPalsyNet: A Facial Palsy Grading and Motion Recognition Framework using Fully 3D Convolutional Neural Networks
Authors Gary Storey, Richard Jiang, Shelagh Keogh, Ahmed Bouridane, Chang Tsun Li
從視頻序列執行面部分析的能力具備在許多生活領域中產生積極影響的巨大潛力。一個這樣的領域涉及醫學領域,特別有助於面神經麻痹患者的診斷和康復。考慮到這個應用程序,本文提出了一個名爲3DPalsyNet的端到端框架,用於口腔運動識別和麪部麻痹分級的任務。 3DPalsyNet利用具備ResNet骨幹網的3D CNN架構來預測這些動態任務。利用從用於通常動做識別的動力學數據集預訓練的3D CNN的轉移學習,修改該模型以使用中心和softmax損失概念應用聯合監督學習。 3DPalsyNet在由具備不一樣範圍的面部麻痹和口腔運動的個體組成的測試集上進行評估,而且結果在這些任務分別爲82和86中顯示出有吸引力的分類準確度水平。根據所提出的3DPalsyNet的預測質量來研究幀持續時間和損失函數的影響,其中發現較短的幀持續時間s爲8對於該特定任務執行最佳。中心損失和softmax在空間時間特徵學習方面比單獨的softmax損失有所改善,這與涉及空間領域的早期工做一致。

Deep Dual Relation Modeling for Egocentric Interaction Recognition
Authors Haoxin Li, Yijun Cai, Wei Shi Zheng
以自我爲中心的交互識別旨在識別相機佩戴者與以自我爲中心的視頻中面向相機佩戴者的交互者的交互。在這樣的人類交互分析問題中,探索相機佩戴者和交互者之間的關係是相當重要的。然而,大多數現有做品直接模擬整個交互,而且缺少對兩個交互人之間關係的建模。爲了利用強關係進行自我中心交互識別,咱們引入了一種雙關係建模框架,該框架學習基於兩我的的個體動做表示來模擬相機佩戴者和交互者之間的關係。具體來講,咱們開發了一個新穎的交互式LSTM模塊,它是咱們框架的關鍵組成部分,它基於各自的行動表示明確地模擬兩個相互做用的人之間的關係,這些行動表示與交互者注意模塊和全局本地運動模塊協做學習。三個自我中心交互數據集的實驗結果顯示了咱們的方法的有效性和優於現有技術的優點。

Provably scale-covariant hierarchical continuous networks based on scale-normalized differential expressions coupled in cascade
Authors Tony Lindeberg
本文提出了一種構建連續分層網絡的理論,使得網絡保證可證實是規模協變的。咱們首先提出了得到尺度協方差的通常充分性論證,該尺度協方差適用於由尺度歸一化尺度空間導數表示的線性和非線性微分表達式定義的普遍類型的網絡。而後,咱們提供了一個更詳細的發展,這個網絡的一個例子是由數學推導的感覺域模型和生物學啓發的計​​算的組合構成的。基於一階和二階方向高斯導數的定向準正交組合的複雜單元的功能模型,咱們在圖像取向上的組合擴展中級聯這種原始計算。分析了計算基元的尺度空間屬性,而且咱們給出告終果表示如何容許尺度和旋轉協方差的明確證實。開發了紋理分析的原型應用程序,而且證實了所得QuasiQuadNet的簡化平均縮減表示致使在三個紋理數據集上的有但願的實驗結果。

Learning Robust Global Representations by Penalizing Local Predictive Power
Authors Haohan Wang, Songwei Ge, Eric P. Xing, Zachary C. Lipton
儘管他們對i.i.d.具備着名的預測能力。衆所周知,卷積神經網絡更多地依賴於人類認爲表面的高頻模式,而不是低頻模式,這些模式與關於什麼構成類別成員資格的直覺更加一致。本文提出了一種訓練魯棒卷積網絡的方法,該方法經過懲罰早期層學習的局部表示的預測能力。直觀地說,咱們的網絡被迫丟棄預測信號,例如顏色和紋理,這些信號能夠從局部感覺野收集,並依賴於圖像的全局結構。經過一系列合成和基準域適應任務,咱們的方法能夠在域外提供更好的泛化。此外,爲了評估跨域轉移,咱們引入了ImageNet Sketch,這是一個由相似草圖的圖像組成的新數據集,它與類別和比例中的ImageNet分類驗證集相匹配。

LeagueAI: Improving object detector performance and flexibility through automatically generated training data and domain randomization
Authors Oliver Struckmeier
在本技術報告中,我介紹了用於對象檢測的自動合成數據集生成方法,並在視頻遊戲「英雄聯盟」中進行了演示。此報告還做爲如何自動生成數據集的手冊,並做爲LeagueAI框架的數據集生成部分的介紹。 LeagueAI框架是一個軟件框架,它根據人類玩家所擁有的相同輸入,即視覺,提供有關遊戲英雄聯盟的詳細信息。該框架容許研究人員和愛好者開發本身的智能代理或提取有關遊戲狀態的詳細信息。機器視覺應用的一個大問題一般是收集大量手工標記數據的繁重工做。所以,本報告中介紹了LeagueAI框架的視覺管道的關鍵部分,即數據集生成。該方法涉及從遊戲的3D模型中提取圖像原始數據並將它們與遊戲背景組合以建立相似合成圖像的遊戲並自動生成相應的標籤。在實驗中,我將在合成數據上訓練的模型與在手工標記數據上訓練的模型和在組合數據集上訓練的模型進行比較。在合成數據上訓練的模型顯示出更多類別的更高檢測精度和更可靠的玩家角色跟蹤性能。因爲舊手標記數據集和合成數據的格式不一樣,在組合數據集上訓練的模型表現不佳。

High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks
Authors Haohan Wang, Xindi Wu, Pengcheng Yin, Eric P. Xing
咱們研究了圖像數據的頻譜與卷積神經網絡CNN的泛化行爲之間的關係。咱們首先注意到CNN捕獲圖像的高頻成分的能力。人體幾乎察覺不到這些高頻成分。所以,觀察能夠做爲對抗性實例存在的解釋之一,也能夠幫助驗證CNN在魯棒性和準確性之間的權衡。咱們的觀察也當即致使能夠改善訓練有素的CNN的對抗強度的方法。最後,咱們還利用這一觀察設計了一種半黑盒子對抗攻擊方法。

Dynamic Distribution Pruning for Efficient Network Architecture Search
Authors Xiawu Zheng, Rongrong Ji, Lang Tang, Yan Wan, Baochang Zhang, Yongjian Wu, Yunsheng Wu, Ling Shao
經過Neural Architecture Search NAS得到的網絡架構已經在各類計算機視覺任務中展現了最早進的性能。儘管取得了使人興奮的進展,可是前向後向傳播和搜索過程的計算複雜性使得在實踐中難以應用NAS。特別是,大多數之前的方法須要數千個GPU天才能使搜索過程收斂。在本文中,咱們提出了一種動態分佈修剪方法,用於極其高效的NAS,它從聯合分類分佈中對架構進行採樣。每隔幾個時期動態地修剪搜索空間以更新該分佈,而且當僅剩下一個結構時得到最佳神經結構。咱們對NAS中兩個普遍使用的數據集進行了實驗。在CIFAR 10上,經過咱們的方法得到的最佳結構實現了最早進的1.9測試錯誤,而在Tesla V100上搜索過程僅比原始NAS算法快1.5倍的GPU時間快1000倍。在ImageNet上,咱們的模型在MobileNet設置下達到了75.2的前1精度,與最快的NAS算法相比,時間成本僅爲2 GPU天,即100加速。該代碼可在網址獲取

Gaining Extra Supervision via Multi-task learning for Multi-Modal Video Question Answering
Authors Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim, Chang D. Yoo
本文提出了一種經過多任務學習得到多模態視頻問答的額外監督方法。多模態視頻問答是一項重要任務,旨在對視覺和語言的共同理解。然而,爲多模態視頻問答創建大規模數據集是昂貴的,而且現有基準相對較小以提供足夠的監督。爲了克服這一挑戰,本文提出了一種多任務學習方法,它由三個主要組成部分組成:1個多模態視頻問答網絡,基於視頻和字幕特徵回答問題,2個時間檢索網絡預測時間。從中生成問題的視頻剪輯和解決度量學習問題的3模態對齊網絡,以找到視頻和字幕模態的正確關聯。經過利用分層共享的中間層同時解決相關的輔助任務,提供了額外的協同監督。在課程學習的推進下,提出了多任務比例調度,以便在訓練開始時更早地學習更容易的任務來設置概括誤差。公開數據集TVQA的實驗顯示了最早進的結果,並進行了消融研究以證實統計有效性。

Unsupervised Object Segmentation by Redrawing
Authors Micka l Chen, Thierry Arti res, Ludovic Denoyer
對象分割是一個相當重要的問題,一般經過在由圖像和相應的對象掩模組成的很是大的數據集上使用監督學習方法來解決。因爲必須在像素級別提供掩模,所以爲任何新域構建這樣的數據集可能很是昂貴。咱們提出了ReDO,這是一種新模型,可以以無人監督的方式從圖像中提取對象而無需任何註釋。它依賴於這樣的想法:應該能夠在不改變數據集的總體分佈的狀況下更改對象的紋理或顏色。遵循這一假設,咱們的方法基於對抗體系結構,其中生成器由給定圖像的輸入樣本引導,它提取對象蒙版,而後在同一位置重繪新對象。生成器由鑑別器控制,該鑑別器確保生成的圖像的分佈與原始圖像的分佈對齊。咱們在不一樣的數據集上試驗這種方法,並展現了提取掩模的良好質量。

Scaling Video Analytics on Constrained Edge Nodes
Authors Christopher Canel, Thomas Kim, Giulio Zhou, Conglong Li, Hyeontaek Lim, David G. Andersen, Michael Kaminsky, Subramanya R. Dulloor
隨着攝像機部署的不斷髮展,處理大量實時數據的需求使廣域網基礎設施變得緊張。當每一個攝像機帶寬有限時,對於諸如交通監控和行人跟蹤的應用來講,將高質量視頻流卸載到數據中心是不可行的。本文介紹了FilterForward,這是一個新的雲端系統,它使基於數據中心的應用程序可以經過安裝僅回傳相關視頻幀的輕量級邊緣過濾器來處理來自數千個攝像頭的內容。 FilterForward引入了快速且富有表現力的每一個應用程序微分類器,它們共享計算以同時檢測計算受限的邊緣節點上的許多事件。只有匹配的事件纔會傳輸到雲端。對兩個真實世界相機饋送數據集的評估代表,FilterForward將帶寬使用減小了一個數量級,同時提升了挑戰性視頻內容的計算效率和事件檢測準確度。

Autonomous Human Activity Classification from Ego-vision Camera and Accelerometer Data
Authors Yantao Lu, Senem Velipasalar
關於人類活動分類的大量研究工做依賴於慣性測量單元IMU數據或來自提供第三人稱視角的靜態相機的數據。僅使用IMU數據限制了能夠檢測到的活動的多樣性和複雜性。例如,能夠經過IMU數據檢測就座活動,可是不能肯定對象是坐在椅子上仍是坐在沙發上,或者對象在哪裏。爲了從自我中心視頻執行細粒度活動分類,並區分僅經過IMU數據沒法區分的活動,咱們使用來自自我視覺相機和IMU的數據呈現自主且穩健的方法。與基於卷積神經網絡的方法相比,咱們建議使用膠囊網絡從自我中心視頻數據中得到特徵。此外,在自我中心視頻和IMU數據上採用卷積長短時間記憶框架來捕捉動做的時間方面。咱們還提出了一種基於遺傳算法的方法來自主地和系統地設置各類網絡參數,而不是使用手動設置。已經進行了實驗以執行9和26標籤活動分類,而且所提出的方法使用自主設置的網絡參數,提供了很是有但願的結果,分別實現了86.6和77.2的整體準確度。與僅使用egovision數據和僅IMU數據相比,結合兩種模態的所提出的方法還提供了增長的準確性。

Deep interpretable architecture for plant diseases classification
Authors Mohammed Brahimi, Said Mahmoudi, Kamel Boukhalfa, Abdelouhab Moussaoui
最近,許多做品受到植物病害分類計算機視覺深度學習成功的啓發。不幸的是,這些端到端的深度分類器缺少透明度,這可能會限制它們在實踐中的採用。在本文中,咱們提出了一種新的可訓練的植物疾病分類可視化方法,該方法基於由兩個深度分類器組成的卷積神經網絡CNN結構。第一個是教師,第二個是學生。該架構利用多任務學習來共同培訓教師和學生。而後,教師和學生之間的通訊表示被用做代理,以可視化最重要的圖像區域以進行分類。這種新結構比植物疾病背景下的現有方法產生更清晰的可視化。全部實驗均在包含54306植物圖像的PlantVillage數據集上實現。

Joint Representation of Multiple Geometric Priors via a Shape Decomposition Model for Single Monocular 3D Pose Estimation
Authors Mengxi Jiang, Zhuliang Yu, Cuihua Li, Yunqi Lei
在本文中,咱們的目標是從單個圖像的2D身體關節恢復3D人體姿式。這項任務的主要挑戰是深度模糊,由於不一樣的3D姿式可能會產生相似的2D姿式。儘管在無人監督和監督學習方法中都發現了該問題的許多最新進展,可是大多數這些方法的性能受到訓練數據的不足和豐富性的極大影響。爲了緩解這個問題,咱們提出了一種無監督學習方法,該方法可以在有限的可用訓練數據下很好地估計各類複雜姿態。具體來講,咱們提出了一種形狀分解模型SDM,其中3D姿式被認爲是兩個部分的疊加,這兩個部分是全局結構和一些變形。基於SDM,咱們經過求解兩組不一樣的幾何先驗分佈式組合係數來明確估計這兩個部分。另外,爲了得到幾何先驗,提出了一種聯合字典學習算法,用於從有限的訓練數據中同時提取粗略和精細的姿式線索。對幾個普遍使用的數據集進行定量評估代表,咱們的方法比其餘競爭方法產生更好的性能。特別是,在某些具備更復雜變形的類別中,咱們的方法能夠實現顯着的改進。此外,在野外圖像中進行的定性實驗也顯示了所提出方法的有效性。

Point Clouds Learning with Attention-based Graph Convolution Networks
Authors Zhuyang Xie, Junzhou Chen, Bo Peng
點雲數據做爲3D對象的一種表示,是3D傳感器得到的最原始的輸出。與2D圖像不一樣,點雲是無序的和非結構化的。所以,將諸如卷積神經網絡的分類技術直接應用於點雲分析並非直截了當的。爲了解決這個問題,咱們提出了一種新的網絡結構,名爲Attention based Graph Convolution Networks AGCN,用於提取點雲特徵。將學習過程做爲相鄰點之間的消息傳播,咱們引入AGCN的注意機制來分析點的局部特徵之間的關係。此外,咱們引入了一個額外的全局圖結構網絡來補償圖結構網絡中各個點的相對信息。所提出的網絡還擴展到用於分段任務的編碼器解碼器結構。實驗結果代表,所提出的網絡能夠在分類和分割任務中實現最早進的性能。

TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection
Authors Lin Song, Shiwei Zhang, Gang Yu, Hongbin Sun
用於空間時間動做檢測的現有技術方法已經得到了使人印象深入的結果,但對於時間範圍檢測仍然不能使人滿意。主要緣由在於,有一些模糊的狀態相似於真實的行爲,甚至能夠經過訓練有素的網絡將其視爲目標行動。在本文中,咱們將這些模糊樣本定義爲過渡狀態,並提出過渡感知上下文網絡TACNet來區分過渡狀態。所提出的TACNet包括兩個主要組件,即時間上下文檢測器和轉換感知分類器。時間上下文檢測器能夠經過構建循環網絡來提取具備恆定時間複雜度的長期上下文信息。轉換感知分類器能夠經過同時分類動做和過渡狀態來進一步區分過渡狀態。所以,所提出的TACNet能夠顯着改善空間時間動做檢測的性能。咱們普遍評估了UCF101 24和J HMDB數據集上提出的TACNet。實驗結果代表,TACNet在JHMDB上得到了競爭性能,而且在幀mAP和視頻mAP方面明顯優於未修剪的UCF101 24上的現有技術方法。

Deep Representation Learning for Road Detection through Siamese Network
Authors Huafeng Liu, Xiaofeng Han, Xiangrui Li, Yazhou Yao, Pu Huang, Zhenming Tang
強大的道路檢測是安全自動駕駛的關鍵挑戰。最近,隨着3D傳感器的快速發展,愈來愈多的研究人員正在嘗試融合不一樣傳感器之間的信息,以提升道路檢測的性能。儘管在該領域已經取得了許多成功的工做,但深度學習框架下的數據融合方法仍然是一個懸而未決的問題。在本文中,咱們提出了一個基於FCN 8s的連體深度神經網絡來檢測道路區域。咱們的方法使用從單目彩色相機和Velodyne 64 LiDAR傳感器收集的數據。咱們將LiDAR點雲投影到圖像平面上以生成LiDAR圖像並將它們饋送到網絡的一個分支中。 RGB圖像被饋送到咱們建議的網絡的另外一個分支。這兩個分支以多個尺度提取的特徵圖經過填充額外的融合層在每一個合併層以前融合。公共數據集KITTI ROAD的普遍實驗結果證實了咱們提出的方法的有效性。

Deep ordinal classification based on cumulative link models
Authors V ctor Manuel Vargas, Pedro Antonio Guti rrez, C sar Herv s Mart nez
本文經過考慮輸出層中的一族機率序數鏈路函數,提出了一種用於序數迴歸的深度卷積神經網絡模型。連接函數是用於累積連接模型的函數,累積連接模型是基於將每一個圖案投影到一維空間中的傳通通計線性模型。一組有序閾值將此空間拆分爲問題的不一樣類。在咱們的例子中,投影是經過非線性深度神經網絡估計的。爲了進一步改善結果,咱們將這些序數模型與損失函數相結合,該函數基於加權Kappa指數考慮類別之間的距離。在實驗研究中研究了三種不一樣的鏈接函數,並將結果與​​統計分析進行了對比。實驗在兩個不一樣的序數分類問題上進行,統計檢驗證明這些模型改進了名義模型的結果,而且優於文獻中考慮的其餘建議。

Rethinking Table Parsing using Graph Neural Networks
Authors Shah Rukh Qasim, Hassan Mahmood, Faisal Shafait
文檔結構分析,例如區域分割和表格分析,是文檔處理中的一個複雜問題,是一個活躍的研究領域。最近在解決各類計算機視覺和機器學習問題方面的深度學習的成功並未在文檔結構分析中獲得反映,由於傳統的神經網絡不太適合於問題的輸入結構。在本文中,咱們提出了一種基於圖形網絡的體系結構做爲表格解析的標準神經網絡的更好替代方案。咱們認爲圖形網絡是解決這些問題的更天然的選擇,並探索了兩種基於梯度的圖形神經網絡。咱們提出的架構結合了卷積神經網絡的優勢,用於視覺特徵提取和圖形網絡,以處理問題結構。咱們憑經驗證實咱們的方法在很大程度上優於基線。此外,咱們發現缺少大規模數據集是結構分析深度學習研究的主要障礙,併爲表解析問題提出了一個新的大規模綜合數據集。最後,咱們開源咱們的數據集生成實現和圖形網絡的培訓框架,以促進這方面的可重複研究。

Vehicle Detection in Deep Learning
Authors Yao Xiao
在深度學習技術的支持下,計算機視覺正在迅速發展。本文提出了一種基於對經典卷積神經網絡的改進的先進車輛檢測模型。先進的模型應用於車輛檢測基準,並創建用於檢測道路物體。首先,咱們爲咱們的先進模型提出了一個高級架構,它採用了不一樣的最早進的深度學習技術。而後,咱們利用殘差神經網絡和區域提議網絡,根據車輛檢測基準實現競爭性能。最後,咱們描述了車輛檢測技術的發展趨勢和將來的研究方向。

Multi-Precision Quantized Neural Networks via Encoding Decomposition of -1 and +1
Authors Qigong Sun, Fanhua Shang, Kang Yang, Xiufang Li, Yan Ren, Licheng Jiao
深度神經網絡DNN的訓練須要用於計算和存儲性能的密集資源。所以,DNN不能有效地應用於移動電話和嵌入式設備,這嚴重限制了它們在工業應用中的適用性。爲了解決這個問題,咱們提出了一種利用1,1將量化神經網絡QNN分解爲多分支二進制網絡的新型編碼方案,能夠經過按位運算xnor和bitcount有效地實現,以實現模型壓縮,計算加速和資源節約。基於咱們的方法,用戶能夠根據他們的要求和硬件資源輕鬆地任意地實現不一樣的編碼精度。所提出的機制很是適合在數據存儲和計算方面使用FPGA和ASIC,這爲智能芯片提供了可行的思路。咱們驗證了咱們的方法在大規模圖像分類任務(例如ImageNet和對象檢測任務)上的有效性。特別是,咱們的低位編碼方法仍然能夠實現與其全精度對應方案几乎相同的性能。

Design Light-weight 3D Convolutional Networks for Video Recognition Temporal Residual, Fully Separable Block, and Fast Algorithm
Authors Haonan Wang, Jun Lin, Zhongfeng Wang
深度三維3D卷積網絡ConvNet憑藉其強大的時空信息融合能力,在視頻識別任務中表現出了良好的性能。可是,對內存訪問和計算能力的極其嚴格的要求使其沒法在資源受限的狀況下使用,例如便攜式和邊緣設備。所以,在本文中,咱們首先提出了一個兩級徹底可分塊FSB,以顯着壓縮3D ConvNets的模型大小。而後開發了一種名爲Temporal Residual Gradient TRG的特徵加強方法,以提升壓縮模型在視頻任務上的性能,從而提供更高的準確性,更快的收斂性和更好的魯棒性。此外,爲了進一步減小計算工做量,咱們提出了一種混合快速算法hFA,以大幅下降卷積的計算複雜度。這些方法有效地結合在一塊兒,爲視頻識別任務設計了輕量級和高效的ConvNet。流行數據集上的實驗報告2.3x壓縮率,3.6倍工做負荷減小和6.3頂級1精度增益,超過現有技術的SlowFast模型,這已是一個高度緊湊的模型。所提出的方法在傳統的3D ConvNet上也表現出良好的適應性,展現了7.4倍的緊湊型號,11.0倍的工做量和3.0的更高精度

Supervised Online Hashing via Similarity Distribution Learning
Authors Mingbao Lin, Rongrong Ji, Shen Chen, Feng Zheng, Xiaoshuai Sun, Baochang Zhang, Liujuan Cao, Guodong Guo, Feiyue Huang
在面對流數據時,在線哈希引發了普遍的研究關注。大多數在線散列方法,基於訓練實例的成對類似性來學習二進制代碼,未能捕獲語義關係,而且因爲大的變化而在大規模應用中遭受差的泛化。在本文中,咱們建議對輸入數據和散列碼之間的類似性分佈進行建模,在此基礎上提出了一種新的監督在線散列方法,稱爲基於類似性分佈的在線散列SDOH,以保持產生的內在語義關係。漢明空間。具體而言,咱們首先經過基於高斯的歸一化將離散類似性矩陣變換爲機率矩陣,以解決極不平衡的分佈問題。而後,咱們引入了一個擴展Student t分佈來解決具備挑戰性的初始化問題,並有效地彌合已知和未知分佈之間的差距。最後,咱們經過最小化具備隨機梯度降低SGD的Kullback Leibler散度KL誤差來對齊這兩個分佈,經過該隨機梯度降低SGD,經過其直觀的類似性約束來更新新流數據上的散列模型,具備對過去數據的強大的泛化能力。對三個普遍使用的基準測試的普遍實驗證明了所提出的SDOH優於在線檢索任務中的現有技術方法的優越性。

All-In-One Underwater Image Enhancement using Domain-Adversarial Learning
Authors Pritish Uplavikar, Zhenyu Wu, Zhangyang Wang
因爲波長依賴的光衰減和散射,原始水下圖像降級,限制了它們在視覺系統中的適用性。使加強水下圖像特別具備挑戰性的另外一個因素是捕獲它們的水類型的多樣性。例如,在深海水域捕獲的圖像與淺海岸水域捕獲的圖像具備不一樣的分佈。這種多樣性使得難以訓練單個模型來加強水下圖像。在這項工做中,咱們提出了一個新的模型,經過解開對應於被視爲不一樣領域的水類型的不須要的滋擾,經過對抗地學習圖像的內容特徵來很好地處理加強期間水的多樣性。咱們使用學習的領域不可知特徵來生成加強的水下圖像。咱們在包含10種Jerlov水類型圖像的數據集上訓練咱們的模型。實驗結果代表,所提出的模型不只在幾乎全部Jerlov水類型的SSIM和PSNR得分方面都優於之前的方法,並且在現實世界數據集上獲得了很好的推廣。高級視覺任務對象檢測的性能還顯示了使用咱們的模型使用加強圖像的改進。

Multitask Text-to-Visual Embedding with Titles and Clickthrough Data
Authors Pranav Aggarwal, Zhe Lin, Baldo Faieta, Saeid Motiian
文本視覺或稱爲語義視覺嵌入是視覺語言研究中的核心問題。它一般涉及經過CNN圖像編碼器和RNN語言編碼器將圖像和文本描述映射到公共特徵空間。在本文中,咱們提出了一種使用圖像標題和點擊圖像搜索引擎數據來學習文本視覺嵌入的新方法。咱們還經過建模嵌入的積極意識來提出新的三重損失函數,並引入一種新穎的基於小批量的硬陰性採樣方法,以在學習過程當中提升數據效率。實驗結果代表,咱們提出的方法優於現有方法,對現實世界文本的視覺檢索也有效。

Graph Attention Memory for Visual Navigation
Authors Dong Li, Dongbin Zhao, Qichao Zhang, Yuzheng Zhuang, Bin Wang
學習在複雜環境中導航的任務一般在深度強化學習框架中使用反應性策略或通用的常常性策略來解決。不幸的是,這兩種策略不足以處理視覺導航中的長期記憶問題並致使長時間的學習。爲解決這一問題,本文提出了一種基於圖形注意記憶GAM的導航系統,包括三個模塊:存儲器構建模塊,圖形注意模塊和控制模塊。內存構建模塊經過先前的探索構建基於監督學習的拓撲圖。而後從圖注意模塊中提取引導注意特徵。最後,基於深度強化學習的控制模塊經過視覺觀察和引導注意特徵來作出決策。所提出的方法在複雜的3D環境中獲得驗證。結果代表,基於GAM的導航系統在學習速度和成功率方面均優於全部基線。咱們還基於手動和隨機探索策略提供了圖表拓撲佔用的詳細分析。

Technical Report of the DAISY System -- Shooter Localization, Models, Interface, and Beyond
Authors Junwei Liang, Jay D. Aronson, Alexander Hauptmann
現在,每秒都會有大量用戶生成的視頻上傳到社交媒體,從而能夠瞥見世界各地的事件。這些視頻爲重建事件提供了重要且有用的信息。在本文中,咱們描述了DAISY系統,該系統由已創建的機器學習技術和物理模型實現,能夠僅基於捕獲槍擊聲的幾個用戶生成的視頻來定位射擊者位置。 DAISY系統利用視頻同步和槍聲時間本地化等機器學習技術來組織非結構化社交媒體視頻,並快速本地化視頻中的槍聲。它在循環驗證中爲人類提供了一個Web界面,以確保準確的估計。咱們展現了估計2017年拉斯維加斯射擊的射手位置的結果,並顯示DAISY只能使用前幾回射門得到準確的位置。而後,咱們指出能夠幫助改進系統的將來方向,並進一步減小過程當中的人力。咱們發佈全部相關的源代碼,包括Web界面和機器學習模型,但願這樣的工具能夠用來幫助保護生命並從研究和軟件工程社區得到貢獻,以使工具更好。

Machine Learning Methods for Shark Detection
Authors Jordan F. Masakuna
本文回顧了基於人類觀察者的方法,在梅森堡海灘的鯊魚斑點中使用。它研究用於自動鯊魚檢測的機器學習方法,旨在加強人類觀察。調查問卷和訪談用於收集有關鯊魚發現的信息,實際Shark Spotter計劃的動機及其侷限性。咱們爲模型定義了一系列理想的屬性,並選擇了適當的數學技術。該研究的初步結果代表,咱們能夠指望從鯊魚圖像中提取有用的信息,儘管鯊魚執行的幾何變換,其特徵不會改變。總之,咱們已經部分實現了咱們的模型,剩下的實現須要數據集。

Hangul Fonts Dataset: a Hierarchical and Compositional Dataset for Interrogating Learned Representations
Authors Jesse A. Livezey, Ahyeon Hwang, Kristofer E. Bouchard
可解釋的數據表示對於測試假設或區分關於數據的多個潛在假設是有用的。相比之下,應用機器學習,特別是深度學習DL,一般用於性能優於可解釋性的環境中。實際上,深度網絡DN一般被視爲黑盒子,而且不清楚他們從給定數據集中學習什麼以及如何學習。這種缺少理解嚴重阻礙了DN做爲科學數據分析工具的應用,並提出了許多研究問題。一個問題是當前的深度學習研究數據集要麼具備很是少的層次結構,要麼對於其結構的分析來講太複雜,妨礙了對層次表示的精確預測。爲了解決這一差距,咱們提出了一個具備已知層次結構和組成結構的基準數據集,以及一組使用DN進行假設驅動數據分析的方法。韓文字體數據集由35種字體組成,每種字體有11,172個書寫音節,由19個初始輔音,21個內側元音和28個最終輔音組成。能夠對將各個韓文字符組合和修改成塊的規則進行編碼,其中包括依賴於精確塊內容的平移,縮放和樣式變化,以及字體之間的天然變化。所以,韓文字體數據集將提供具備良好定義的分層特徵的中間複雜度數據集,以詢問所學習的表示。咱們首先介紹數據集的結構。使用一組無監督和監督的方法,咱們發現深層網絡表示包含與字符的幾何層次相關的結構。咱們的結果爲更好地理解深層網絡從複雜的結構化數據集中學習的內容奠基了基礎。

Real-time Approximate Bayesian Computation for Scene Understanding
Authors Javier Felip, Nilesh Ahuja, David G mez Guti rrez, Omesh Tickoo, Vikash Mansinghka
考慮場景理解問題,例如預測一我的可能到達的位置,或從深度圖像推斷3D物體的姿式,或推斷在繁忙的十字路口可能的行人過街點。本文展現瞭如何使用近似貝葉斯計算來解決這些問題。基礎生成模型是由真實的模擬軟件構建的,包含在貝葉斯偏差模型中,用於模擬輸出和實際數據之間的差距。模擬器是從現成的計算機圖形,視頻遊戲和交通模擬代碼中提取的。本文介紹了兩種加速推理的技術,能夠單獨使用或組合使用。第一種是訓練模擬器的神經替代物,使用簡單形式的域隨機化使得替代物對模擬和現實之間的差距更加穩健。第二種是使用改編自計算機圖形的樹金字塔方法自適應地對潛在變量進行離散化。本文還展現了對現實世界問題的性能和準確度測量,肯定了實時解決這些問題是可行的。

Implicit Background Estimation for Semantic Segmentation
Authors Charles Lehman, Dogancan Temel, Ghassan AlRegib
場景理解和語義分割是許多計算機視覺任務的核心,其中許多任務涉及以潛在危險的方式與人類進行交互。所以,最重要的是要開發用於魯棒模型的原理設計的技術。在本文中,咱們提供了分析和經驗證據,即糾正由softmax函數產生的潛在錯誤的非獨特映射能夠改善現有語義分段模型的穩健性特徵,對性能的影響最小,對代碼庫的改動最小。 。

D$\textbf{S}^3$L: Deep Self-Semi-Supervised Learning for Image Recognition
Authors Tsung Wei Tsai, Chongxuan Li, Jun Zhu
儘管最近在深度半監督學習Semi SL方面取得了進展,但標籤的數量仍占主導地位。自我監督學習的成功Self SL暗示了利用一組額外的肯定性標籤來利用大量未標記數據的有但願的方向。在本文中,咱們提出了Deep Self Semi Supervised learning D S 3 L,這是一個靈活的多任務框架,具備共享參數,將Self SL中的旋轉任務與深半SL中基於一致性的方法相結合。咱們的方法易於實現,而且是對全部基於一致性的方法的補充。實驗代表,咱們的方法在幾個標準基準測試中顯着改進了已發佈的現有技術方法,特別是當呈現較少的標籤時。

A Survey on Biomedical Image Captioning
Authors Vasiliki Kougia, John Pavlopoulos, Ion Androutsopoulos
應用於生物醫學圖像的圖像字幕能夠幫助和加速臨牀醫生遵循的診斷過程。本文是生物醫學圖像標題的第一次調查,討論數據集,評估措施和最早進的方法。此外,咱們建議使用兩個基線,一個弱基線和一個更強基線,後者優於其中一個數據集的全部現有技術系統。

Counting and Segmenting Sorghum Heads
Authors Min hwan Oh, Peder Olsen, Karthikeyan Natesan Ramamurthy
表型分型是測量生物體可觀察性狀的過程。對做物進行手工表型分析是一項勞動密集型,耗時,成本高且易出錯的過程。準確,自動化,高通量的表型分析能夠減輕做物育種管道的巨大負擔。在本文中,咱們提出了一種可擴展的高通量方法,用於自動計數和分割穗頭,這是一種關鍵表型,來自空中高粱做物圖像。咱們的計數方法使用從點或區域註釋得到的圖像密度圖做爲目標,具備新穎的深度卷積神經網絡結構。咱們還提出了一種使用估計密度圖的新型實例分割算法,以在存在遮擋的狀況下識別各個圓錐花序。使用真正的高粱航拍圖像,咱們得到的計數平均絕對偏差MAE爲1.06,這比使用衆所周知的人羣計數方法(如CCNN,MCNN和CSRNet模型)更好。實例分割模型還產生可觀的結果,這最終將有助於減小將來數據的手動註釋工做量。

Large Scale Incremental Learning
Authors Yue Wu, Yinpeng Chen, Lijuan Wang, Yuancheng Ye, Zicheng Liu, Yandong Guo, Yun Fu
現代機器學習在逐步學習新課程時遭受災難性遺忘。因爲缺乏舊類的數據,性能急劇降低。已經提出了增量學習方法來保留從舊類中得到的知識,經過使用知識提取並保留舊類中的一些示例。可是,這些方法難以擴展到大量類。咱們認爲這是由於新舊類之間數據不平衡的兩個因素的組合,以及視覺上類似類的數量不斷增長。當訓練數據不平衡時,區分愈來愈多的視覺上類似的類別是特別具備挑戰性的。咱們提出了一種簡單有效的方法來解決這一數據不平衡問題。咱們發現最後一個徹底鏈接的層對新類具備強烈的誤差,而且這種誤差能夠經過線性模型來校訂。經過兩個誤差參數,咱們的方法在兩個大型數據集ImageNet 1000類和MS Celeb 1M 10000類上表現很是出色,分別優於11.1和13.2的最新算法。

A survey of advances in vision-based vehicle re-identification
Authors Sultan Daud Khan, Habib Ullah
車輛識別V reID因爲其應用和研究意義而在社區中變得很是流行。特別是,V reID是一個仍然面臨衆多開放挑戰的重要問題。本文回顧了不一樣的V reID方法,包括基於傳感器的方法,混合方法和基於視覺的方法,這些方法進一步分爲手工製做的基於特徵的方法和基於深度特徵的方法。基於視覺的方法使V reID問題特別有趣,咱們的評論首次系統地解決和評估這些方法。咱們對四個綜合基準數據集進行了實驗,並比較了最近手工製做的基於特徵的方法和基於深度特徵的方法的性能。咱們用平均精度mAP和累積匹配曲線CMC表示這些方法的詳細分析。這些分析能夠客觀地瞭解這些方法的優缺點。咱們還提供了不一樣V reID數據集的詳細信息,並批判性地討論了V reID方法的挑戰和將來趨勢。

Unlabeled Data Improves Adversarial Robustness
Authors Yair Carmon, Aditi Raghunathan, Ludwig Schmidt, Percy Liang, John C. Duchi
咱們在理論和經驗上證實,對抗性穩健性能夠從半監督學習中獲益。從理論上講,咱們從新審視了Schmidt等人的簡單高斯模型。這代表標準和穩健分類之間的樣本複雜性差距。咱們證實這個差距與標籤無關,簡單的半監督學習過程自我訓練使用標準精度所需的相同數量的標籤來實現穩健的準確性。根據經驗,咱們使用來自80萬個微小圖像的500K未標記圖像來加強CIFAR 10,並使用強大的自我訓練,經過對抗性訓練以及經過對抗訓練得到的幾個強大攻擊,超過5個點,超過5個點。並經過隨機平滑來肯定其穩健性。在SVHN上,添加數據集本身的額外訓練集並刪除標籤能夠得到4到10個點的增益,在使用額外標籤的增益的1個點內。

Are Labels Required for Improving Adversarial Robustness?
Authors Jonathan Uesato , Jean Baptiste Alayrac , Po Sen Huang , Robert Stanforth, Alhussein Fawzi, Pushmeet Kohli
最近的工做揭示了有趣且有些使人驚訝的發現,即訓練模型對於對抗性擾動是不變的,須要比標準分類所需的數據集大得多的數據集。該結果是在許多真實世界應用中部署健壯的機器學習模型的關鍵障礙,其中標記數據是昂貴的。咱們的主要觀點是,未標記的數據能夠成爲標記數據的競爭替代品,用於培訓對抗性強的模型。從理論上講,咱們代表,在一個簡單的統計設置中,從未標記數據中學習一個對抗性強大模型的樣本複雜度與徹底監督的狀況相匹配,直到恆定因子。在像CIFAR 10這樣的標準數據集上,使用未標記數據的簡單無監督對抗訓練UAT方法比單獨使用4K監督示例提升了21.7的穩健精度,並從相同數量的標記示例中捕獲了95多項改進。最後,咱們經過使用來自未經驗證的80萬個微小圖像數據集的額外未標記數據,報告了對CIFAR 10的先前技術水平的改進​​,對抗已知最強的攻擊。這代表咱們的發現也延伸到更加現實的狀況,其中未標記的數據也是未經肯定的,所以開闢了改善對抗性訓練的新途徑。

Partial Scan Electron Microscopy with Deep Learning
Authors Jeffrey M. Ede, Richard Beanland
咱們提出了一個多尺度條件生成對抗網絡,從部分掃描完成512倍512電子顯微照片。這使得電子束曝光和掃描時間減小了20倍,強度偏差爲2.6。咱們的網絡是根據16227掃描透射電子顯微照片的新數據集建立的部分掃描的端到端訓練。經過異常值損失的自適應學習率削減和輔助訓練器網絡實現高性能。咱們的新數據集和通過培訓的網絡的源代碼和連接已公開發布

Time Series Anomaly Detection Using Convolutional Neural Networks and Transfer Learning
Authors Tailai Wen, Roy Keyes
時間序列異常檢測在自動監測系統中起着相當重要的做用。以往大多數與時間序列異常檢測相關的深度學習工做都是基於遞歸神經網絡RNN。在本文中,咱們提出了一種基於卷積神經網絡CNN的異常檢測時間序列分割方法。此外,咱們提出了一種轉移學習框架,該框架在大規模合成單變量時間序列數據集上預先訓練模型,而後在小規模,單變量或多變量數據集上對其先前看不見的異常類別進行微調。對於多變量狀況,咱們引入了一種新穎的網絡架構。該方法成功地在多個合成和實際數據集上進行了測試。

Subspace Networks for Few-shot Classification
Authors Arnout Devos, Matthias Grossglauser
咱們建議子空間網絡用於少數射擊分類的問題,其中分類器必須推廣到訓練集中未見的新類,只給出每一個類的少許示例。子空間網絡學習嵌入空間,其中能夠經過計算嵌入點到每一個類的子空間表示的距離來執行分類。類子空間由屬於同一類的示例跨越,由可學習的嵌入函數轉換。與最近用於少數鏡頭學習的方法相似,子空間網絡反映了簡單的概括誤差,這在這種有限的數據體系中是有益的,而且它們得到了優異的結果。特別地,當嵌入功能較深或者當訓練和測試域被移位時,咱們提出的方法顯示出比其餘現有技術少的射擊距離度量學習方法更好的性能。

Known-plaintext attack and ciphertext-only attack for encrypted single-pixel imaging
Authors Shuming Jiao, Yang Gao, Ting Lei, Zhenwei Xie, Xiaocong Yuan
在許多先前的工做中,單像素成像SPI系統被構造爲光學圖像加密系統。未經受權的用戶沒法在不知道照明模式密鑰的狀況下從密文強度序列重建明文圖像。然而,過去已經研究過不多關於加密SPI的密碼分析。在這項工做中,咱們首次提出了一種已知的明文攻擊方案和一種僅對加密SPI系統的密文攻擊方案。已知的明文攻擊是經過在SPI模型中交換照明模式和對象圖像的角色來實現的。僅基於單像素強度值的統計特徵來實現僅密文攻擊。這兩種方案能夠破解加密的SPI系統併成功恢復包含正確照明模式的密鑰。

Fast Solar Image Classification Using Deep Learning and its Importance for Automation in Solar Physics
Authors John A. Armstrong, Lyndsay Fletcher
太陽物理中收集的數據量在過去十年中呈指數級增加,隨着紋理Daniel K. Inouye太陽望遠鏡DKIST的推出,咱們將進入PB級太陽能數據時代。自動特徵檢測將成爲太陽圖像後期處理的寶貴工具,可建立供研究人員使用的數據目錄。咱們提出了一個深度學習模型來實現這一目標,一個深度卷積神經網絡擅長於特徵提取和快速處理圖像。咱們使用來自textit Hinode太陽能光學望遠鏡的SOT H alpha圖像來訓練咱們的網絡。一小部分太陽能特徵具備不一樣的幾何形狀細絲,突出物,耀斑帶,太陽黑子和安靜的太陽紋理,即沒有任何其餘四個特徵。咱們在4.66秒內未來自SOT的看不見的圖像分類大約99.9,實現近乎完美的性能。咱們還首次探索太陽能背景下的轉移學習。轉移學習使用預訓練的深度神經網絡來幫助訓練新的深度學習模型文本,即它教導新模型。咱們代表,咱們的網絡對於分辨率的變化是穩健的,經過下降圖像從SOT分辨率下降約0.33素數在lambda 6563 AA到textit太陽動力學天文臺大氣成像組件SDO AIA分辨率大約1.2素數而不改變咱們的網絡性能。然而,咱們還觀察到網絡沒法推廣到SDO AIA頻段1600 1700 AA的太陽黑子,由於太陽黑子周圍的小規模光亮以及因爲日冕發射而在SDO AIA 304 AA中突出。

Evaluating Artificial Systems for Pairwise Ranking Tasks Sensitive to Individual Differences
Authors Xing Liu, Takayuki Okatani
因爲深度學習的進步,人工系統如今在幾種模式識別任務中與人類競爭,例如對象類別的視覺識別。然而,這僅僅是與人類感知無關的正確答案所存在的任務的狀況。還有另外一種類型的任務,預測的是人類感知自己,其中一般存在個體差別。而後,再也不有單一的正確答案來預測,這使得人工系統的評估變得困難。在本文中,咱們關注對個體差別敏感的成對排名任務,咱們提出了一種評估方法。給定由人工系統生成的多個項目對的排名結果,咱們的方法量化了人類生成相同排名結果的機率,並判斷它是否與人類生成的結果可區分。咱們引入了人類排名行爲的機率模型,並提出了一種有效的判斷計算方法。爲了從小尺寸樣本中準確地估計模型參數,咱們提出了一種方法,該方法使用註釋器給出的置信度分數來對每一個項目對進行排序。以根據對象的材料屬性對圖像對進行排序的任務爲例,咱們演示了所提出的方法如何工做。

FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents
Authors Guillaume Jaume, Hazim Kemal Ekenel, Jean Philippe Thiran
在本文中,咱們爲嘈雜的掃描文檔FUNSD中的表單理解提供了一個新的數據集。表格理解FoUn旨在提取和構建表格的文本內容。該數據集包括200個徹底註釋的真實掃描形式。這些文件很嘈雜,在表現方面表現出很大的變化,使FoUn成爲一項具備挑戰性的任務。建議的數據集可用於各類任務,包括文本檢測,光學字符識別OCR,空間佈局分析和實體標記連接。據咱們所知,這是第一個公開可用的數據集,其中包含針對FoUn任務的綜合註釋。咱們還提供了一組基線,並介紹了評估FUNSD數據集性能的指標。 FUNSD數據集能夠在https guillaumejaume.github下載。有趣的是FUNSD。

Combining Noise-to-Image and Image-to-Image GANs: Brain MR Image Augmentation for Tumor Detection
Authors Changhee Han, Leonardo Rundo, Ryosuke Araki, Yudai Nagano, Yujiro Furukawa, Giancarlo Mauri, Hideki Nakayama, Hideaki Hayashi
卷積神經網絡CNN能夠依靠足夠的註釋訓練數據實現出色的計算機輔助診斷性能。不幸的是,一般從各類掃描儀收集的大多數醫學成像數據集都很小且碎片化。在這種狀況下,做爲數據加強DA技術,生成性對抗網絡GAN能夠合成逼真的多樣化附加訓練圖像,以填補真實圖像分佈中缺少的數據,研究人員經過增長具備噪聲的圖像來改進分類,例如隨機噪聲樣本到多樣化病理圖像或圖像到圖像GAN,例如,良性圖像到惡性圖像。然而,沒有研究報道將i噪聲與圖像GAN和圖像與圖像GAN或ii GAN和其餘深度生成模型相結合的結果,以進一步提升性能。所以,爲了使GAN組合的DA效應最大化,咱們提出了一種基於兩步GAN的DA,它能夠分別生成和改進沒有腫瘤的腦MR圖像。逐步增加的GAN PGGAN,多級噪聲到圖像GAN,用於高分辨率圖像生成,首先生成逼真的多樣256 x 256圖像,即便醫生也沒法經過視覺圖靈測試兩者將其與真實圖像準確地區分開來。無監督圖像到圖像翻譯或SimGAN,圖像到圖像GAN結合GAN變分自動編碼器或使用GAN損失用於DA,進一步細化PGGAN的紋理形狀生成的圖像與真實的圖像相似。咱們完全調查了基於CNN的腫瘤分類結果,同時考慮了預訓練對ImageNet的影響,並丟棄了奇怪的GAN生成圖像。結果代表,當與經典DA組合時,咱們的基於兩步GAN的DA在腫瘤檢測中能夠明顯優於單獨的經典DA,即將靈敏度從93.63提升到97.53以及其餘任務。

Residual Networks as Nonlinear Systems: Stability Analysis using Linearization
Authors Kai Rothauge, Zhewei Yao, Zixi Hu, Michael W. Mahoney
咱們將預訓練的殘差網絡ResNets視爲非線性系統,並使用線性化(非線性系統的定性分析中經常使用的方法)來理解輸入圖像的小擾動下網絡的行爲。咱們使用在CIFAR 10數據集上訓練的ResNet 56和ResNet 110。咱們在剩餘單元和網絡級的水平上線性化這些網絡,而且奇異值分解用於這些組件的穩定性分析。發現殘餘單元的線性化的大多數奇異值是1,而且儘管線性化直接取決於激活圖,但奇異值對於不一樣的輸入圖像僅略微不一樣。然而,調整跳過鏈接的縮放或殘差單元中的權重值對奇異值分佈具備顯着影響。檢查輸入圖像的隨機和對抗擾動如何經過網絡傳播代表,在隨機擾動的狀況下,在網絡最後階段結束時,對抗性擾動的幅度急劇增長。咱們試圖經過將擾動投影到殘餘單元的線性化的奇異向量上來更好地理解這種現象。

Multi-modal Discriminative Model for Vision-and-Language Navigation
Authors Haoshuo Huang, Vihan Jain, Harsh Mehta, Jason Baldridge, Eugene Ie
視覺和語言導航VLN是一種天然語言基礎任務,代理必須在動態環境中的視覺場景環境中解釋天然語言指令,以實現規定的導航目標。成功的代理人必須可以解析不一樣語言風格的天然語言,將其置於可能不熟悉的場景中,計劃並對模糊的環境反饋作出反應。泛化能力受人類註釋數據量的限制。特別是,配對的視覺語言序列數據收集起來很昂貴。咱們開發了一個鑑別器,用於評估指令在多模態對齊中解釋VLN任務中給定路徑的程度。咱們的研究代表,只有一小部分來自citet Fried 2018揚聲器的高質量加強數據,由咱們的鑑別器評分,可用於訓練在之前看不見的環境中具備相似性能的VLN代理。咱們還代表,使用來自鑑別器的預先訓練的組件開始的VLN代理溫度優於基於之前看不見的環境的35.5乘10相對測量的基準成功率。

Convolutional Restricted Boltzmann Machine Based-Radiomics for Prediction of Pathological Complete Response to Neoadjuvant Chemotherapy in Breast Cancer
Authors Li Wang, Lihui Wang, Qijian Chen, Caixia Sun, Xinyu Cheng, Yuemin Zhu
咱們提出了一種新的卷積限制Boltzmann機CRBM基於放射學方法預測乳腺癌新輔助化療治療NACT的病理徹底反應pCR。該方法包括從CRBM網絡中提取語義特徵和pCR預測。對57名患者的動態對比加強磁共振成像DCE MRI數據進行評估,並使用接收器操做特徵曲線AUC下的面積。從在NACT管理以前和以後得到的圖像中提取傳統的放射學特徵和從CRBM網絡學習的語義特徵。在特徵選擇以後,訓練支持向量機SVM,邏輯迴歸LR和隨機森林RF以預測pCR狀態。與傳統的放射學方法相比,所提出的基於CRBM的放射學方法對於在NACT以前和以後得到的圖像的預測產生0.92的AUC,而且預處理預測的AUC爲0.87,其增長了約38。結果代表,基於CRBM的放射免疫方法爲治療前準確預測乳腺癌中的PCR至NACT提供了一種潛在的手段,這對於制定更合適和個性化的治療方案很是有用。

Generative Imaging and Image Processing via Generative Encoder
Authors Lin Chen, Haizhao Yang
本文介紹了一種新的生成編碼器GE模型,用於生成成像和圖像處理,應用於壓縮感知和成像,圖像壓縮,去噪,修復,去模糊和超分辨率。 GE模型包括預訓練階段和解決階段。在訓練前階段,咱們分別訓練兩個深度神經網絡,即生成對抗網絡GAN,其中生成器G捕獲給定圖像集的數據分佈,以及自動編碼器AE網絡,其具備編碼器EN,其按照估計的分佈壓縮圖像由GAN。在求解階段,給定噪聲圖像x mathcal P x,其中x是目標未知圖像,mathcal P是添加上癮,乘法或卷積噪聲的運算符,或等效地在壓縮域中給出這樣的圖像x,即,給定m EN x,咱們解決了優化問題

Seeing the Wind: Visual Wind Speed Prediction with a Coupled Convolutional and Recurrent Neural Network
Authors Jennifer L Cardona, Michael F Howland, John O Dabiri
風能資源量化,空氣污染監測和天氣預報都依賴於對當地風況的快速,準確的測量。視覺觀察風的影響,樹木的搖擺和旗幟的拍打,例如編碼關於局部風況的信息,其能夠潛在地用於廉價且廣泛存在的視覺風速測量。在這裏,咱們展現了耦合卷積神經網絡和遞歸神經網絡架構,其提取在天然發生的風中的旗幟的視覺記錄的流動結構相互做用中編碼的風速。對於風速爲0.75 11 m s的預測結果與現場杯式風速計的測量結果一致,均方根偏差接近因爲大氣湍流引發的天然風速變化。經過基於現場中的其餘旗幟的記錄和在風洞測試中控制的風速的成功預測來證實網絡的可歸納性。此外,基於物理的抖動動態縮放精確地預測了網絡性能對視頻幀速率和持續時間的依賴性。

Chinese Abs From Machine Translation

Papers from arxiv.orgnode

更多精彩請移步主頁git


Interesting:

📚基於草圖生成前端代碼,快速製做網頁原型, (from 布里斯托大學)
下圖顯示了具體的流程,首先抽取草圖中對應區域,隨後根據不一樣區域分類生成對應代碼獲得最終的網頁結果:
在這裏插入圖片描述
流程以下:
在這裏插入圖片描述
研究人員構建的主頁例子:https://getbootstrap.com/docs/4.0/examples/

github

📚對高粱株的分割與計數方法, 提出了一種自動化高通量的高粱計數和分割方法,經過圖像中的密度來對高粱植株進行分割和計數。(from IBM research)
在這裏插入圖片描述
網絡模型以下圖所示,分爲檢測和密度估計網絡兩個部分。
在這裏插入圖片描述
結果與相關方法的比較:
在這裏插入圖片描述
video:https://youtu.be/McMRqPDyQjE https://youtu.be/B6wxXUfrUuw

web

📚***+++基於域對抗的水下圖像質量加強方法, 這篇文章提出了一種新的方法,經過對抗學習內容特徵來解決水下圖像的多樣性問題,將不但願看到的與水質相關的因素解耦出來。同時利用學習到了特徵來生成加強後的圖像。(from 德州農工大學)
在這裏插入圖片描述
data:Jerlov water types [1].
real:Underwater Image Enhancement Benchmark Dataset (UIEBD) built by [18]
synthesized dataset built using the method described in [3]

算法

📚ReDO經過重繪製圖片來實現無監督的圖像分割, 研究人員提出了一種從圖像中抽取目標的無監督方法,這個想法來自於咱們能夠在改變目標的顏色和紋理的狀況下不改變數據集的分佈。因此利用了對抗架構,經過輸入圖像,抽取目標掩膜,然後從新在相同的位置繪製出新的目標。判別器控制着生成器來保證數據集的分佈與原始狀況相同。(from 巴黎索邦大學 )
在這裏插入圖片描述
一些結果,下圖顯示了原始圖像,基準mask和推測出的mask,以及基於這種方法獲得新圖像:
在這裏插入圖片描述
dataset:
Flowers dataset [38, 39]
Labeled Faces in the Wild dataset [25, 31]
Caltech-UCSD Birds 200 2011 (CUB-200-2011) dataset [48]
code:https://github.com/mickaelChen/ReDO

express

📚AGCN基於注意力的圖網絡用於點雲學習, 提出了一種基於注意力的圖卷積網絡來抽取點雲特徵,研究人員將這一過程視爲鄰近點間的信息傳輸過程,引入了注意力機制來分析局域點雲特徵的相互關係。此外,引入了二外的全局圖結構網絡來補償獨立點的相關信息,並將編碼器解碼器結構拓展到了分割任務上。(from 西南交通大學)
模型共分爲三個部分,對電雲進行採樣,在M個節點上各採樣L個點,併爲每一個節點抽取相應的特徵。隨後基於KNN圖引入注意力機制,供堆了三層來實現分類。最後利用全局的點雲圖來補償局部點雲信息幫助點雲的理解和學習。
在這裏插入圖片描述
點注意力層,利用三層的圖網絡來聚集周圍點的信息。其中箭頭表示了信息流動的方向:
在這裏插入圖片描述
基於點雲注意力的編碼器解碼器架構,這是一個可逆操做,編碼器抽取信息,解碼器將高維信息解碼爲低維度細粒度信息,在每一層都加入了全局點雲信息。
在這裏插入圖片描述
全局點雲信息的結構以下所示,基於KNN圖構造的特徵抽取,其中爲k個最鄰近點加上sj點自己:
在這裏插入圖片描述
與其餘方法的一些比較與一些結果:
在這裏插入圖片描述

bootstrap

TL;DwR:
基於視覺的車輛重識別
FUNSD包含噪聲的文件掃描數據集, reference website
基於視覺的風速預測
太陽表面圖像數據預測code:https://github.com/rhero12/Slic
韓語字符數據集
DAISY SYSTEM預測槍擊地點的建模、接口和相關信息技術報告
隱式方法背景估計, code:https://github.com/olivesgatech/implicit-background-estimation跨域


pic from pexels.com安全

相關文章
相關標籤/搜索