【今日CV 計算機視覺論文速覽 第129期】Wed, 12 Jun 2019

今日CS.CV 計算機視覺論文速覽
Wed, 12 Jun 2019
Totally 52 papers
👉上期速覽更多精彩請移步主頁
ios

在這裏插入圖片描述

Interesting:

📚Shapes and Context, 研究人員提出了一種從語義標籤圖合成圖像以及操做圖像內容的方法,具備豐富的適應性、能夠合成十分高分辨的圖像,這些圖像具備合適的外形和視覺結果,能夠經過這種方法合成豐富的圖像資源。(from CMU)
輸入語義圖像,輸出合成的彩色圖像:
在這裏插入圖片描述
對於輸入的語義圖,研究人員提出了非參數的匹配方法來處理全局、外形、部分甚至像素的細節,以便合成出新的圖像:
在這裏插入圖片描述
非參數匹配的過程主要分爲四個步驟,首先利用知識矢量來從數據集中找到相關樣本,隨後利用形狀連續性並基於形狀和內容特徵來尋找到最適合的掩膜,接着利用部分連續性和局域合成方法來補全細節的信息,最後在像素水平對圖形進行處理:
在這裏插入圖片描述
一些合成的結果:
在這裏插入圖片描述
統一輸入多個合成的輸出:
在這裏插入圖片描述
圖像插入元素的操做結果:
在這裏插入圖片描述

git

📚三維場景中CAD模型檢索與9DoF的匹配, 研究人員提出了一種對掃描場景中的物體進行6D位姿檢測,並利用檢測結果與對應的CAD模型進行匹配和對齊(symmetry-aware
object correspondences ,SOCs),隨後將生成有效的CAD重建結果,包含乾淨的、完整的物體幾何模型。(from 慕尼黑工大)
在這裏插入圖片描述
用於CAD模型匹配的端到端模型:
在這裏插入圖片描述
獲得的一些結果,其中掃描數據來自,傢俱的CAD模型來自shapent core:
在這裏插入圖片描述
一些相關方法的比較:
在這裏插入圖片描述
數據主要來自於掃描數據的TSDF編碼,encoded in a volumetric grid and generated through volumetric fusion [5]
場景數據來自Scan2CAD annotations provide 1506 scenes for training. SUNCG.
using the level-set generation toolkit by Batty [2]生成CAD模型的表示

github

📚提出了一種新的三維表示方法clouds of oriented gradient ,COG, 能夠精確的描述透視投影的角度如何影響成像圖像的梯度。爲了更好地表示大尺度的三維物體以及對於小物體的檢測,研究人員引入了隱支持表面。最後提出的曼哈頓體素方法來更好的捕捉房間的三維幾何佈局信息。最後利用了多級分類器來捕捉內容上的關係,在SUN RGB-D數據集上實現了很好的結果(from 佐治亞理工 )
從輸入的圖像和深度圖中首先對齊包含物體的立方體並轉換到慣用的座標系下,隨後從中抽取出點雲密度特徵、3D法向量直方圖和COG 描述子。並將點雲密度和體素密度匹配起來。
在這裏插入圖片描述
對於牀和牀上用品的檢測結果:
在這裏插入圖片描述

web

📚FAMED-Net高速高精度的多尺讀去霧方法, 圖像去霧方法目前受制於模型複雜、計算效率和表達能力,爲了解決這些問題,研究人員嘗試使用三個不一樣尺度的編碼器和融合模塊構建去霧算法。每個編碼器由級聯和稠密鏈接的逐點卷積層和池化層相連(相似shufflenet)。因爲特徵的複用和沒有大型卷積操做使得這一模型十分輕量和高效。(from 悉尼大學 UBTECH)
網絡有多個point-wise的卷積層和池化層的dense連接構成,
在這裏插入圖片描述
高斯金字塔和拉普拉斯金字塔結構的編碼器和融合模型:
在這裏插入圖片描述
模型的一些結果:
在這裏插入圖片描述
真實圖像的結果:
在這裏插入圖片描述算法

與相關結果的比較:
在這裏插入圖片描述
在這裏插入圖片描述
code:https://github.com/chaimi2013/FAMED-Net 做者即將放出
dataset:ITS and OTS,< RESIDE and TestSet-S

數據庫


Daily Computer Vision Papers

****Shapes and Context: In-the-Wild Image Synthesis & Manipulation
Authors Aayush Bansal, Yaser Sheikh, Deva Ramanan
咱們引入了一種數據驅動方法,用於交互式地合成來自語義標籤圖的野外圖像。咱們的方法與此領域的近期工做大相徑庭,由於咱們不使用任何學習方法。相反,咱們的方法使用簡單但經典的工具將場景上下文,形狀和部件與存儲的樣本庫進行匹配。雖然簡單,但這種方法比近期工做1有幾個明顯的優點,由於沒有學到任何東西,它不只限於特定的訓練數據分佈,如城市景觀,立面或面部2,它能夠合成任意高分辨率的圖像,僅受到分辨率的限制。經過適當地組成形狀和部分,示例庫3,它能夠生成指數大的可行候選輸出圖像集,能夠說是由用戶交互式搜索。咱們在不一樣的COCO數據集上展現結果,在標準圖像合成指標上顯着優於基於學習的方法。最後,咱們探索用戶交互和用戶可控性,證實咱們的系統能夠用做用戶驅動的內容建立的平臺。

**Clouds of Oriented Gradients for 3D Detection of Objects, Surfaces, and Indoor Scene Layouts
Authors Zhile Ren, Erik B. Sudderth
咱們開發了新的表示和算法,用於在雜亂的室內場景中進行三維三維物體檢測和空間佈局預測。咱們首先提出了一個定向梯度COG描述符雲,它將對象類別的2D外觀和3D姿態聯繫起來,從而準確地模擬透視投影如何影響感知的圖像漸變。爲了更好地表示大型物體的3D視覺樣式並提供上下文提示以改善小物體的檢測,咱們引入了潛在的支撐表面。而後,咱們提出了曼哈頓體素表示,它更好地捕捉了常見室內環境的3D房間佈局幾何形狀。經過潛在的結構化預測框架來學習有效的分類規則。經過級聯分類器捕獲類別和佈局之間的上下文關係,從而致使超出SUN RGB D數據庫的現有技術水平的總體場景假設。

**3-D Surface Segmentation Meets Conditional Random Fields
Authors Leixin Zhou, Zisha Zhong, Abhay Shah, Xiaodong Wu
在許多醫學圖像分析應用中,自動錶面分割是重要且具備挑戰性的。已經爲各類對象分割任務開發了最近的基於深度學習的方法。它們中的大多數是基於分類的方法,例如, U net,它預測每一個體素成爲目標對象或背景的機率。這些方法的一個問題是缺少對分割對象的拓撲保證,而且一般須要後處理來推斷對象的邊界表面。本文提出了一種基於三維卷積神經網絡CNN和條件隨機場CRF的新型模型,用於解決端到端訓練的表面分割問題。據咱們所知,這是第一個將3D神經網絡與CRF模型應用於直接表面分割的研究。在NCI ISBI 2013 MR前列腺數據集和醫學分割十項全能脾臟數據集上進行的實驗證實了很是有前景的分割結果。

Rethinking Person Re-Identification with Confidence
Authors George Adaimi, Sven Kreiss, Alexandre Alahi
人體識別系統的一個共同挑戰是區分具備很是類似外觀的人。目前基於交叉熵最小化的學習框架不適合這一挑戰。爲了解決這個問題,咱們建議使用三種方法標記平滑,置信度懲罰和深度變分信息瓶頸來修改表示學習框架中的交叉熵損失和模型置信度。咱們的方法的一個關鍵屬性是咱們不使用任何手工製做的人類特徵,而是將注意力集中在學習監督上。雖然建模置信度的方法沒有顯示出對象分類等其餘計算機視覺任務的顯着改進,但咱們可以顯示其在3個公開可用數據集上從新識別超出最新技術方法的任務的顯着影響。咱們的分析和實驗不只提供了人們所面臨的問題的看法,並且還提供了一個簡單而直接的方法來解決這個問題。

Gated CRF Loss for Weakly Supervised Semantic Image Segmentation
Authors Anton Obukhov, Stamatios Georgoulis, Dengxin Dai, Luc Van Gool
用於語義分割的現有技術方法依賴於在徹底註釋的數據集上訓練的深度卷積神經網絡,已經證實在時間和金錢方面收集都是很是昂貴的。爲了彌補這種狀況,弱監督方法利用須要少得多的註釋努力的其餘形式的監督,可是因爲這些區域中的監督信號的近似性質,它們一般表現出沒法預測精確的對象邊界。雖然在提升性能方面取得了很大進展,但許多弱監督方法都是根據本身的具體狀況量身定製的。這在重用算法和穩步前進方面提出了挑戰。在本文中,咱們在處理弱監督語義分割時故意避免這種作法。特別是,咱們爲標記像素訓練具備部分交叉熵損失函數的標準神經網絡,併爲未標記像素訓練咱們提出的門控CRF損失。門控CRF損失旨在提供幾個重要的資產1它使內核構造具備靈活性,以掩蓋不受歡迎的像素位置的影響2它將學習上下文關係卸載到CNN並集中於語義邊界3它不依賴於高維過濾和所以具備簡單的實現。在整篇論文中,咱們介紹了損失函數的優勢,分析了弱監督訓練的幾個方面,並代表咱們的純粹方法實現了基於點擊和基於塗鴉的註釋的最新技術性能。

**Scale Invariant Fully Convolutional Network: Detecting Hands Efficiently
Authors Dan Liu, Dawei Du, Libo Zhang, Tiejian Luo, Yanjun Wu, Feiyue Huang, Siwei Lyu
現有的手檢測方法一般遵循具備高計算成本的多級流水線,即特徵提取,區域建議,邊界框迴歸和用於旋轉區域檢測的附加層。在本文中,咱們提出了一種新的尺度不變全卷積網絡SIFCN,它以端到端的方式進行訓練,以有效地檢測手部。具體來講,咱們以迭代的方式合併從高層到低層的特徵映射,與簡單地鏈接它們相比,它能夠更好地處理不一樣規模的手,並且時間開銷更少。此外,咱們開發了互補加權融合CWF模塊,以充分利用多層之間的獨特特徵來實現尺度不變性。爲了處理旋轉手部檢測,咱們提出了旋轉圖來擺脫複雜的旋轉和反旋轉層。此外,咱們設計了多尺度損失方案,經過增長對網絡中間層的監督來顯着加速訓練過程。與現有技術方法相比,咱們的算法具備可比較的精度,在VIVA數據集上的運行速度提升了4.23倍,並以62.5 fps的速度在牛津手檢測數據集上實現了更好的平均精度。

On Stabilizing Generative Adversarial Training with Noise
Authors Simon Jenni, Paolo Favaro
咱們提出了一種新的方法和分析,以穩定的方式訓練生成對抗網絡GAN。如最近的分析所示,訓練一般受到數據空間上鄰域數據的機率分佈的破壞。咱們注意到,即便它們經歷相同的過濾,實際數據和生成數據的分佈也應該匹配。所以,爲了解決有限的支持問題,咱們建議經過使用實際和生成的數據分佈的不一樣過濾版原本訓練GAN。經過這種方式,過濾不會阻止數據分佈的精確匹配,同時經過擴展兩個分佈的支持來幫助進行培訓。做爲過濾,咱們考慮未來自任意分佈的樣本添加到數據中,這對應於數據分佈與任意分佈的卷積。咱們還建議學習這些樣本的生成,以便在對抗訓練中挑戰鑑別者。咱們代表,即便是最初的minimax GAN配方,咱們的方法也能實現穩定且良好的訓練。此外,咱們的技術能夠結合到大多數現代GAN配方中,並致使對幾個常見數據集的持續改進。

Mimic and Fool: A Task Agnostic Adversarial Attack
Authors Akshay Chaturvedi, Utpal Garain
目前,對抗性攻擊是以任務特定的方式設計的。然而,對於下游計算機視覺任務,例如圖像字幕,圖像分割等,當前的深度學習系統使用諸如VGG16,ResNet50,Inception v3等的圖像分類器做爲特徵提取器。牢記這一點,咱們提出了Mimic和Fool,一種與任務無關的對抗性攻擊。給定特徵提取器,所提出的攻擊找到能夠模仿原始圖像的圖像特徵的對抗圖像。這確保了兩個圖像不管任務如何都給出相同或類似的輸出。咱們隨機選擇1000個MSCOCO驗證圖像進行實驗。咱們對兩個圖像字幕模型,Show和Tell,Show Attend和Tell以及一個VQA模型,即端到端神經模塊網絡N2NMN進行實驗。對於Show and Tell,Show Attend和Tell以及N2NMN,提議的攻擊成功率分別爲74.0,81.0和89.6。咱們還建議對咱們的攻擊稍做修改,以生成看起來天然的對抗圖像。此外,它代表所提出的攻擊也適用於可逆架構。因爲Mimic和Fool只須要有關模型特徵提取器的信息,所以能夠將其視爲灰盒攻擊。

Joint Subspace Recovery and Enhanced Locality Driven Robust Flexible Discriminative Dictionary Learning
Authors Zhao Zhang, Jiahuan Ren, Weiming Jiang, Zheng Zhang, Richang Hong, Shuicheng Yan, Meng Wang
咱們提出了一種聯合子空間恢復和基於加強局部性的魯棒靈活標籤一致字典學習方法,稱爲魯棒靈活判別字典學習RFDDL。 RFDDL主要經過加強稀疏偏差的魯棒性和更準確地編碼局部性,重建偏差和標籤一致性來改進數據表示和分類能力。首先,對於數據和原子中噪聲和稀疏偏差的魯棒性,RFDDL旨在聯合恢復底層清潔數據和清理原子子空間,而後執行DL並對恢復的子空間中的位置進行編碼。其次,爲了可以潛在地處理從非線性流形採樣的數據並經過避免過分擬合來得到精確的重建,RFDDL以靈活的方式最小化重建偏差。第三,爲了準確地編碼標籤一致性,RFDDL涉及有區別的靈活稀疏碼錯誤以促使係數變軟。第四,爲了很好地編碼局部性,RFDDL定義了恢復原子上的拉普拉斯矩陣,包括在類內緊緻性和類間分離方面的原子標籤信息,並與組稀疏碼和分類器相關聯,以得到準確的判別局部約束係數和分類。公共數據庫的普遍結果顯示了咱們的RFDDL的有效性。

Challenges in Time-Stamp Aware Anomaly Detection in Traffic Videos
Authors Kuldeep Marotirao Biradar, Ayushi Gupta, Murari Mandal, Santosh Kumar Vipparthi
交通視頻中的時間戳識別異常檢測是智能交通系統發展的重要任務。因爲異常事件的稀疏發生,不一樣類型異常的不一致行爲以及正常和異常狀況下的不平衡可用數據,視頻中的異常檢測是一個具備挑戰性的問題。在本文中,咱們提出了一個三階段管道來學習視頻中的運動模式以檢測視覺異常。首先,從最近的歷史幀估計背景以識別靜止的對象。該背景圖像用於定位幀內的正常異常行爲。此外,咱們在估計的背景中檢測感興趣的對象,並基於時間戳識別異常檢測算法將其分類爲異常。咱們還討論了在改善交通異常檢測的看不見的測試數據方面所面臨的挑戰。實驗在NVIDIA AI城市挑戰2019的第3軌道上進行。結果顯示了所提出的方法在檢測交通道路視頻中的時間戳感知異常方面的有效性。

***CVPR19 Tracking and Detection Challenge: How crowded can it get?
Authors Patrick Dendorfer, Hamid Rezatofighi, Anton Milan, Javen Shi, Daniel Cremers, Ian Reid, Stefan Roth, Konrad Schindler, Laura Leal Taixe
標準化基準測試對於大多數計算機視覺應用相當重要。雖然排行榜和排名表不該過分宣稱,但基準一般提供最客觀的績效衡量標準,所以是研究的重要指南。

Learning robust visual representations using data augmentation invariance
Authors Alex Hern ndez Garc a, Peter K nig, Tim C. Kietzmann
訓練用於圖像對象分類的深度卷積神經網絡與在靈長類動物腹側視覺流中發現的表示顯示出顯着的類似性。然而,人工和生物網絡仍然表現出重要的差別。在這裏,咱們研究了一個這樣的屬性增長不變性,以保持沿腹側流發現的身份保持圖像變換。儘管有理論證據代表不變性應該從優化過程當中天然出現,但咱們提出了經驗證據,即對於對象分類訓練的卷積神經網絡的激活對於數據加強中經常使用的身份保持圖像變換不具備魯棒性。做爲解決方案,咱們提出數據加強不變性,無監督學習目標,其經過促進加強圖像樣本的激活之間的類似性來改善學習表示的魯棒性。咱們的結果代表,這種方法是一種簡單,有效和高效的訓練時間增長方式,在增長模型的不變性的同時得到類似的分類性能。

Simultaneously Learning Architectures and Features of Deep Neural Networks
Authors Tinghuai Wang, Lixin Fan, Huiling Wang
本文提出了一種新方法,能夠在多個時期內同時重複學習濾波器和網絡特徵的數量。咱們提出了一種新穎的修剪損失,以明確強制優化器專一於有但願的候選過濾器,同時抑制不太相關的過濾器的貢獻。同時,咱們進一步建議強制過濾器之間的多樣性,這種基於多樣性的正則化術語改善了模型大小和精度之間的權衡。結果代表,體系結構和特徵優化之間的相互做用改進了最終的壓縮模型,而且所提出的方法在模型大小和精度方面與現有方法相比有利,適用於普遍的應用,包括圖像分類,圖像壓縮和音頻分類。

Cross-Modal Relationship Inference for Grounding Referring Expressions
Authors Sibei Yang, Guanbin Li, Yizhou Yu
將引用表達式接地是一項基本但具備挑戰性的任務,有助於物理世界中的人機交流。它基於對引用天然語言表達與圖像之間的關係的理解來定位圖像中的目標對象。用於接地引用表達式的可行解決方案不只須要在圖像和引用表達式中提取全部必要信息,即對象和它們之間的關係,並且還從提取的信息中計算和表示多模態上下文。遺憾的是,關於接地引用表達式的現有工做不能準確地從引用表達式中提取多順序關係,而且它們得到的上下文與經過引用表達式描述的上下文存在差別。在本文中,咱們提出了一種交叉模態關係提取器CMRE,以自適應地突出顯示具備與給定表達式的鏈接的對象和關係,具備交叉模態注意機制,並將提取的信息表示爲語言引導的視覺關係圖。此外,咱們提出了一種門控圖形卷積網絡GGCN,經過融合來自不一樣模式的信息並在結構化關係圖中傳播多模態信息來計算多模態語義上下文。各類常見基準數據集的實驗代表,咱們的交叉模態關係推理網絡(由CMRE和GGCN組成)優於全部現有技術方法。

TW-SMNet: Deep Multitask Learning of Tele-Wide Stereo Matching
Authors Mostafa El Khamy, Haoyu Ren, Xianzhi Du, Jungwon Lee
在本文中,咱們介紹了估算由兩個具備不一樣視場的攝像機捕獲的場景中元素的真實世界深度的問題,其中第一視場FOV是由廣角鏡頭捕獲的寬視場WFOV,以及第二FOV包含在第一FOV中並由遠攝變焦鏡頭捕獲。咱們指的是估計FOV並集的逆深度的問題,同時利用重疊FOV中的立體聲信息,做爲遠程​​寬立體匹配TW SM。咱們爲TW SM問題提出了不一樣的深度學習解決方案。因爲視差與反深度成比例,所以咱們訓練立體匹配視差估計SMDE網絡以估計聯合WFOV的視差。咱們進一步提出了端到端深度多任務遠程廣播立體匹配神經網絡MT TW SMNet,其同時學習用於WFOV的重疊Tele FOV和單圖像逆深度估計SIDE任務的SMDE任務。此外,咱們設計了多種融合SMDE和SIDE網絡的方法。咱們評估TW SM在流行的KITTI和SceneFlow立體數據集上的性能,並經過從遠程寬立體圖像對合成WFOV上的散景效果來展現其實用性。

Bag of Color Features For Color Constancy
Authors Firas Laakom, Nikolaos Passalis, Jenni Raitoharju, Jarno Nikkanen, Anastasios Tefas, Alexandros Iosifidis, Moncef Gabbouj
在本文中,咱們提出了一種新的顏色恆常方法,稱爲Bag of Color Features BoCF,創建在Bag of Features聚集之上。所提出的方法大大減小了照明估計所需的參數的數量。同時,所提出的方法與顏色恆常性假設一致,代表全局空間信息與照明估計無關,而且局部信息邊緣等是足夠的。此外,BoCF與顏色恆定統計方法一致,能夠解釋爲許多統計方法的基於學習的歸納。爲了進一步提升光照估計精度,咱們提出了一種基於自我關注的BoCF模型的新型注意機制。與現有技術相比,BoCF方法及其變體實現了競爭,同時在三個基準數據集ColorChecker推薦,INTEL TUT版本2和NUS8上須要更少的參數。

**Single Image Blind Deblurring Using Multi-Scale Latent Structure Prior
Authors Yuanchao Bai, Huizhu Jia, Ming Jiang, Xianming Liu, Xiaodong Xie, Wen Gao
盲目圖像去模糊是計算機視覺中的一個具備挑戰性的問題,其旨在僅經過模糊觀察來恢復模糊核和潛在清晰圖像。受到圖像超分辨率以前的流行自我實例的啓發,在本文中,咱們觀察到從模糊觀察下采樣的粗糙圖像大體是潛在清晰圖像的低分辨率版本。咱們在理論上證實了這種現象,並將足夠粗糙的圖像定義爲未知清晰圖像以前的潛在結構。今後以前開始,咱們建議在模糊圖像金字塔上將最粗糙的圖像恢復到最精細的比例,並使用新恢復的清晰圖像逐步更新先前的圖像。這些粗到精的先驗被稱爲textit Multi Scale Latent Structures MSLS。利用MSLS先驗,咱們的算法包括兩個階段1咱們首先在粗尺度2中初步恢復清晰圖像而後咱們應用最精細尺度的細化處理以得到最終的去模糊圖像。在每一個尺度中,爲了實現更低的計算複雜度,咱們交替執行具備快速局部自我示例匹配的尖銳圖像重建,具備偏差補償的加速核估計和快速非盲圖像去模糊,而不是計算任何計算上昂貴的非凸起先驗。咱們進一步擴展了所提出的算法,以解決更具挑戰性的非均勻盲圖像去模糊問題。大量實驗代表,咱們的算法可以以更快的運行速度實現與最早進方法相比的競爭結果。

**On the Vector Space in Photoplethysmography Imaging
Authors Christian S. Pilz, Vladimir Blazek, Steffen Leonhardt
咱們研究了可見波長強度的矢量空間,這些面部視頻普遍用做Photoplethysmography Imaging PPGI的輸入特徵。基於歐幾里德空間中的羣不變性的理論原理,咱們推導出拓撲的變化,其中連續測量之間的相應距離被定義爲黎曼流形上的測地線。如幾種先前方法所討論的,傳感器信號的這種較低維度嵌入統一了關於特徵的平移的不變性屬性。生成的算子隱含在特徵空間上,不須要任何先驗知識,也不須要參數調整。根據已知的血容量變化的擴散過程,所得特徵的時變準週期性成形天然地以規範狀態空間表示的形式發生。計算複雜度低,實現變得至關簡單。在實驗期間,操做員經過兩個公共數據庫上的面部視頻實現了強大且有競爭力的心率估計性能。

NAS-FCOS: Fast Neural Architecture Search for Object Detection
Authors Ning Wang, Yang Gao, Hao Chen, Peng Wang, Zhi Tian, Chunhua Shen
深度神經網絡的成功依賴於重要的架構工程。最近,神經架構搜索NAS已經成爲經過自動搜索最佳架構來大大減小網絡設計中的手動努力的承諾,儘管一般這種算法須要過多的計算資源,例如幾千GPU天。迄今爲止,對於具備挑戰性的視覺任務,例如物體檢測,NAS,尤爲是快速版本的NAS,研究較少。這裏咱們建議搜索具備搜索效率的對象檢測器的解碼器結構。更具體地說,咱們的目標是使用定製的強化學習範例有效地搜索特徵金字塔網絡FPN以及簡單的無錨對象檢測器的預測頭,即FCOS 20。經過精心設計的搜索空間,搜索算法和評估網絡質量的策略,咱們可以在大約30個GPU天內有效地搜索超過2,000個架構。所發現的體系結構在COCO數據集上超過了現有的對象檢測模型,如Faster R CNN,RetinaNet和FCOS,在AP上1到1.9個點,具備可比較的計算複雜度和內存佔用,證實了所提出的NAS用於對象檢測的功效。

Few-Shot Point Cloud Region Annotation with Human in the Loop
Authors Siddhant Jain, Sowmya Munukutla, David Held
咱們提出了一種點雲註釋框架,該框架採用人類循環學習,可以建立具備每點註釋的大點雲數據集。來自人類註釋器的稀疏標籤被迭代地傳播以經過經由幾個鏡頭學習範例微調聯合任務的預訓練模型來生成網絡的完整分段。咱們代表,所提出的框架顯着減小了註釋點雲所需的人工交互量,而不會犧牲註釋的質量。咱們的實驗還經過注意到隨着系統完成的完整註釋的數量增長而減小人類交互,建議框架在註釋大數據集時的適用性。最後,咱們展現了框架的靈活性,以支持同一點雲的多個不一樣註釋,從而可以建立具備不一樣粒度註釋的數據集。

iProStruct2D: Identifying protein structural classes by deep learning via 2D representations
Authors Loris Nanni, Alessandra Lumini, Federica Pasquali, Sheryl Brahnam
在本文中,咱們從蛋白質的多視圖2D表示開始解決蛋白質分類的問題。從每一個3D蛋白質結構,使用蛋白質可視化軟件Jmol生成大量2D投影。這組多視圖2D表示包括13種不一樣類型的蛋白質可視化,其強調蛋白質結構的特定性質,例如,骨架可視化,其顯示蛋白質的骨架結構做爲Cα原子的痕跡。每種類型的表示用於訓練不一樣的卷積神經網絡CNN,而且這些CNN的融合被證實可以利用不一樣類型的表示的多樣性來提升分類性能。另外,經過圍繞其中心X,Y和Z視軸均勻旋轉蛋白質結構以得到125個圖像,得到若干多視圖投影。該方法能夠被認爲是用於改進分類器性能的數據加強方法,而且能夠用於訓練和測試階段。所提出的方法對兩個數據集的實驗評估證實了所提出的方法相對於其餘現有技術方法的強度。本文中使用的MATLAB代碼可在如下位置得到

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval
Authors Yale Song, Mohammad Soleymani
視覺語義嵌入旨在找到共享的潛在空間,其中相關的視覺和文本實例彼此接近。大多數當前方法學習內射嵌入函數,其將實例映射到共享空間中的單個點。不幸的是,內射嵌入不能有效地處理具備多種可能含義的多義實例,它會找到不一樣含義的平均表示。這阻礙了它在現實世界場景中的使用,其中個體實例及其交叉模態關聯一般是模糊的。在這項工做中,咱們介紹了多義實例嵌入網絡PIE網絡,它經過多頭自我關注和殘留學習將全局上下文與本地引導的特徵相結合來計算實例的多個和不一樣的表示。爲了學習視覺語義嵌入,咱們將兩個PIE網絡綁定在多實例學習框架中共同優化它們。大多數關於交叉模態檢索的現有工做都集中在圖像文本數據上。在這裏,咱們還處理了一個更具挑戰性的視頻文本檢索案例。爲了促進視頻文本檢索的進一步研究,咱們發佈了一個新的數據集,從社交媒體收集的50K視頻句子對,稱爲MRW個人反應。咱們使用MS COCO,TGIF和新的MRW數據集演示了咱們在圖像文本和視頻文本檢索方案中的方法。

Subspace Attack: Exploiting Promising Subspaces for Query-Efficient Black-box Attacks
Authors Ziang Yan, Yiwen Guo, Changshui Zhang
與普遍研究且易於獲取的白盒對應物不一樣,因爲難以估計梯度,黑盒設置中的對抗性示例一般更加艱難。許多方法經過向目標分類系統發出大量查詢來實現該任務,這使得整個過程對於系統來講是昂貴且可疑的。在本文中,咱們旨在下降此類別中黑盒攻擊的查詢複雜性。咱們建議利用一些參考模型的梯度,這些參考模型能夠跨越一些有但願的搜索子空間。實驗結果代表,與現有技術相比,咱們的方法能夠在必要的平均值和中等數量的查詢中得到高達2倍和4倍的減小,而且故障率低得多,即便參考模型訓練較小且不充分數據集與用於訓練受害者模型的數據集不相交。用於複製咱們結果的代碼和模型將公開發布。

Band Attention Convolutional Networks For Hyperspectral Image Classification
Authors Hongwei Dong, Lamei Zhang, Bin Zou
在高光譜圖像HSI的頻帶中存在冗餘和噪聲。所以,對於HSI分類方法,可以從數百個輸入頻帶中選擇合適的部分是一個很好的特性。在這封信中,提出了一個頻帶注意模塊BAM來實現基於深度學習的HSI分類,其具備頻帶選擇或加權的能力。所提出的BAM能夠被視爲現有分類網絡的即插即用補充組件,其充分考慮了當使用卷積神經網絡CNN進行HSI分類時由頻帶冗餘引發的不利影響。與HSI中使用的大多數深度學習方法不一樣,根據高光譜圖像的特徵定製的頻帶注意模塊嵌入在普通CNN中以得到更好的性能。同時,與經典的頻帶選擇或加權方法不一樣,所提出的方法實現了端到端訓練而不是分離的階段。實驗在兩個HSI基準數據集上進行。與一些經典和先進的深度學習方法相比,不一樣評價標準下的數值模擬代表,該方法具備良好的性能。最後但並不是最不重要的是,一些先進的CNN與提議的BAM相結合以得到更好的性能。

PAN: Projective Adversarial Network for Medical Image Segmentation
Authors Naji Khosravan, Aliasghar Mortazi, Michael Wallace, Ulas Bagci
已經證實,對抗性學習對於在語義分割中捕獲長程和高級標籤一致性是有效的。醫學成像的獨特之處在於,以有效且計算有效的方式捕獲3D語義仍然是一個懸而未決的問題。在這項研究中,咱們經過提出一種稱爲PAN的新型投射對抗網絡來解決這一計算負擔,該網絡經過2D投影結合了高級3D信息。此外,咱們在咱們的框架中引入了一個注意力模塊,該模塊有助於將全球信息直接從咱們的分割器選擇性地整合到咱們的對抗性網絡中。對於臨牀應用,咱們選擇CT掃描的胰腺分割。咱們提出的框架在不增長分段器複雜性的狀況下實現了最早進的性能。

Recognizing License Plates in Real-Time
Authors Xuewen Yang, Xin Wang
車牌檢測和識別LPDR對於實現智能交通和確保城市的安全性很是重要。然而,LPDR在實際環境中面臨着巨大的挑戰。牌照能夠具備極其多樣的尺寸,字體和顏色,而且板圖像一般因爲傾斜的捕獲角度,不均勻的照明,遮擋和模糊而致使質量差。在監視等應用中,一般須要快速處理。爲了實現實時和準確的車牌識別,在這項工做中,咱們提出了一套技術1一種輪廓重建方法以及邊緣檢測,以快速檢測候選板2一個簡單的零一交替方案,以有效地去除假的頂部和底部圍繞板塊的邊界以便於在板3上更準確地分割字符3一組技術以加強訓練數據,將SIFT特徵結合到CNN網絡中,並利用轉移學習來得到用於更有效訓練的初始參數和4兩階段驗證以低成本肯定正確平板的程序,在平板檢測階段進行統計過濾以快速去除不須要的候選者,以及CR過程以後的準確CR結果,以進行進一步的平板驗證而無需額外處理。咱們基於算法實現了完整的LPDR系統。實驗結果代表,咱們的系統能夠實時準確識別車牌。此外,它能夠在各類水平的照明和噪音下以及在汽車運動的狀況下穩健地工做。與對等方案相比,咱們的系統不只是最準確的系統,並且也是最快的系統,能夠輕鬆應用於其餘方案。

Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
Authors Junchao Zhang, Yuxin Peng
視頻字幕旨在自動生成視頻內容的天然語言描述,近年來引發了不少關注。生成準確且細粒度的字幕不只須要瞭解視頻的全局內容,還須要捕獲詳細的對象信息。同時,視頻表示對生成的字幕質量有很大影響。所以,視頻字幕捕獲具備詳細時間動態的顯着對象並使用判別性時空表示來表示它們是很重要的。在本文中,咱們提出了一種新的基於對象感知聚合的視頻字幕方法和雙向時間圖OA BTG,它捕獲視頻中顯着對象的詳細時間動態,並經過對檢測到的對象執行對象感知局部特徵聚合來學習判別性時空表示。區域。主要的新穎性和優勢是1雙向時間圖雙向時間圖沿着時間順序構建並反向構建,提供了捕獲每一個顯着對象的時間軌跡的互補方式。 2對象感知聚合可學習的局部聚合描述符模型的VLAD向量在對象時間軌跡和全局幀序列上構建,其執行對象感知聚合以學習判別性表示。還開發了分層注意機制以區分多個對象的不一樣貢獻。兩個普遍使用的數據集上的實驗證實咱們的OA BTG在BLEU 4,METEOR和CIDEr指標方面達到了最早進的性能。

***Hybrid Function Sparse Representation towards Image Super Resolution
Authors Junyi Bian, Baojun Lin, Ke Zhang
基於訓練的字典的稀疏表示已經在超分辨率SR上顯示成功但仍然具備一些限制。基於在不失去其保真度的狀況下進行函數曲線放大的思想,咱們提出了一種基於函數的超分辨率稀疏表示字典,稱爲混合函數稀疏表示HFSR。咱們設計的字典直接由預設的混合功能生成,無需額外的培訓,因爲其可擴展的屬性,能夠根據須要縮放到任何大小。咱們將近似的Heaviside函數AHF,正弦函數和DCT函數混合爲字典。而後提出多尺度細化以利用字典的可縮放屬性來改善結果。此外,採用重建策略來處理重疊。在Set14 SR數據集上的實驗代表,與基於非學習的現有技術方法相比,咱們的方法具備優異的性能,特別是對於包含豐富細節和上下文的圖像。

***FAMED-Net: A Fast and Accurate Multi-scale End-to-end Dehazing Network
Authors Jing Zhang, Dacheng Tao
單圖像去霧是後續高級計算機視覺任務的關鍵圖像預處理步驟。然而,因爲其不良的性質,它仍然具備挑戰性。現有的去霧模型傾向於遭受模型過複雜性和計算效率低下或具備有限的表示能力。爲了應對這些挑戰,咱們在此提出了一種快速,準確的多尺度端到端去霧網絡,稱爲FAMED Net,它包括三個刻度的編碼器和一個融合模塊,能夠高效,直接地學習無霧圖像。每一個編碼器由級聯和密集鏈接的點式卷積層和池化層組成。因爲沒有使用更大的卷積內核而且逐層重用特徵,所以FAMED Net具備輕量級和計算效率。對包括RESIDE和真實世界模糊圖像在內的公共合成數據集進行的全面實證研究代表,FAMED網絡在模型複雜性,計算效率,恢復精度和交叉集歸納方面優於其餘表明性的現有模型。該代碼將公開發布。

Online Object Representations with Contrastive Learning
Authors S ren Pirk, Mohi Khansari, Yunfei Bai, Corey Lynch, Pierre Sermanet
咱們提出了一種自我監督的方法,用於學習單目視頻對象的表示,並證實它在機器人等位置設置中特別有用。本文的主要貢獻是1一個自我監督的目標,經過對比學習訓練,能夠發現和解開視頻中的對象屬性而不使用任何標籤2咱們利用對象自我監督進行在線自適應咱們的在線模型看待視頻中的對象的時間越長,對象識別錯誤越低,而離線基線仍然存在大的固定偏差3,以探索徹底沒有人爲監督的系統的可能性,咱們讓機器人收集本身的數據,用咱們的自我監督方案訓練這些數據,而後顯示機器人能夠指向相似於前面呈現的對象的對象,展現對象屬性的歸納。這種方法的一個有趣且可能使人驚訝的發現是,給定一組有限的對象,當使用對比學習而不須要明確的正對時,對象對應天然會出現。可在如下網址獲取說明在線對象調整和機器人指向的視頻

Semantic-guided Encoder Feature Learning for Blurry Boundary Delineation
Authors Dong Nie, Dinggang Shen
編碼器解碼器架構普遍用於醫學圖像分割任務。經過橫向跳過鏈接,模型能夠在深層中獲取並融合語義和分辨率信息,以實現更準確的分割性能。然而,在許多應用中,例如模糊的邊界圖像,這些模型一般不能精確地定位複雜的邊界而且分割出微小的孤立部分。爲了解決這個具備挑戰性的問題,咱們首先分析爲何簡單的跳過鏈接不足以幫助準肯定位模糊邊界,並認爲這是因爲編碼器層中提供的跳過鏈接中的模糊信息。而後,咱們提出了一種語義引導的編碼器特徵學習策略,以學習高分辨率和豐富的語義編碼器特徵,以便咱們能夠更準確地定位模糊邊界,這也能夠經過選擇性地學習判別特徵來加強網絡。此外,咱們進一步提出了一種軟輪廓約束機制來模擬模糊邊界檢測。實際臨牀數據集的實驗結果代表,咱們提出的方法能夠實現最早進的分割精度,特別是對於模糊區域。進一步分析還代表,咱們提出的網絡組件確實有助於提升性能。對其餘數據集的實驗驗證了咱們提出的方法的泛化能力。

SymNet: Symmetrical Filters in Convolutional Neural Networks
Authors Gregory Dzhezyan, Hubert Cecotti
對稱性存在於天然和科學中。在圖像處理中,用於空間濾波的內核具備一些對稱性,例如,索貝爾算子,高斯,拉普拉斯算子。人工前饋神經網絡中的卷積層一般在沒有任何約束的狀況下考慮核權重。在本文中,咱們建議研究卷積層中對稱約束對圖像分類任務的影響,從初級視覺皮層和常見圖像處理技術中涉及的過程當中獲取靈感。目標是經過修改在反向傳播算法期間執行的權重更新並評估性能變化來評估在整個卷積神經網絡CNN的訓練過程當中對過濾器實施對稱約束的程度。本文的主要假設是對稱約束減小了網絡中自由參數的數量,而且可以實現與現代訓練方法幾乎相同的性能。特別地,咱們解決了如下狀況:軸對稱,點反射和反點反射。已經在四個圖像數據庫上評估了性能。結果支持這樣的結論:雖然隨機權重爲模型提供了更多的自由度,但對稱約束提供了相似的性能水平,同時大大減小了模型中自由參數的數量。這種方法在須要整個特徵提取過程當中具備線性相位特性的相敏應用中是有價值的。

FASTER Recurrent Networks for Video Classification
Authors Linchao Zhu, Laura Sevilla Lara, Du Tran, Matt Feiszli, Yi Yang, Heng Wang
視頻分類方法一般將視頻分紅短片斷,獨立地對這些片斷進行推斷,而後聚合這些預測以生成最終的分類結果。將這些高度相關的剪輯視爲獨立的二者都忽略了信號的時間結構而且帶來了大的計算成本,模型必須從頭開始處理每一個剪輯。爲了下降這種成本,最近的努力集中在設計更有效的剪輯級網絡架構上。然而,對總體框架的關注較少,包括如何從相鄰剪輯之間的相關性中受益以及改進聚合策略自己。在本文中,咱們利用相鄰視頻剪輯之間的相關性來解決聚合階段視頻分類中計算成本效率的問題。更具體地,給定剪輯特徵表示,計算下一剪輯表示的問題變得更容易。咱們提出了一種名爲FASTER的新型復現架構,用於視頻級分類,它結合了高質量,昂貴的剪輯表示,捕捉細節的動做,以及輕量級表示,捕捉視頻中的場景變化並避免冗餘計算。咱們還提出了一種新穎的處理單元來學習剪輯級表示的集成,以及它們的時間結構。咱們將此單元稱爲FAST GRU,由於它基於門控循環單元GRU。所提出的框架在推理時間上實現了明顯更好的FLOP與準確度之間的折衷。與現有方法相比,咱們提出的框架將FLOP減小了10倍以上,同時在流行數據集(例如Kinetics,UCF101和HMDB51)中保持類似的準確性。

****End-to-End CAD Model Retrieval and 9DoF Alignment in 3D Scans
Authors Armen Avetisyan, Angela Dai, Matthias Nie ner
咱們提出了一種新穎的端到端方法,將CAD模型與場景的3D掃描對齊,從而將嘈雜,不完整的3D掃描轉換爲緊湊的CAD重建,並使用乾淨,完整的物體幾何體。咱們的主要貢獻在於制定可區分的Procrustes對齊,該對齊與對稱感知密集對象對應預測配對。爲了同時將CAD模型與掃描場景的全部對象對齊,咱們的方法檢測對象位置,而後預測在統一對象空間中掃描和CAD幾何體之間的對稱感知密集對象對應關係,以及最近鄰CAD模型,二者都是而後用於通知可區分的Procrustes對齊。咱們的方法以徹底卷積的方式運行,使CAD模型可以在單個前向傳遞中與掃描對象對齊。這使得咱們的方法在19.04時可以賽過最早進的方法,用於CAD模型與掃描的對齊,運行時間比之前的數據驅動方法快約250倍。

Data-Free Quantization through Weight Equalization and Bias Correction
Authors Markus Nagel, Mart van Baalen, Tijmen Blankevoort, Max Welling
咱們介紹了一種不須要微調或超參數選擇的深度神經網絡的無數據量化方法。它在常見的計算機視覺架構和任務上實現了接近原始的模型性能。 8位定點量化對於現代深度學習硬件架構中的有效推理相當重要。然而,量化模型以8位運行是一項很是重要的任務,常常致使顯着的性能下降或者在訓練網絡上花費的工程時間適合於量化。咱們的方法依賴於經過利用激活函數的尺度等效性來均衡網絡中的權重範圍。此外,該方法校訂在量化期間引入的偏差中的誤差。這提升了量化精度性能,而且能夠經過直接的API調用無處不在地應用於幾乎任何模型。對於常見的體系結構,例如MobileNet系列,咱們實現了最早進的量化模型性能。咱們進一步代表,該方法還擴展到其餘計算機視覺架構和任務,如語義分割和對象檢測。

Automatic brain tissue segmentation in fetal MRI using convolutional neural networks
Authors N. Khalili, N. Lessmann, E. Turk, N. Claessens, R. de Heus, T. Kolk, M.A. Viergever, M.J.N.L. Benders, I. Isgum
胎兒的MR圖像容許臨牀醫生在發育的早期階段檢測腦異常。胎兒MRI中體積和形態分析的基石是將胎兒大腦分紅不一樣的組織類別。手動分割是麻煩且耗時的,所以自動分割能夠大大簡化過程。然而,因爲包括強度不均勻性的僞影,這些掃描中的自動腦組織分割是挑戰性的,特別是由掃描期間的自發胎兒運動引發的。與估計偏移場以消除強度不均勻性做爲分割的預處理步驟的方法不一樣,咱們建議使用卷積神經網絡進行分割,該網絡利用合成引入的強度不均勻性的圖像做爲數據加強。該方法首先使用CNN來提取顱內體積。此後,採用具備相同結構的另外一CNN將提取的體積分紅七個腦組織類別小腦,基底神經節和丘腦,腦室腦脊液,白質,腦幹,皮質灰質和腦脊髓液。爲了使該方法適用於顯示強度不均勻性僞影的切片,經過將線性梯度與隨機偏移和方向的組合應用於沒有僞影的圖像切片來加強訓練數據。

Generative adversarial network for segmentation of motion affected neonatal brain MRI
Authors N. Khalili, E. Turk, M. Zreik, M.A. Viergever, M.J.N.L. Benders, I. Isgum
早產兒自動新生兒腦組織分割是評估大腦發育的先決條件。然而,自動分割常常受到圖像採集期間嬰兒頭部運動引發的運動僞影的阻礙。已經開發了使用頻域數據在圖像重建期間去除或最小化這些僞像的方法。可是,頻域數據可能並不老是可用。所以,在本研究中,咱們提出了一種從已經重建的MR掃描中去除運動僞影的方法。該方法採用以循環一致性損失訓練的生成對抗網絡,以將受運動影響的切片轉換成沒有運動僞影的切片,反之亦然。在實驗中,使用40個在經後年齡30周時成像的早產嬰兒的T2加權冠狀MR掃描。全部圖像都包含受運動僞影影響的切片,妨礙了自動組織分割。爲了評估校訂是否容許更準確的圖像分割,圖像被分割成8個組織類別小腦,有髓白質,基底神經節和丘腦,腦室腦脊液,白質,腦幹,皮質灰質和腦脊髓液。使用5點李克特量表定性評估針對運動和相應分割校訂的圖像。在校訂運動僞影以前,中值圖像質量和相應自動分割的質量分別被分配爲2級差和3級中等。在校訂運動僞影以後,二者分別改善到3級和4級。結果代表,使用所提出的方法校訂圖像空間中的運動僞影容許在受運動僞影影響的切片中精確分割腦組織類別。

On Single Source Robustness in Deep Fusion Models
Authors Taewan Kim, Joydeep Ghosh
融合多個輸入源的算法受益於互補和共享信息。共享信息能夠爲故障或噪聲輸入提供穩健性,這對於自駕車等安全關鍵應用是必不可少的。咱們研究了學習融合算法,該算法可以抵抗單個來源的噪聲。咱們首先證實在線性融合模型中不能保證對單源噪聲的魯棒性。在這一發現的推進下,提出了兩種可能的方法來提升魯棒性,使用相應的深度融合模型訓練算法,以及在處理噪聲方面具備結構優點的簡單卷積融合層來提升精確設計的損耗。實驗結果代表,訓練算法和咱們的融合層都使得基於深度融合的三維物體探測器可以抵抗應用於單個聲源的噪聲,同時保持原始性能對乾淨的數據。

`Project & Excite' Modules for Segmentation of Volumetric Medical Scans
Authors Anne Marie Rickmann, Abhijit Guha Roy, Ignacio Sarasua, Nassir Navab, Christian Wachinger
徹底卷積神經網絡F CNN實現了醫學成像中圖像分割的最早進性能。最近,已經引入擠壓和激勵SE模塊及其變型以從新校準特徵圖通道和空間方式,這能夠提升性能同時僅最小化地增長模型複雜性。到目前爲止,SE的發展主要集中在2D圖像上。在本文中,咱們提出了基於SE思想的Project Excite PE模塊,並將它們擴展到3D體積圖像上。 Project Excite不執行全局平均合併,而是分別沿着張量的不一樣切片擠壓特徵貼圖以保留隨後在激勵步驟中使用的更多空間信息。咱們證實了PE模塊能夠輕鬆集成到3D U Net中,經過5個Dice點提高性能,同時僅將模型複雜度提升2倍。咱們評估PE模塊的兩個具備挑戰性的任務,MRI掃描的全腦分割和CT掃描的全身分割。碼

DropConnect Is Effective in Modeling Uncertainty of Bayesian Deep Networks
Authors Aryan Mobiny, Hien V. Nguyen, Supratik Moulik, Naveen Garg, Carol C. Wu
深度神經網絡DNN已經在許多重要領域實現了最早進的性能,包括醫療診斷,安全性和自動駕駛。在安全性很是關鍵的這些領域,錯誤的決策可能致使嚴重的後果。雖然完美的預測準確性並不老是能夠實現,但貝葉斯深度網絡的最新工做代表,有可能知道DNN什麼時候更容易出錯。瞭解DNN不知道的內容對於提升敏感應用中深度學習技術的安全性是可取的。貝葉斯神經網絡試圖解決這一挑戰。然而,傳統方法在計算上難以處理,而且不能很好地擴展到大型複雜的神經網絡架構。在本文中,咱們經過對模型權重施加伯努利分佈,創建了一個理論框架來逼近DNN的貝葉斯推斷。這種稱爲MC DropConnect的方法爲咱們提供了一種工具來表示模型的不肯定性,而總體模型結構或計算成本幾乎沒有變化。咱們在多個網絡架構和數據集上普遍驗證了所提出的算法,用於分類和語義分段任務。咱們還提出了新的指標來量化不肯定性估計。這使得MC DropConnect與先前方法之間可以進行客觀比較。咱們的實證結果代表,與現有技術相比,所提出的框架在預測準確性和不肯定性估計質量方面產生顯着改善。

***Anomaly Detection in High Performance Computers: A Vicinity Perspective
Authors Siavash Ghiasvand, Florina M. Ciorba
響應於對更高計算能力的需求,高性能計算機HPC中的計算節點的數量迅速增長。 Exascale HPC系統預計到2020年到貨。隨着HPC系統組件數量的急劇增長,預計會出現故障數量的忽然增長,從而對HPC系統的持續運行構成威脅。儘早檢測故障並理想地預測故障是避免HPC系統運行中斷的必要步驟。異常檢測是計算系統中用於故障檢測的衆所周知的通用方法。大多數現有方法是針對特定體系結構設計的,須要對計算系統硬件和軟件進行調整,須要過多信息,或對用戶和系統隱私構成威脅。該工做提出了一種基於基於鄰近的統計異常檢測方法的節點故障檢測機制,該方法使用被動收集和匿名的系統日誌條目。將所提出的方法應用於8個月內收集的系統日誌代表異常檢測精度在62到81之間。

BasisConv: A method for compressed representation and learning in CNNs
Authors Muhammad Tayyab, Abhijit Mahalanobis
衆所周知,卷積神經網絡CNN在其濾波器權重方面具備顯着的冗餘。在文獻中已經提出了各類方法來壓縮訓練的CNN。這些包括諸如修剪權重,濾波器量化和根據基函數表示濾波器的技術。咱們的方法屬於後一類策略,但不一樣之處在於咱們展現了壓縮學習和表示均可以在不對流行的CNN架構進行重大修改的狀況下實現。具體來講,CNN的任何卷積層很容易被兩個連續的卷積層取代,第一個是一組固定的濾波器,它們表明整個層的知識空間而不會改變,後面是一層表明一維濾波器這個領域的學識淵博。對於預訓練的網絡,固定層只是原始濾波器的截斷特徵分解。 1D濾波器初始化爲線性組合的權重,但通過微調以恢復因爲截斷引發的任何性能損失。爲了從頭開始訓練網絡,咱們使用一組永不改變的隨機正交固定濾波器,並直接從標記數據中學習一維權重向量。咱們的方法在訓練期間大大減小了可學習參數的數量,以及ii在實現期間的乘法運算和濾波器存儲要求的數量。它不須要卷積層中的任何特殊運算符,而且擴展到全部已知的流行CNN架構。咱們將咱們的方法應用於使用三種不一樣數據集訓練的四種衆所周知的網絡架構。結果顯示,操做次數最多可減小5倍,ii可學習參數數量最多減小18倍,CIFAR100數據集性能降低不到3次。

A Novel Cost Function for Despeckling using Convolutional Neural Networks
Authors Giampaolo Ferraioli, Vito Pascazio, Sergio Vitale
從SAR圖像中去除斑點噪聲仍然是一個懸而未決的問題。衆所周知,對SAR圖像的解釋是很是具備挑戰性的,而且爲了提升提取信息的能力,必須使用去斑算法。因爲不一樣的結構和不一樣的物體尺度,城市環境使這項任務更加沉重。隨着最近與幾種遙感應用相關的深度學習方法的普及,本文提出了一種基於卷積神經網絡的去斑算法。網絡接受模擬SAR數據的訓練。本文主要關注成本函數的實現,該成本函數考慮了圖像的空間一致性和噪聲的統計特性。

Deep learning analysis of cardiac CT angiography for detection of coronary arteries with functionally significant stenosis
Authors Majd Zreik, Robbert W. van Hamersvelt, Nadieh Khalili, Jelmer M. Wolterink, Michiel Voskuil, Max A. Viergever, Tim Leiner, Ivana I gum
在患有阻塞性冠狀動脈疾病的患者中,須要肯定冠狀動脈狹窄的功能意義以指導治療。這一般經過在侵入性冠狀動脈血管造影ICA期間執行的分數流量儲備FFR測量來創建。咱們提出了一種自動和非侵入性檢測功能顯着的冠狀動脈狹窄的方法,採用心臟CT血管造影CCTA圖像中的完整冠狀動脈的深度無監督分析。咱們回顧性收集了187例患者的CCTA掃描,其中137例在192個不一樣的冠狀動脈中進行了侵入性FFR測量。這些FFR測量值做爲冠狀動脈狹窄的功能意義的參考標準。提取冠狀動脈的中心線並用於重建拉直的多平面從新格式化的MPR體積。爲了自動識別具備功能上顯着的狹窄的動脈,使用分別執行空間和順序編碼的兩個不相交的3D和1D卷積自動編碼器將每一個MPR體積編碼成固定數量的編碼。此後,使用支持向量機分類器,根據功能上顯着的狹窄的存在,使用這些編碼來對動脈進行分類。使用重複交叉驗證明驗評估的功能上顯着的狹窄的檢測致使接收器操做特徵曲線下面積在動脈水平上爲0.81pm 0.02,在患者水平上爲0.87pm 0.02。結果代表,使用CCTA圖像中完整冠狀動脈的特徵,自動非侵入性檢測冠狀動脈中功能上顯着的狹窄是可行的。這可能會減小沒必要要地接受ICA的患者數量。

SALT: Subspace Alignment as an Auxiliary Learning Task for Domain Adaptation
Authors Kowshik Thopalli, Jayaraman J. Thiagarajan, Rushil Anirudh, Pavan Turaga
無監督域適應旨在將從標記源域學到的知識轉移和調整到未標記的目標域。無監督域自適應的關鍵組件包括在源上最大化性能,以及b對齊源域和目標域。傳統上,這些任務要麼被認爲是獨立的,要麼被假定爲與高容量特徵提取器一塊兒隱式地解決。在本文中,咱們提出了第三種普遍的方法,咱們稱之爲SALT。核心思想是將對齊做爲輔助任務,將最大化源性能的主要任務考慮在內。經過假設子空間形式的易處理數據幾何,使輔助任務變得至關簡單。咱們協同地容許來自封閉形式輔助解決方案的某些參數受到來自主要任務的梯度的影響。所提出的方法表明了基於幾何和基於模型的對齊與來自數據驅動的主要任務的梯度流的獨特融合。 SALT很簡單,根植於理論,而且在多個標準基準測試中表現優於最新技術水平。

Multiscale Nakagami parametric imaging for improved liver tumor localization
Authors Omar S. Al Kadi
有效的超聲組織表徵一般受到複雜組織結構的阻礙。散斑圖案的交織使得反向散射分佈參數的正確估計複雜化。基於局部形狀參數映射的Nakagami參數化成像能夠模擬不一樣的後向散射條件。然而,構建的Nakagami圖像的性能取決於估計方法對反向散射統計和分析規模的敏感性。在估計Nakagami參數圖像時使用感興趣的固定焦點區域將增長估計方差。在這項工做中,經過多尺度基礎上的最大似然估計自適應地估計局部Nakagami參數。變尺寸內核在多個尺度上集成了後向散射分佈參數的擬合優度,以實現更穩定的參數估計。結果顯示組織鏡面反射變化的定量可視化改善,代表在低對比度超聲圖像中改善腫瘤定位的潛在方法。

Adaptively Preconditioned Stochastic Gradient Langevin Dynamics
Authors Chandrasekaran Anirudh Bhardwaj
隨機梯度Langevin動力學向SGD注入各向同性梯度噪聲,以幫助導航深層網絡損失景觀中的病理曲率。噪聲的各向同性本質致使不良的縮放,而且已經提出了基於諸如Fisher Scoring的高階曲率信息的自適應方法來預處理噪聲以便實現更好的收斂。在本文中,咱們描述了一種估計噪聲參數的自適應方法,並在衆所周知的模型架構上進行實驗,以代表自適應預處理SGLD方法與Adam,AdaGrad等自適應一階方法的速度實現收斂。在測試集中實現SGD的泛化等價。

Transport Triggered Array Processor for Vision Applications
Authors Mehdi Safarpour, Ilkka Hautala, Miguel Bordallo Lopez, Olli Silven
許多物聯網中的低級感官數據處理物聯網設備經過利用睡眠模式或將時鐘減慢到最小來追求能效。爲了抑制那些設計中的待機功耗的份額,採用接近閾值的子閾值操做點或製造中的超低泄漏過程。這些會顯着限制時鐘速率,從而下降各個處理內核的計算吞吐量。在此貢獻中,咱們探索經過大規模並行化來補償在接近閾值區域Vdd 0.6V下操做的性能損失。近閾值操做和大規模並行性的好處分別是每指令操做的最佳能量消耗和最小化的存儲器往返。設計的處理元件PE基於傳輸觸發架構。細粒度可編程並行解決方案容許快速有效地計算可學習的低級特徵,例如,本地二進制描述符和卷積。其餘操做,包括Max pooling也已實施。可編程設計實現了局部二進制模式計算的出色能效。

Identifying Visible Actions in Lifestyle Vlogs
Authors Oana Ignat, Laura Burdick, Jia Deng, Rada Mihalcea
咱們認爲識別在線視頻中可見的人類行爲的任務。咱們專一於普遍傳播的生活方式視頻博客類型,其中包括人們在口頭描述時執行操做的視頻。咱們的目標是肯定視頻的語音描述中提到的動做是否在視覺上呈現。咱們構建了一個包含可見動做的衆包手動註釋的數據集,並引入了一種多模式算法,該算法利用從視覺和語言線索中得到的信息來自動推斷視頻中哪些動做是可見的。咱們證實了咱們的多模態算法一次只能基於一種模態優於算法。

BowNet: Dilated Convolution Neural Network for Ultrasound Tongue Contour Extraction
Authors M. Hamed Mozaffari, Won Sook Lee
超聲成像安全,相對實惠,而且具備實時性能。該技術的一個應用是在實時演講期間可視化和表徵人類舌頭的形狀和運動,以研究健康或受損的語音產生。因爲具備低對比度特性的超聲圖像的嘈雜性質,可能須要非專業用戶的專業知識來識別器官形狀,例如舌頭表面背部。爲了減輕舌頭形狀和運動的定量分析的這種困難,能夠提取,跟蹤和可視化舌頭表面而不是整個舌頭區域。從每一個框架描繪舌頭表面是麻煩的,主觀的和容易出錯的任務。此外,舌頭手勢的快速性和複雜性使其成爲具備挑戰性的任務,而且手動分割對於實時應用來講不是可行的解決方案。利用現有技術的深度神經網絡模型和訓練技術,實現具備實時性能的全自動,準確,魯棒的分割方法是可行的,適用於語音中舌頭輪廓的跟蹤。本文介紹了兩種新的深度神經網絡模型,名爲BowNet,wBowNet受益於全局預測解碼編碼模型的能力,具備集成的多尺度上下文信息,以及擴散卷積的全分辨率局部提取能力。使用多個超聲舌圖像數據集的實驗結果代表,定位和全球搜索的結合能夠顯着提升預測結果。使用定性和定量研究對BowNet模型的評估代表,與相似技術相比,它們在準確性和穩健性方面取得了顯着成就。

Alzheimer's Disease Brain MRI Classification: Challenges and Insights
Authors Yi Ren Fung, Ziqiang Guan, Ritesh Kumar, Joie Yeahuay Wu, Madalina Fiterau
近年來,許多論文報道了使用卷積神經網絡從阿爾茨海默氏病神經影像學計劃ADNI數據集進行MRI掃描的阿爾茨海默病分類的最新技術表現。然而,咱們發現,當咱們將這些數據分紅主題級別的培訓和測試集時,咱們沒法得到相似的性能,從而使許多先前研究的有效性受到質疑。此外,咱們指出之前的工做使用不一樣的ADNI數據子集,使得在相似工做中的比較變得棘手。在這項研究中,咱們提出三種分裂方法的結果,討論其有效性背後的動機,並使用全部可用的主題報告咱們的結果。

**Human-Machine Collaboration for Fast Land Cover Mapping
Authors Caleb Robinson, Anthony Ortiz, Kolya Malkin, Blake Elias, Andi Peng, Dan Morris, Bistra Dilkina, Nebojsa Jojic
咱們建議將人類貼標機歸入模型微調系統,以提供即時的用戶反饋。在咱們的框架中,人類貼標籤者能夠交互式地查詢未標記數據的模型預測,選擇要標記的數據,並查看對模型預測產生的影響。這種雙向反饋迴路容許人們瞭解模型如何響應新數據。咱們的假設是,這種豐富的反饋容許人類貼標者建立心理模型,使他們可以更好地選擇引入模型的誤差。咱們將人類選擇點與使用標準主動學習方法選擇的點進行比較。咱們進一步研究微調方法如何影響人類貼標機的性能。咱們實現了這個框架,用於微調高分辨率土地覆蓋分割模型。具體來講,咱們微調了一個深度神經網絡,該網絡訓練將高分辨率航空影像分割成美國馬里蘭州的不一樣土地覆蓋類別,到達美國紐約的一個新的空間區域。緊密循環將算法和人類操做員轉變爲混合系統,能夠比傳統工做流程更有效地生成大面積的土地覆蓋圖。咱們的框架在地理空間機器學習環境中具備應用,其中實際上無限制地提供未標記數據,其中只有一小部分能夠經過人工努力進行標記。

Chinese Abs From Machine Translation

Papers from arxiv.org編程

更多精彩請移步主頁安全


在這裏插入圖片描述
pic from pexels.com網絡

相關文章
相關標籤/搜索