【今日CV 計算機視覺論文速覽 第131期】Mon, 17 Jun 2019

今日CS.CV 計算機視覺論文速覽
Mon, 17 Jun 2019
Totally 44 papers
👉上期速覽更多精彩請移步主頁
html

在這裏插入圖片描述

Interesting:

📚綜述:基於圖像的深度重建, 基於單張或多張RGB圖像估計深度是十分重要的工做,研究人員調研了超過100篇文章及其關鍵貢獻,總結了經常使用的技術路線,分析了每類方法的優勢和侷限性,包括訓練數據集、網絡結構、訓練策略、應用場景及其對結果的影響。文章包括立體匹配,單圖或多圖迴歸,訓練過程以及損失函數的選擇,以及各類方法的具體表現。文中的多個表格給出了不少有意義的對比和總結。(from Murdoch University 澳大利亞)
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述
FUTURE RESEARCH DIRECTIONS值得學習,包括輸入數據的選擇、精度的提高、表現度量、訓練法和數據bias等。

前端

📚點雲與對應圖像的6DOF匹配, 研究人員提出了一種直接匹配RGB圖像特徵和點雲特徵的方法,用於將圖像與對應點雲的位置和位姿進行定位。研究人員構建了數據集來匹配對應數據的2D,3D描述子,並利用他來訓練這種描述子匹配算法。(from University of Western Australia)
分別從圖像和點雲中抽取對應關鍵點和描述子,隨後利用描述子匹配器來將其進行匹配以尋找對應的2D,3D關鍵點對。這種方法對於圖像向點雲的位姿估計和點雲的匹配具備十分魯棒的效果。
在這裏插入圖片描述
匹配的結果:
在這裏插入圖片描述

git

📚基於Retinx和GANs的暗光加強算法, 對於極度暗光條件下的處理研究人員結合了Retinex理論和GAN,將成像視爲照明圖像和反射圖像兩部分,並利用優化方法提升了生成圖像的質量。(from 中科大)
能夠看到這種方法利用了黃色的UNet來提高了環境中的照明條件,並最終生成更加明亮的圖像:
在這裏插入圖片描述
照明和反射的估計結果:
在這裏插入圖片描述
一些暗光加強的結果:
在這裏插入圖片描述
dataset: Converted See-In-the-Dark (CSID)
LoL dataset:https://github.com/daooshee/BMVC2018website/blob/master/index.htmlgithub


📚基於語義分割的通用條形碼二維碼檢測器, (from Moscow Institute of Physics and Technology)
在這裏插入圖片描述
在不一樣數據集上的比較:
在這裏插入圖片描述
dataset:ArTe-Lab 1D Medium Barcode Dataset

web

📚***基於衛星影像的地形滑坡評估, (from MIT)
在這裏插入圖片描述
dataset:SENTINEL-2 IMAGERY DATA


ref:1.2,3算法


Daily Computer Vision Papers

***Connecting Touch and Vision via Cross-Modal Prediction
Authors Yunzhu Li, Jun Yan Zhu, Russ Tedrake, Antonio Torralba
人類使用多種模態感官輸入來感知世界,例如視覺,聽覺和觸覺。在這項工做中,咱們研究了視覺和觸覺之間的交叉模態聯繫。這個跨域建模任務的主要挑戰在於二者之間的顯着尺度差別,而咱們的眼睛馬上感知整個視覺場景,人類在任何給定時刻只能感覺到物體的一個小區域。爲了鏈接視覺和觸覺,咱們引入了從視覺輸入合成合理的觸覺信號的新任務,以及想象咱們如何在給定觸覺數據做爲輸入的狀況下與對象進行交互。爲了實現咱們的目標,咱們首先爲機器人配備視覺和觸覺傳感器,並收集相應視覺和觸覺圖像序列的大規模數據集。爲了縮小規模差距,咱們提出了一種新的條件對抗模型,該模型包含了觸摸的比例和位置信息。人類感知研究代表,咱們的模型能夠從觸覺數據中產生逼真的視覺圖像,反之亦然。最後,咱們提供了關於不一樣系統設計的定性和定量實驗結果,以及可視化咱們模型的學習表示。

Pseudo-LiDAR++: Accurate Depth for 3D Object Detection in Autonomous Driving
Authors Yurong You, Yan Wang, Wei Lun Chao, Divyansh Garg, Geoff Pleiss, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger
在3D中檢測諸如汽車和行人之類的物體在自動駕駛中起着不可或缺的做用。現有方法主要依靠昂貴的LiDAR傳感器來得到準確的深度信息。雖然最近僞LiDAR做爲一種有前景的替代方案被引入,但僅以立體圖像爲基礎的成本要低得多,但仍然存在顯着的性能差距。在本文中,咱們經過改進立體聲深度估計,爲僞LiDAR框架提供了實質性的進步。具體地說,咱們使立體網絡架構和損耗函數更加符合遠距離物體的精確深度估計,這是目前僞LiDAR的主要弱點。此外,咱們探索了利用更便宜但極其稀疏的LiDAR傳感器的想法,這些傳感器單獨提供的信息不足以進行3D檢測,從而影響咱們的深度估算。咱們提出了一種深度傳播算法,在初始深度估計的指導下,在整個深度圖上擴散這些精確的測量值。咱們在KITTI物體檢測基準測試中代表,咱們的組合方法在深度估計和基於立體的3D物體檢測方面取得了實質性的改進,優於遠程物體的先前技術檢測精度40。咱們的代碼將在公開發布

Universal Barcode Detector via Semantic Segmentation
Authors Andrey Zharkov, Ivan Zagaynov
經過語義分割的通用條形碼檢測器

R2D2: Reliable and Repeatable Detectors and Descriptors for Joint Sparse Keypoint Detection and Local Feature Extraction
Authors Jerome Revaud, Philippe Weinzaepfel, C sar De Souza, Noe Pion, Gabriela Csurka, Yohann Cabon, Martin Humenberger
興趣點檢測和局部特徵描述是許多計算機視覺應用中的基本步驟。這些任務的經典方法基於檢測而後描述範例,其中使用單獨的手工方法來首先識別可重複的關鍵點,而後用本地描述符表示它們。利用度量學習損失訓練的神經網絡最近採用了這些技術,側重於在檢測到的關鍵點位置處學習關鍵點檢測和學習描述符的可重複顯着性映射。在這項工做中,咱們認爲顯着區域不必定是歧視性的,所以可能損害描述的性能。此外,咱們聲稱只能在能夠高可信度地執行匹配的區域中學習描述符。所以,咱們建議聯合學習關鍵點檢測和描述以及局部描述符判別性的預測器。這使咱們可以避免模糊區域並致使可靠的關鍵點檢測和描述。咱們的檢測和描述方法,經過自我監督培訓,能夠同時輸出稀疏,可重複和可靠的關鍵點,優於HPatches數據集上的最早進的檢測器和描述符。它還創建了最近發佈的Aachen Day Night本地化數據集的記錄。

A Partially Reversible U-Net for Memory-Efficient Volumetric Image Segmentation
Authors Robin Br gger, Christian F. Baumgartner, Ender Konukoglu
用於分段的3D卷積神經網絡的一個主要缺點是它們的存儲器佔用,這須要在網絡架構中妥協以適應給定的存儲器預算。在RevNet的圖像分類的推進下,咱們提出了一種部分可逆的U Net架構,能夠大幅下降內存消耗。可逆架構容許咱們從後續層的輸出中精確恢復每一個層的輸出,從而無需存儲反向傳播的激活。這緩解了最大的內存瓶頸,並在理論上實現了很是深的3D架構。在BraTS挑戰數據集上,咱們展現了大量的內存節省。咱們進一步代表,釋放的存儲器可用於處理整個視場FOV而不是補丁。因爲部分可逆的架構,增長網絡深度能夠提升分段精度,同時僅增長一小部份內存佔用。

Modality Conversion of Handwritten Patterns by Cross Variational Autoencoders
Authors Taichi Sumi, Brian Kenji Iwana, Hideaki Hayashi, Seiichi Uchida
本研究試圖構建一個能夠將在線和離線手寫字符相互轉換的網絡。建議的網絡由兩個具備共享潛在空間的變分自動編碼器VAE組成。 VAE通過培訓,可同時生成在線和離線手寫拉丁字符。經過這種方式,咱們建立了一個交叉模態VAE Cross VAE。在訓練期間,擬議的跨越VAE被訓練以最小化兩種模態的重建損失,兩種VAE的分佈損失,以及稱爲空間共享損失的新的第三種損失。第三,空間共享損失用於經過計算潛在變量之間的距離來鼓勵模態共享相同的潛在空間。經過所提出的方法,能夠實如今線和離線手寫字符的相互轉換。在本文中,咱們經過定性和定量分析證實了Cross VAE的性能。

A Survey on Deep Learning Architectures for Image-based Depth Reconstruction
Authors Hamid Laga
估計RGB圖像的深度是一個長期存在的問題,計算機視覺,圖形和機器學習社區已經探索了數十年。在本文中,咱們對該領域的最新發展進行了全面的調查。咱們將重點關注使用深度學習技術從一個或多個圖像估計深度的做品。深度學習,加上大型訓練數據集的可用性,完全改變了研究界正在深刻重建問題的方式。在本文中,咱們調查了過去五年中出現的100多個關鍵貢獻,總結了最經常使用的管道,並討論了它們的優勢和侷限性。回顧到目前爲止已取得的成果,咱們還推測將來可能會爲基於學習的深度重建研究帶來什麼。

Copy and Paste: A Simple But Effective Initialization Method for Black-Box Adversarial Attacks
Authors Thomas Brunner, Frederik Diehl, Alois Knoll
已經提出了許多用於生成黑盒子對抗性示例的優化方法,可是沒有詳細考慮初始化所述優化器的方面。咱們證實起點的選擇確實相當重要,並且最早進的攻擊性能取決於它。首先,咱們討論攻擊圖像分類器的起始點的理想屬性,以及如何選擇它們以提升查詢效率。值得注意的是,咱們發現簡單地從其餘圖像複製小補丁是一種有效的策略。在對ImageNet的評估中,咱們代表這種初始化將現有技術邊界攻擊所需的查詢數量減小了81,明顯優於針對目標黑匣子對抗性示例報告的先前結果。

Direct Image to Point Cloud Descriptors Matching for 6-DOF Camera Localization in Dense 3D Point Cloud
Authors Uzair Nadeem, Mohammad A. A. K. Jalwana, Mohammed Bennamoun, Roberto Togneri, Ferdous Sohel
咱們提出了一種新概念,用於直接匹配從RGB圖像中提取的特徵描述符,以及從3D點雲提取的特徵描述符。咱們使用這個概念來定位密集點雲中查詢圖像的相機的位置和方向姿式。咱們生成匹配2D和3D描述符的數據集,並使用它來訓練提出的Descriptor Matcher算法。爲了在點雲中本地化查詢圖像,咱們從查詢圖像中提取2D關鍵點和描述符。而後,描述符匹配器用於經過將2D描述符與預先提取的點雲的3D描述符進行匹配來找到對應的對2D和3D關鍵點。該信息用於穩健的姿式估計算法中以在3D點雲中定位查詢圖像。實驗證實直接匹配2D和3D描述符不只是可行的想法,並且與用於相機姿態定位的其餘現有技術方法相比也實現了競爭準確性。

***MonoLoco: Monocular 3D Pedestrian Localization and Uncertainty Estimation
Authors Lorenzo Bertoni, Sven Kreiss, Alexandre Alahi
咱們從單眼RGB圖像中解決了3D人體定位的根本問題。在輸出點估計的神經網絡的限制的驅動下,咱們經過基於拉普拉斯分佈的損失函數預測置信區間的新神經網絡來解決任務中的模糊性。咱們的架構是一個輕量級的前饋神經網絡,它能夠預測給定2D人體姿式的3D座標。該設計特別適用於小型訓練數據和交叉數據集歸納。咱們的實驗代表,咱們在KITTI和nuScenes數據集上的表現優於最早進的結果,ii甚至超越了遠方行人的立體聲,而且iii估計了有意義的置信區間。咱們進一步分享了對咱們的不肯定性模型的看法,以及有限的觀察和分佈樣本。

Low-light Image Enhancement Algorithm Based on Retinex and Generative Adversarial Network
Authors Yangming Shi, Xiaopo Wu, Ming Zhu
低光圖像加強一般被認爲是圖像處理中的挑戰性任務,尤爲是對於夜間或弱照明的複雜視覺任務。爲了減小低光圖像上的模糊或噪聲,大量論文有助於應用不一樣的技術。使人遺憾的是,他們中的大多數在處理圖像的極差照明部分或在實踐中測試時幾乎沒有用處。在這項工做中,做者提出了一種基於Retinex理論和生成對抗網絡GAN處理低光圖像的新方法,GAN由用於將圖像分紅照明圖像和反射圖像的分解部分組成,以及用於生成的加強部分高品質的形象。指望這種辨別網絡使得生成的圖像更清晰。在Converted See In the Dark CSID數據集的基礎上,在不一樣光照強度的狀況下實現了實驗耦合,取得了使人滿意的結果,超出了預期,鼓勵了做者。總之,所提出的基於GAN的網絡和在這項工做中使用的Retinex理論已被證實在處理低光圖像加強問題方面是有效的,這將有利於圖像處理,毫無疑問。

Utilizing the Instability in Weakly Supervised Object Detection
Authors Yan Gao, Boxiao Liu, Nan Guo, Xiaochun Ye, Fang Wan, Haihang You, Dongrui Fan
弱監督對象檢測WSOD專一於僅具備圖像級別註釋的訓練對象檢測器,而且因爲監督和目標之間的差距而具備挑戰性。大多數現有方法將WSOD建模爲多實例學習MIL問題。然而,咱們觀察到基於MIL的檢測器的結果是不穩定的,即,當使用不一樣的初始化時,最有信心的邊界框顯着改變。咱們經過引入衡量它的度量來定量地證實不穩定性,並根據經驗分析不穩定的緣由。儘管不穩定性彷佛對檢測任務有害,但咱們認爲它能夠經過融合不一樣初始化檢測器的結果來改善性能。爲了實現這個想法,咱們提出了一個具備多個檢測分支的端到端框架,並引入了一個簡單的融合策略。咱們進一步提出了一種正交初始化方法來增長檢測分支之間的差別。經過利用不穩定性,咱們在具備挑戰性的PASCAL VOC 2007和2012數據集上實現了52.6和48.0 mAP,這兩個數據集都是新的藝術狀態。

Towards End-to-End Text Spotting in Natural Scenes
Authors Hui Li, Peng Wang, Chunhua Shen
天然場景圖像中的文本定位對於許多圖像理解任務很是重要。它包括兩個子任務文本檢測和識別。在這項工做中,咱們提出了一個統一的網絡,經過單個前向傳遞同時本地化和識別文本,避免中間過程,如圖像裁剪和特徵從新計算,單詞分離和字符分組。

Fusion vectors: Embedding Graph Fusions for Efficient Unsupervised Rank Aggregation
Authors Icaro Cavalcante Dourado, Ricardo da Silva Torres
近年來,數字內容的數量和複雜性的大量增長引發了對特設檢索系統的普遍關注。互補的是,異構數據源和檢索模型的存在刺激了日益巧妙和有效的秩聚合函數的激增。儘管最近提出的等級聚合函數在有效性方面是有但願的,但該領域的現有提議一般忽略了效率方面。咱們提出了一種創新的秩聚合函數,該函數是無監督的,本質上是多模態的,而且針對快速檢索和最高效性能。咱們介紹了基於圖的秩聚合表示模型的嵌入和索引的概念,以及它們在搜索任務中的應用。還提出了用於基於圖的秩表示的嵌入公式。咱們引入了融合向量的概念,即基於秩的對象的後期融合表示,從中定義了內在秩聚合檢索模型。接下來,咱們提出了一種基於融合向量的快速檢索方法,從而推廣了一種有效的秩聚合系統。咱們的方法在最早進的相關工做中呈現出最高效的表現,同時帶來了多模態和有效性的新穎方面。在所考慮的全部數據集中,針對最近的基線實現了一致的加速。

Divide and Conquer the Embedding Space for Metric Learning
Authors Artsiom Sanakoyeu, Vadim Tschernezki, Uta B chler, Bj rn Ommer
學習嵌入空間,其中語義類似的對象靠近在一塊兒,不一樣的對象相隔很遠,是許多計算機視覺應用的基石。現有方法一般在嵌入空間中學習用於全部可用數據點的單個度量,其可具備很是複雜的非均勻分佈,其中對象之間具備不一樣的類似性概念,例如,外觀,形狀,顏色或語義。學習單個距離度量的方法一般很難編碼全部不一樣類型的關係,而且不能很好地歸納。在這項工做中,咱們提出了一種新穎易於實現的深度度量學習的分而治之的方法,它顯着改善了度量學習的藝術性能。咱們的方法經過將嵌入空間和數據共同分紅K個較小的子問題來更有效地利用嵌入空間。它將數據和嵌入空間分紅K個子集,並在嵌入空間的非重疊子空間中學習K個單獨的距離度量,由神經網絡的嵌入層中的神經元組定義。所提出的方法提升了收斂速度並改善了泛化,由於與原始子問題相比,每一個子問題的複雜性下降了。咱們代表,咱們的方法在CUB200 2011,CARS196,斯坦福在線產品,店鋪服裝和PKU VehicleID數據集中的檢索,聚類和從新識別任務方面都大大超過了現有技術水平。

***Image Captioning: Transforming Objects into Words
Authors Simao Herdade, Armin Kappeler, Kofi Boakye, Joao Soares
圖像字幕模型一般遵循編碼器解碼器架構,其使用抽象圖像特徵向量做爲編碼器的輸入。最成功的算法之一使用從對象檢測器得到的區域提議中提取的特徵向量。在這項工做中,咱們介紹了對象關係變換器,它創建在這種方法的基礎上,經過幾何注意顯式地結合有關輸入檢測對象之間的空間關係的信息。定量和定性結果證實了這種幾何注意對圖像字幕的重要性,從而改進了MS COCO數據集上全部常見的字幕指標。

Temporal Transformer Networks: Joint Learning of Invariant and Discriminative Time Warping
Authors Suhas Lohit, Qiao Wang, Pavan Turaga
許多時間序列分類問題涉及開發對時間錯位不變的度量。在人類活動分析中,因爲各類緣由(包括不一樣的初始階段,傳感器採樣率和因爲受試者特定的生物力學致使的彈性時間扭曲)而出現時間錯位。該領域的過去工做僅考慮經過彈性時間對準減小類內變異性。在本文中,咱們提出了一種基於混合模型和數據驅動的方法來學習翹曲函數,這不只能夠減小類內變異,還能夠增長類間分離。咱們稱之爲時態變壓器網絡TTN。 TTN是一個可解釋的可區分模塊,能夠輕鬆集成到分類網絡的前端。該模塊可以經過生成輸入相關的變形函數來減小類內方差,這致使速率穩健的表示。同時,它經過學習更具辨別力的變形函數來增長類間方差。咱們使用所提出的框架,在具備挑戰性的數據集上的3D動做識別中展現了對強基線的改進。當訓練集較小時,這些改進尤爲明顯。

Cross-View Policy Learning for Street Navigation
Authors Ang Li, Huiyi Hu, Piotr Mirowski, Mehrdad Farajtabar
在不熟悉的環境中從視覺觀察導航的能力是智能代理的核心組成部分,也是Deep Reinforcement Learning RL的持續挑戰。街景視圖能夠成爲這類RL代理商的合理測試平臺,由於它能夠在地面提供真實世界的攝影圖像,具備多樣的街道外觀,它已被製做成一個名爲StreetLearn的交互式環境,用於導航研究。然而,目標驅動的街道導航代理到目前爲止尚未可以在沒有大量再訓練的狀況下轉移到看不見的區域,而且依靠模擬不是可擴展的解決方案。因爲航拍圖像易於全球訪問,咱們建議在地面和航拍視圖上訓練多模態政策,而後利用鳥瞰圖觀察將地面視圖政策轉移到城市中看不見的目標部分。咱們的核心思想是將地面視圖與鳥瞰圖配對,並學習可跨視圖轉換的聯合策略。咱們經過爲兩個視圖學習相似的嵌入空間,跨視圖提取策略並刪除視覺模式來實現這一目標。咱們進一步將轉移學習範式從新劃分爲三個階段1交叉模式訓練,當代理人最初在多個城市區域進行訓練時,2個鳥瞰圖僅適應新區域,當代理人僅使用容易適應的區域時當代理人在看不見的地面視圖上的導航任務上進行測試,沒有航拍圖像時,可得到的鳥瞰圖和3個地面視圖僅傳輸。實驗結果代表,所提出的交叉視圖策略學習可以更好地推廣代理,並容許更有效地轉移到看不見的環境。

Unsupervised Video Interpolation Using Cycle Consistency
Authors Fitsum A. Reda, Deqing Sun, Aysegul Dundar, Mohammad Shoeybi, Guilin Liu, Kevin J. Shih, Andrew Tao, Jan Kautz, Bryan Catanzaro
學習經過插值來合成高幀率視頻須要大量的高幀率訓練視頻,然而這些視頻不多,特別是在高分辨率時。在這裏,咱們提出了無監督技術,使用週期一致性直接從低幀率視頻合成高幀率視頻。對於連續幀的三元組,咱們優化模型以最小化中心幀與其週期重建之間的差別,其經過從內插中間幀內插回來得到。這種簡單的無監督約束單獨實現了與使用地面實際中間幀的監督至關的結果。咱們進一步引入僞監督損失項,其強制內插幀與預訓練插值模型的預測一致。僞監督損失項與循環一致性一塊兒使用,能夠有效地使預訓練模型適應新的目標域。因爲沒有額外的數據和徹底無監督的方式,咱們的技術顯着改善了新目標域上的預訓練模型,在慢流上將PSNR值從32.84dB增長到33.05dB,在Sintel評估數據集上從31.82dB增長到32.53dB。

Hallucinating Bag-of-Words and Fisher Vector IDT terms for CNN-based Action Recognition
Authors Lei Wang, Piotr Koniusz, Du Q. Huynh
在本文中,咱們從新使用舊式手工製做的視頻表示,並經過基於CNN的幻覺步驟爲這些技術注入新的活力。具體來講,咱們經過在大規模Kinetics 400數據集上預訓練的I3D網絡解決視頻中的動做分類問題。儘管使用了RGB和光學流幀,但I3D模型在將其輸出與改進的密集軌跡IDT相結合而且經過其經過Bag of Words BoW和Fisher Vectors FV編碼的低級視頻描述符中提取時蓬勃發展。因爲各類預處理步驟,描述符提取,編碼和模型的微調,這種CNN和手工製做的表示的融合是耗時的。在本文中,咱們提出了一個端到端的可訓練網絡,其中的流在訓練階段學習基於IDT的BoW FV表示,而且易於與I3D模型集成。具體來講,每一個流在最後一個1D轉換以前採用I3D特徵映射。圖層並學習將這些地圖轉換爲BoW FV表示。所以,咱們加強的I3D模型能夠在測試階段產生幻覺並使用這種合成的BoW FV表示。咱們在三個公開可用的數據集上展現了咱們模型的簡單實用性,並展現了最早進的結果。

Stand-Alone Self-Attention in Vision Models
Authors Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, Jonathon Shlens
卷積是現代計算機視覺系統的基本組成部分。最近的方法主張超越卷積以捕獲長程依賴性。這些努力的重點是經過基於內容的交互來加強卷積模型,例如自我關注和非本地手段,以實現許多願景任務的收益。出現的天然問題是,注意力是否能夠成爲視覺模型的獨立原語,而不只僅是在卷積之上的加強。在開發和測試純自我關注視覺模型時,咱們驗證自我關注確實能夠成爲一個有效的獨立層。使用應用於ResNet模型的自我注意力替換全部空間卷積實例的簡單過程產生徹底自我注意模型,其在ImageNet分類上優於基線,減小12個FLOPS和29個參數。在COCO對象檢測中,純自我關注模型與基線RetinaNet的mAP匹配,同時具備少39個FLOPS和34個較少的參數。詳細的消融研究代表,當在後面的層中使用時,自我注意力尤爲有影響力。這些結果證實,獨立自我關注是視力實踐者工具箱的重要補充。

Dynamic PET cardiac and parametric image reconstruction: a fixed-point proximity gradient approach using patch-based DCT and tensor SVD regularization
Authors Ida H ggstr m, Yizun Lin, Si Li, Andrzej Krol, Yuesheng Xu, C. Ross Schmidtlein
咱們的目標是經過改進的圖像重建來提升動態正電子發射斷層掃描PET攝取圖像的視覺質量和定量準確性,使用包含2D空間1D時間3DT信息的複雜稀疏懲罰模型。咱們開發了兩種新的3DT PET重建算法,結合了基於離散餘弦變換DCT w補片和張量核範數TNN w補丁的不一樣時間和空間懲罰,而且逐幀方法比較傳統的2D有序子集指望最大化OSEM後濾波和2D DCT和2D TNN。模擬並重建具備動力學攝取2組織模型和移動3DT心肺模型的3DT腦模型。對於心肺模型,重建了另外的心臟門控2D OSEM組。研究告終構類似性指數SSIM和相對均方根偏差rRMSE相對地面實況。經過區域生長髮現圖像導出的心肺圖像的左心室LV容積,並計算腦模型的參數圖像。對於心肺模型,3DT TNN產生最佳圖像,3DT DCT最適合腦模型。與心臟門控2D OSEM和2D OSEM相比,3DT TNN圖像的最佳LV體積平均接近真實值11和55個百分點。與2D OSEM相比,基於3DT DCT圖像的參數圖像一般具備更小的誤差和更高的SSIM。咱們的新方法結合了2D空間和1D時間懲罰,產生了比傳統2D方法更高質量的動態PET圖像,須要後置濾波。同時捕獲呼吸和心臟運動,須要呼吸或心臟門控。 LV體積恢復得更好,隨後擬合的參數圖像一般誤差較小且質量較高。

Learning Instance Occlusion for Panoptic Segmentation
Authors Justin Lazarow, Kwonjoon Lee, Zhuowen Tu
最近,視覺社區對先前稱爲圖像解析的全景分割工做表現出了新的興趣。雖然在實例和語義分割任務中分別進行了大量的進展,可是全景分割意味着在單個輸出中知道可數事物和語義事物。一種常見的方法涉及各個實例和語義分段提議的融合,可是,該方法沒有明確地解決從單個輸出中的實例分割到非重疊放置的跳轉,而且常常不能充分地佈置重疊實例。咱們建議對Mask R CNN框架進行直接擴展,該框架的任務是解析兩個實例掩碼應如何在融合輸出中做爲二元關係彼此重疊。咱們展現了總體全景質量PQ的競爭性增加以及標準全景細分基準測試事物部分的特殊收益,與具備可比架構的方法相比達到了最新水平。

Semantics to Space(S2S): Embedding semantics into spatial space for zero-shot verb-object query inferencing
Authors Sungmin Eum, Heesung Kwon
咱們提出了一種新的深度零鏡頭學習ZSL模型,用於推理人類對象與動詞對象VO查詢的交互。雖然先前的ZSL方法僅使用語義文本信息來饋送到查詢流中,但咱們也試圖將語義合併並嵌入到視覺表示流中。咱們的方法由Semantics to Space S2S架構提供支持,其中從駐留對象派生的語義嵌入到空間空間中。該架構容許共同捕獲人和對象的語義屬性以及它們的位置大小輪廓信息。因爲這是第一次嘗試用VO查詢解決零鏡頭人體對象交互推理,咱們構建了一個新的數據集,Verb Transferability 60 VT60。 VT60提供60種不一樣的VO對,其重疊動詞專爲經過VO查詢測試ZSL方法而量身定製。實驗評估代表,咱們的方法不只優於現有技術水平,並且還代表不管使用哪一種ZSL基線架構,都能始終如一地提升性能。

IntrinSeqNet: Learning to Estimate the Reflectance from Varying Illumination
Authors Gr goire Nieto, Mohammad Rouhani, Philippe Robert
固有圖像分解基於其反射和陰影份量描述圖像。在本文中,咱們解決了在各類照明下從固定視點捕獲的一系列圖像估計漫反射率的問題。爲此,咱們提出了一種深度學習方法,以免對反射率先驗的啓發式和強假設。咱們比較了兩個網絡架構,一個經典的U形卷積神經網絡CNN和一個由卷積門控循環單元CGRU組成的遞歸神經網絡RNN。咱們在一個專門爲序列內在分解任務設計的新數據集上訓練咱們的網絡。咱們在MIT和BigTime數據集上測試咱們的網絡,而且在質量和數量上都優於最早進的算法。

Can generalised relative pose estimation solve sparse 3D registration?
Authors Siddhant Ranade, Xin Yu, Shantnu Kakkar, Pedro Miraldo, Srikumar Ramalingam
流行的3D掃描註冊項目,如斯坦福數字米開朗基羅或KinectFusion,利用高分辨率傳感器數據進行掃描對齊。在沒有RGB份量的狀況下解決稀疏3D掃描的配準尤爲具備挑戰性。在這種狀況下,咱們沒法創建點對應,由於在兩次連續掃描中沒法捕獲相同的3D點。與基於對應的方法相比,咱們採用不一樣的視點,並基於來自相鄰掃描的線段的交叉點的約束來制定稀疏3D配準問題。咱們經過將每一個水平和垂直掃描線建模爲分段線性段來得到線段。咱們提出了一種新的交替投影算法,用於使用線交叉約束來解決掃描對齊問題。咱們開發了兩個新的最小解算器,用於在存在平面對應的狀況下進行掃描對準:1個線交叉和1個平面對應,以及2個1線交叉和2個平面對應。咱們在Kinect和LiDAR數據集上的表現優於其餘競爭方法。

Joint Concept Matching-Space Projection Learning for Zero-Shot Recognition
Authors Wen Tang, Ashkan Panahi, Hamid Krim
零射擊學習ZSL已被普遍研究並在機器學習中取得了巨大成功,其目的是經過僅對所見對象類進行訓練來識別看不見的對象類。大多數現有的ZSL方法一般用於學習視覺特徵空間和語義空間之間的投影函數,而且主要遭受投影域移位問題,由於在看到的和看不見的類之間一般存在大的域間隙。在本文中,咱們提出了一種新的概括ZSL模型,該模型基於視覺和語義特徵將項目劃分爲具備類特定知識的共同的不一樣潛在空間,並經過這種不一樣的公共空間重建視覺和語義特徵,以縮小域移位間隙。咱們證實了潛在空間的全部這些約束,類特定知識,特徵重建及其組合加強了對投影域移位問題的魯棒性,並提升了對看不見的對象類的泛化能力。對四個基準數據集的綜合實驗代表,咱們提出的方法優於現有算法。

***TensorNetwork for Machine Learning
Authors Stavros Efthymiou, Jack Hidary, Stefan Leichenauer
咱們使用TensorNetwork開源庫演示了使用張量網絡進行圖像分類。咱們詳細解釋了圖像數據到矩陣產品狀態形式的編碼,並描述瞭如何以可並行化的方式收縮網絡,而且很是適合自動梯度進行優化。將該技術應用於MNIST和Fashion MNIST數據集,咱們分別使用相同的張量網絡架構發現了98和88精度的開箱即用性能。 TensorNetwork庫容許咱們從CPU到GPU硬件無縫移動,咱們發現使用GPU計算速度提升了10倍以上。http://www.tensornetworktheory.org/,https://www.zhihu.com/question/54786880

A Signal Propagation Perspective for Pruning Neural Networks at Initialization
Authors Namhoon Lee, Thalaiyasingam Ajanthan, Stephen Gould, Philip H. S. Torr
網絡修剪是壓縮深度神經網絡的有前途的途徑。修剪的典型方法首先是訓練模型並刪除沒必要要的參數,同時儘可能減小對學習內容的影響。或者,最近的方法代表,修剪能夠在訓練以前的初始化時完成。然而,仍然不清楚爲何修剪未經訓練的,隨機初始化的神經網絡是有效的。在這項工做中,咱們從信號傳播的角度考慮修剪問題,正式表徵確保整個網絡中忠實信號傳播的初始化條件。基於網絡輸入輸出雅可比的奇異值,咱們發現正交初始化與其餘初始化方案相比可以實現更忠實的信號傳播,從而加強了對一系列現代架構和數據集的修剪結果。此外,咱們經過實證研究了初始化時修剪監督的效果,並代表一般無監督修剪能夠像監督修剪同樣有效。此外,咱們證實了咱們的信號傳播視角與無監督修剪相結合,確實能夠用於將修剪應用於非標準任意設計架構的各類場景。

Video-Driven Speech Reconstruction using Generative Adversarial Networks
Authors Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic
言語是一種依賴於音頻和視覺信息的通訊手段。缺少一種方式每每會致使信息的混亂或誤解。在本文中,咱們提出了一種端到端時間模型,可以直接從靜音視頻合成音頻,而無需轉換到中間特徵和從中間特徵轉換。咱們提出的基於GAN的方法可以產生與視頻同步的天然發聲,可理解的語音。咱們的模型的性能在GRID數據集上針對說話者相關和獨立於說話者的場景進行評估。據咱們所知,這是第一種將視頻直接映射到原始音頻的方法,也是第一種在之前看不見的揚聲器上進行測試時產生可理解語音的方法。咱們不只根據聲音質量並且還根據口語單詞的準確性來評估合成音頻。

Deep neural network for fringe pattern filtering and normalisation
Authors Alan Reyes Figueroa, Mariano Rivera
咱們提出了一個處理Fringe Patterns FP的新框架。咱們的新方法創建在如下假設的基礎上:若是提供了足夠多的損壞和清理的FP,則能夠經過深度神經網絡學習FP的去噪和歸一化。儘管在文獻中已經報道了相似的提議,可是咱們提出了對衆所周知的深度神經網絡結構的改進,其在穩定性和可重複性方面產生高質量的結果。咱們在各類狀況下測試了咱們的方法的性能,這些FPs被不一樣程度的噪聲破壞,而且被不一樣的噪聲分佈破壞。咱們將咱們的方法與其餘最早進的方法進行比較。合成數據和實際數據的實驗結果證實了這種處理干涉圖的新範例的能力和潛力。咱們但願咱們的工做可以推進這方面更復雜的發展。

Efficient N-Dimensional Convolutions via Higher-Order Factorization
Authors Jean Kossaifi, Adrian Bulat, Yannis Panagakis, Maja Pantic
隨着深度卷積神經網絡的空前成功,尋求培訓始終是更深層次的網絡。然而,雖然更深刻的神經網絡在適當訓練時提供更好的性能,但該深度也轉化爲存儲器和計算重型模型,一般具備數千萬個參數。已經提出了幾種方法來利用網絡中的冗餘來減輕這種複雜性。預訓練的網絡被壓縮,例如,使用低秩張量分解,或直接修改網絡的體系結構以使其更有效。在本文中,咱們在張量分解的鏡頭下,在統一的框架中研究這兩種方法。咱們展現了應用於卷積核的張量分解如何與諸如MobileNet的有效架構相關。此外,咱們提出了一種基於張量的有效高階卷積方法,可用做N維卷積的插件替換。對於2D和3D卷積網絡,咱們在理論和經驗上證實了它們對於圖像分類的有利特性。

Global and Local Interpretability for Cardiac MRI Classification
Authors James R. Clough, Ilkay Oksuz, Esther Puyol Anton, Bram Ruijsink, Andrew P. King, Julia A. Schnabel
用於對醫學圖像進行分類的深度學習方法已經在普遍的任務中表現出使人印象深入的準確性,可是這些模型一般難以解釋,限制了它們在臨牀實踐中的適用性。在這項工做中,咱們引入了卷積神經網絡模型,用於識別心臟MR分割的時間序列中的疾病,其能夠根據臨牀上熟悉的測量來解釋。該模型基於變分自動編碼器,將輸入減小到發生分類的低維潛在空間。而後,咱們使用最近開發的概念激活矢量技術來關聯具備診斷意義的概念,例如。臨牀生物標誌物,如左心室射血分數低至潛伏空間中的某些載體。而後經過觀察由這些矢量方向上的潛在空間中的插值產生的圖像域的變化來定性地檢查這些概念。結果,當模型對圖像進行分類時,它還可以提供與該分類相關的天然可解釋的概念,並在圖像域中展現這些概念的含義。咱們的方法在英國生物銀行心臟MRI數據集上獲得證明,咱們在其中檢測冠狀動脈疾病的存在。

Dense Deformation Network for High Resolution Tissue Cleared Image Registration
Authors Abdullah Nazib, Clinton Fookes, Dimitri Perrin
最近深度學習在醫學圖像分析的各個領域的應用帶來了極好的性能提高。深度學習技術在醫學圖像配準中的應用在註冊時間和準確性方面均優於傳統的基於優化的註冊算法。在本文中,咱們提出了一種密集鏈接的卷積結構,用於可變形圖像配準。網絡的訓練是無人監督的,而且不須要地面實況變形或任何合成變形做爲標籤。所提出的架構分別在兩種不一樣版本的組織清除數據,10和25分辨率的高分辨率數據集上進行訓練和測試,而且證實了與現有技術ANTS配準方法至關的配準性能。該方法還與基於深度學習的Voxelmorph配準方法進行了比較。因爲存儲器限制,原始體素模型能夠在組織清除數據的最多15分辨率下工做。爲了進行嚴格的實驗比較,咱們開發了基於貼片的Voxelmorph網絡版本,並以10和25分辨率對其進行了訓練。在這兩種分辨率中,所提出的DenseDeformation網絡在配準精度方面優於Voxelmorph。

Landslide Geohazard Assessment With Convolutional Neural Networks Using Sentinel-2 Imagery Data
Authors Silvia L. Ullo, Maximillian S. Langenkamp, Tuomas P. Oikarinen, Maria P. Del Rosso, Alessandro Sebastianelli, Federica Piccirillo, Stefania Sica
在本文中,做者旨在將最早進的圖像識別模型與最佳公共衛星圖像相結合,建立一個滑坡風險緩解系統。咱們首先關注滑坡檢測,並進一步提出用於預測的相似系統。這些模型頗有價值,由於隨着衛星圖像的日益普及,它們能夠輕鬆擴展以提供危害評估數據。目標是利用衛星圖像和相關數據來豐富公共數據庫,並指導救災工做,以肯定發生山體滑坡的精確區域。不一樣的圖像加強方法用於增長所選數據集的多樣性並建立更穩健的分類。而後將獲得的輸出饋送到3D D卷積神經網絡的變體中。對當前文獻的回顧代表,沒有研究使用CNNs卷積神經網絡和免費提供的衛星圖像來分類滑坡風險。該模型已證實最終可以實現明顯優於基線精度。

GAN-based Multiple Adjacent Brain MRI Slice Reconstruction for Unsupervised Alzheimer's Disease Diagnosis
Authors Changhee Han, Leonardo Rundo, Kohei Murao, Zolt n d m Milacski, Kazuki Umemoto, Hideki Nakayama, Shin ichi Satoh
利用大規模健康數據集,無監督學習能夠發現各類看不見的疾病而無需任何註釋。爲此,無監督方法重建單個醫學圖像以檢測學習特徵空間中的異常值或高重建損失。然而,在不考慮多個相鄰圖像之間的連續性的狀況下,它們不能直接區分由微小解剖異常的累積組成的疾病,例如阿爾茨海默氏病AD。此外,沒有研究代表無監督異常檢測與疾病階段有何關聯。所以,咱們提出了一種基於生成性對抗網絡的多步鄰腦MRI切片重建檢測不一樣階段AD的兩步法重建Wasserstein損失用梯度懲罰L1損失訓練在3個健康腦MRI片上重建接下來的3個重建看不見的健康AD病例診斷平均最大損失,例如,每次掃描的L2損失區分它們,比較重建的地面實況圖像。結果代表,咱們能夠在很是早期階段可靠地檢測AD,即曲線下面積AUC 0.780,同時還檢測到晚期AD,即AUC 0.917更準確,由於咱們的方法是無監督的,它也應該發現並警告任何異常包括罕見疾病。

Towards Compact and Robust Deep Neural Networks
Authors Vikash Sehwag, Shiqi Wang, Prateek Mittal, Suman Jana
深度神經網絡在許多應用中已經取得了使人印象深入的性能,可是它們的大量參數致使了大量的計算和存儲開銷。最近的一些工做試圖經過使用修剪鏈接來設計緊湊的網絡來減輕這些開銷。可是,咱們觀察到,設計緊湊型網絡的大多數現有策略都沒法保持網絡對抗對抗性示例的魯棒性。在這項工做中,咱們嚴格研究網絡修剪策略的擴展,以保持網絡的良性準確性和穩健性。從修剪程序的正式定義開始,包括預訓練,重量修剪和微調,咱們提出了一種新的修剪方法,能夠建立緊湊的網絡,同時保持良好的準確性和穩健性。咱們的方法基於兩個主要看法1咱們確保預訓練和微調步驟的訓練目標與所需穩健模型的訓練目標相匹配,例如,對抗魯棒性可驗證的魯棒性,2咱們將修剪策略與訓練前不可知和微調目標。咱們在CIFAR 10數據集上的四個不一樣網絡上評估咱們的方法,並測量良性準確性,經驗穩健準確性和可驗證的穩健準確性。咱們證實了咱們的修剪方法能夠保持平均93個良性準確度,92.5經驗魯棒精度和85.0可驗證的魯棒精度,同時將測試網絡壓縮10倍。

Multi Scale Curriculum CNN for Context-Aware Breast MRI Malignancy Classification
Authors Christoph Haarburger, Michael Baumgartner, Daniel Truhn, Mirjam Broeckmann, Hannah Schneider, Simone Schwabing, Christiane Kuhl, Dorit Merhof
乳腺癌和其餘癌症類型的惡性腫瘤的分類一般被解決爲對象檢測問題。首先對個體病變進行定位,而後對惡性腫瘤進行分類。然而,這種方法的缺點在於,包含若干病變的抽象特徵和未標記爲病變但包含全球醫學相關信息的區域所以被忽略,特別是對於動態對比加強乳房MRI,諸如背景實質加強和位置內的位置。乳房對於診斷很重要,不能經過適當的物體檢測方法捕獲。

Model Agnostic Dual Quality Assessment for Adversarial Machine Learning and an Analysis of Current Neural Networks and Defenses
Authors Danilo Vasconcellos Vargas, Shashank Kotyan
在對抗性機器學習中,存在大量各類類型的攻擊,這使得評估新模型和防護的魯棒性成爲一項艱鉅的任務。更糟糕的是,攻擊和防護存在固有的偏見。在這裏,咱們組織面臨模型依賴,評估不充分,不可靠的對抗樣本和擾動依賴結果的問題,並提出雙重質量評估方法以及魯棒性水平的概念來解決它們。咱們驗證了最早進模型WideResNet,ResNet,AllConv,DenseNet,NIN,LeNet和CapsNet的雙重質量評估,以及ICLR 2018提出的當前最難防護以及廣爲人知的對抗性培訓,顯示了當前的模型和防護在各方面的穩健性都很脆弱。此外,咱們代表L 0和L infty攻擊的魯棒性差別很大,所以應該考慮二元性以進行正確的評估。有趣的是,所提出的評估的副產品是一種新穎的L infty黑盒方法,其須要比單像素攻擊更少的擾動,僅一個像素攻擊的擾動量達到相似的結果。所以,本文闡述了魯棒性評估的問題,提出了雙重質量評估來解決它們,並分析了當前模型和防護的魯棒性。但願目前的分析和提出的方法將有助於開發更強大的深度神經網絡和混合動力車。

Speaker-Targeted Audio-Visual Models for Speech Recognition in Cocktail-Party Environments
Authors Guan Lin Chao, William Chan, Ian Lane
雞尾酒會環境中的語音識別仍然是現有技術語音識別系統的重大挑戰,由於從具備類似頻率和時間特性的重疊語音的背景中提取單個說話者的聲學信號是極其困難的。咱們建議使用揚聲器目標聲學和視聽模型來完成這項任務。咱們補充了混合DNN HMM模型中的聲學特徵,其具備目標說話者身份的信息以及來自目標說話者的嘴部區域的視覺特徵。使用從GRID視聽語料庫生成的模擬雞尾酒會數據經過在單個聲道上重疊兩個揚聲器的語音來執行實驗。咱們的僅音頻基線達到了26.3的WER。視聽模型將WER提升到4.4。引入說話人身份信息具備更顯着的效果,將WER提升到3.6。然而,將這兩種方法結合起來並無顯着提升性能。咱們的工做代表,以演講者爲目標的模型能夠顯着改善雞尾酒會環境中的語音識別

Scalable Neural Architecture Search for 3D Medical Image Segmentation
Authors Sungwoong Kim, Ildoo Kim, Sungbin Lim, Woonhyuk Baek, Chiheon Kim, Hyungjoo Cho, Boogeon Yoon, Taesup Kim
本文提出了一種神經結構搜索NAS框架,用於三維醫學圖像分割,從大型設計空間自動優化神經結構。咱們的NAS框架搜索每一層的結構,包括編碼器和解碼器中的神經鏈接和操做類型。因爲高分辨率3D醫學圖像難以在大的離散架構空間上進行優化,所以還提出了一種基於連續鬆弛的新型隨機採樣算法,用於基於可伸縮梯度的優化。在具備基準數據集的3D醫學圖像分割任務中,所提出的NAS框架的自動設計的架構優於人類設計的3D U Net,並且該優化的架構很是適合於被轉移以用於不一樣的任務。

Multigrid Neural Memory
Authors Tri Huynh, Michael Maire, Matthew R. Walter
咱們介紹了一種新的架構,它將大的可尋址存儲空間集成到深度神經網絡的核心功能中。咱們的設計經過許多網絡層分配內存尋址操做和存儲容量。與將神經網絡鏈接到外部存儲體的策略不一樣,咱們的方法是在整個網絡結構中經過計算來定位存儲器。鏡像卷積網絡中的最新架構創新,咱們將內存組織成多分辨率層次結構,其內部鏈接可以學習動態信息路由策略和數據相關的讀寫操做。這種多重網格空間佈局容許參數有效地縮放存儲器大小,容許咱們嘗試比先前工做中的存儲器大得多的存儲器。咱們在合成探索和繪圖任務中展現了這種能力,其中網絡可以自我組織並保留數千個時間步長的軌跡的長期記憶。在與任何空間幾何概念分離的任務上,例如排序或關聯召回,咱們的設計做爲一個真正的通用記憶,併產生與最近提出的可微分神經計算機競爭的結果。

Solving Large-Scale 0-1 Knapsack Problems and its Application to Point Cloud Resampling
Authors Duanshun Li, Jing Liu, Noseong Park, Dongeun Lee, Giridhar Ramachandran, Ali Seyedmazloom, Kookjin Lee, Chen Feng, Vadim Sokolov, Rajesh Ganesan
0 1揹包在計算機科學,商業,運籌學等方面具備根本重要性。在本文中,咱們提出了一種基於深度學習技術的方法來解決大規模0 1揹包問題,其中產品項目數量大或者數值產品不必定是預約的,而是在優化過程當中由外部值分配功能決定的。咱們的解決方案受到拉格朗日乘數法和最近採用博弈論進行深度學習的啓發。在正式定義基於它們的方法以後,咱們開發了一種自適應梯度上升方法來穩定其優化過程。在咱們的實驗中,所提出的方法在一分鐘內解決了全部大規模基準KP實例,而現有方法顯示出波動的運行時間。咱們還代表咱們的方法能夠用於其餘應用程序,包括但不限於點雲重採樣。

Learning to Forget for Meta-Learning
Authors Sungyong Baik, Seokil Hong, Kyoung Mu Lee
不多有鏡頭學習是一個具備挑戰性的問題,須要系統從少數幾個例子來實現泛化。元學習經過學習在任務分佈中共享的先驗知識來解決問題,而後用於快速適應看不見的任務。模型不可知元學習MAML算法將先驗知識公式化爲跨任務的公共初始化。可是,強制共享初始化會致使任務之間發生衝突,從而影響初始化的質量。在這項工做中,經過觀察任務之間和神經網絡層之間的折衷程度不一樣,咱們提出了一種新的初始化思想,它採用依賴於任務的分層衰減,咱們稱之爲選擇性遺忘。所提出的衰減方案動態地控制每層將針對給定任務利用的先驗知識的多少。實驗結果代表,該方法減輕了衝突,並所以提供了出色的性能。咱們進一步代表,所提出的方法,名爲L2F,能夠應用和改進其餘最早進的基於MAML的框架,說明其廣泛性。

Chinese Abs From Machine Translation

Papers from arxiv.org數據庫

更多精彩請移步主頁跨域


在這裏插入圖片描述
pic from pexels.com網絡

相關文章
相關標籤/搜索