今日CS.CV 計算機視覺論文速覽
Mon, 10 Jun 2019
Totally 38 papers
👉上期速覽 ✈更多精彩請移步主頁ios
📚遮擋區域語義分割, 研究人員將語義分割模型拓展到了看不見的區域上,爲遮擋物體也提出了有效的語義分割。將前景和背景分開, 按照分組的方式進行分割,在不增長網絡尺寸的狀況下能夠經過改造的交叉熵來實現有效分割。(from 阿德萊德大學 澳大利亞)
通常語義分割與分組語義分割,能夠將遮擋的部分背景有效分解出來:
分組語義分割的例子:
在標準語義分割的基礎上增長了2(M+1)個分組(M 爲分組數,N爲類別數):
結果以下所示,能夠看到不一樣組別的分類和每一組內各自的分類:
ref:https://github.com/shurans/SUNCGtoolbox
https://shurans.github.io/
dataset:SUNCG
git
📚無人機用於環境和場景檢測, UAV和多種相機結合實現對於不一樣做物的檢測能夠實現分類、計數、檢測、產量預測、病蟲害防治等,這篇文章總結了無人機在各個方面的應用和研究,將爲智能農場提供新的思路。(from Kingston University, UK)github
基於UAV的做物分類:
基於UAV的生產預測:
種植面積和害蟲檢測:
養分和病害檢測:
web
📚 coherent point drift networks,CPD-Net用於非剛體的配準網絡, 傳統的點雲配準方法須要搜索一個集合變換來將源於目標配準,但十分耗時。這篇論文提出樂意一種非監督學習的方法能夠將實現非剛體點集的實時變換配準,它能夠從訓練數據中學習到一個位移場函數來估計幾何變換,並可以預測位置物體間配準的幾何變換。並可以適用於任意函數來對不一樣複雜度的物體進行幾何變換與配準,並能夠保證連續位移矢量函數來進行配準。(from 紐約大學)
學習描述子 & 學習位移量:
一些實驗結果:
code:https://github.com/Lingjing324/CPD-Net
dataset:4.1. Experimental Dataset
算法
📚AutoGrow, 自動深度探索拓展的網絡,從淺層架構開始不斷根據模型表現拓展架構,經過通用增加和中止策略來最小化人類的介入,能夠發現發現有效的網絡深度並實現最優的效果。能夠有效減小計算和搜索時間,局小於深度發現效率,能夠拓展到大規模數據集上。(from 杜克大學)
隨着訓練不斷增加的網絡模型:
code:https://github.com/wenwei202/autogrow
數據庫
📚基於點標記的細胞分割方法,弱監督方法, (from Lunit Inc., Seoul, South Korea)
api
📚自動駕駛汽車重點技術綜述, (from https://www.webofknowledge.com)
安全
📚多模態端到端自動駕駛, (from Univ. Autonoma de Barcelona (UAB).)
網絡架構:
網絡
📚多主體檢測與跟蹤方法, (from University of Leicester, United Kingdom)
架構
Evolving Losses for Unlabeled Video Representation Learning Authors AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo 咱們提出了一種從未標記數據中學習視頻表示的新方法。給定大規模未標記的視頻數據,目標是經過學習能夠直接用於新任務(例如零次射擊學習)的通用且可轉移的表示空間來從這樣的數據中受益。咱們將無監督表示學習表示爲多模態,多任務學習問題,其中表示也經過蒸餾在不一樣模態中共享。此外,咱們還介紹了使用進化算法找到更好的損失函數來訓練這樣的多任務多模態表示空間的概念,咱們的方法自動搜索捕獲多個自監督任務和模態的損失函數的不一樣組合。咱們的公式容許將音頻,光流和時間信息提高到單個基於RGB的卷積神經網絡中。咱們還比較了使用其餘未標記視頻數據的效果,並評估了咱們在標準公共視頻數據集上的表示學習。 |
**Extracting Visual Knowledge from the Internet: Making Sense of Image Data Authors Yazhou Yao, Jian Zhang, Xiansheng Hua, Fumin Shen, Zhenmin Tang 最近在視覺識別方面的成功主要歸功於特徵表示,學習算法以及標記的訓練數據的不斷增長的大小。對前兩個問題進行了普遍的研究,但對第三個問題的關注卻少得多。因爲手動標籤的高成本,ImageNet等近期工做的規模在平常應用方面仍然相對較小。在這項工做中,咱們主要關注如何大規模自動生成給定視覺概念的識別圖像數據。利用生成的圖像數據,咱們能夠爲給定的概念訓練強大的識別模型。咱們在基準Pascal VOC 2007數據集上評估了提議的webly監督方法,結果證實了咱們提出的方法在圖像數據收集中的優越性。 |
****Multimodal End-to-End Autonomous Driving Authors Yi Xiao, Felipe Codevilla, Akhil Gurram, Onay Urfalioglu, Antonio M. L pez 自動駕駛汽車AV是將來智能移動的關鍵。 AV的一個關鍵組成部分是人工智能AI可以驅動到所需的目的地。今天,有不一樣的範例來解決AI驅動程序的開發問題。一方面,咱們發現模塊化管道,將驅動任務劃分爲子任務,如感知對象檢測,語義分割,深度估計,跟蹤和機動控制局部路徑規劃和控制。另外一方面,咱們發現端到端駕駛方法試圖學習從輸入原始傳感器數據到車輛控制信號的轉向角度的直接映射。後者的研究相對較少,但因爲它們在傳感器數據註釋方面要求較低,所以愈來愈受歡迎。本文重點介紹端到端的自動駕駛。到目前爲止,大多數依賴於此範例的提案都假設RGB圖像做爲輸入傳感器數據。然而,AV不只僅配備攝像機,並且還配備有源傳感器,提供傳統LiDAR或新固態激光器的精確深度信息。所以,本文分析RGB和深度數據RGBD數據是否實際上能夠做爲多模式端到端驅動方法中的補充信息,從而產生更好的AI驅動程序。使用CARLA模擬器功能,標準基準測試和條件模仿學習CIL,咱們將展現RGBD是如何產生更成功的端到端AI驅動程序的。咱們將經過早期,中期和晚期融合方案比較RGBD信息的使用,包括多感受和單傳感器單眼深度估計設置。 |
Ego-Pose Estimation and Forecasting as Real-Time PD Control Authors Ye Yuan, Kris Kitani 咱們建議使用經過強化學習RL學習的基於比例導數PD控制的策略來估計和預測來自自我中心視頻的3D人體姿式。該方法直接從未分段的自我中心視頻和由各類複雜的人體運動組成的運動捕捉數據中學習,例如蹲伏,跳躍,彎曲和運動過渡。咱們提出了一種視頻條件反覆控制技術來預測任意長度的物理有效和穩定的將來運動。咱們還介紹了一種基於值函數的故障安全機制,它使咱們的方法可以做爲單通道算法運行在視頻數據上。受控和野外數據的實驗代表,咱們的方法在定量度量和運動的視覺質量方面都優於現有技術,而且足夠強大,能夠直接轉移到現實世界的場景。此外,咱們的時間分析代表,咱們的姿式估計和預測的組合使用能夠在30 FPS下運行,使其適用於實時應用。 |
HPILN: A feature learning framework for cross-modality person re-identification Authors Jian Wu Lin, Hao Li 大多數視頻監控系統都使用RGB和紅外攝像機,這使得它成爲從新識別穿越RGB和紅外模式的人的重要技術。因爲RGB和紅外中的異構圖像引發的交叉模態變化以及由異構人體姿式,相機視圖,光亮度等引發的內部模態變化,這項任務可能具備挑戰性。爲了應對這些挑戰,新的特徵學習框架,HPILN,提出。在該框架中,修改現有的單模態從新識別模型以適應交叉模態場景,以後使用特別設計的硬五重峯丟失和同一性損失來改進修改的交叉模態從新識別模型的性能。基於SYSU MM01數據集的基準,進行了大量實驗,代表所提出的方法在累積匹配特徵曲線CMC和平均平均精度MAP方面優於全部現有方法。 |
Context-driven Active and Incremental Activity Recognition Authors Gabriele Civitarese, Riccardo Presotto, Claudio Bettini 多年來,基於移動設備傳感器數據的人類活動識別一直是移動和普適計算領域的活躍研究領域。雖然所提出的大多數技術基於監督學習,但正在考慮半監督方法以顯着減少初始化識別模型所需的訓練集的大小。這些方法一般採用自我訓練或主動學習來逐步完善模型,但其有效性彷佛僅限於一組有限的身體活動。咱們聲稱圍繞用戶的上下文,例如語義位置,與運輸路線的接近度,一天中的時間以及關於該上下文與人類活動之間的關係的常識,能夠有效地顯着增長已識別的活動集合,包括那些難以區分僅考慮慣性傳感器,以及高度依賴於環境的傳感器。在本文中,咱們提出了CAVIAR,一種用於實時活動識別的新型混合半監督和基於知識的系統。咱們的方法將語義推理應用於上下文數據以細化半監督分類器的預測。上下文細化的預測被用做新的標記樣本以更新結合自我訓練和主動學習技術的分類器。從26個受試者得到的真實數據集上的結果顯示了情境感知方法對識別率和由主動學習模塊生成的對象的查詢數量的有效性。爲了評估上下文推理的影響,咱們還將CAVIAR與純統計版本進行比較,考慮在上下文數據上計算的特徵做爲機器學習過程的一部分。 |
Visual Person Understanding through Multi-Task and Multi-Dataset Learning Authors Kilian Pfeiffer, Alexander Hermans, Istv n S r ndi, Mark Weber, Bastian Leibe 咱們解決了學習用於人物識別,屬性分類,身體部位分割和姿式估計的單個模型的問題。經過對這些任務的預測,咱們能夠更全面地瞭解人,這對許多應用都頗有價值。這是一個經典的多任務學習問題。可是,不存在能夠共同窗習這些任務的數據集。所以,在訓練期間須要組合幾個數據集,這在其餘狀況下常常致使過去的性能下降。咱們普遍評估不一樣任務和數據集如何相互影響,以及任務之間不一樣程度的參數共享如何影響性能。咱們的最終模型匹配或優於其單一任務對應物,而不會產生顯着的計算開銷,使其對於資源受限的場景(如移動機器人)很是有趣。 |
An Artificial Intelligence-Based System for Nutrient Intake Assessment of Hospitalised Patients Authors Ya Lu, Thomai Stathopoulou, Maria F. Vasiloglou, Stergios Christodoulidis, Beat Blum, Thomas Walser, Vinzenz Meier, Zeno Stanga, Stavroula G. Mougiakakou 住院患者的按期養分攝入監測在下降與疾病相關的養分不良DRM的風險中起着關鍵做用。雖然已經開發了幾種估算養分素攝入量的方法,但仍然須要更可靠和全自動化的技術,由於這能夠提升數據準確性並減小參與者的負擔和健康成本。在本文中,咱們提出了一種基於人工智能的新系統,經過簡單處理餐前消費先後捕獲的RGB深度圖像對,準確估計養分攝入量。爲了開發和評估系統,咱們組裝了一個專門的新的322餐圖像和食譜數據庫,並使用創新策略與數據註釋相結合。利用該數據庫,開發了一種採用新型多任務神經網絡和3D表面構造算法的系統。這容許順序語義食物分割和消耗食物量的估計,並容許每種食物類型的養分物攝入的全自動估計具備15估計偏差。 |
Learning Classifier Synthesis for Generalized Few-Shot Learning Authors Han Jia Ye, Hexiang Hu, De Chuan Zhan, Fei Sha 現實世界中的視覺識別須要處理長尾甚至開放式數據。視覺系統的實用性是可靠地識別填充的頭部視覺概念,同時瞭解少數實例的尾部類別。經過學習人口密集類別的強分類器或尾部類別的少數鏡頭分類器,課程平衡了許多鏡頭學習和少許鏡頭學習解決了這個具備挑戰性的問題的一方。在本文中,咱們研究了廣義少數射擊學習的問題,其中頭部和尾部的識別是聯合進行的。咱們提出了一種基於神經詞典的ClAssifier SynThesis LEarning CASTLE方法,除了多類頭分類器以外,還合成校準的尾分類器,同時在全局識別框架中識別頭部和尾部視覺類別。在兩個標準基準數據集MiniImageNet和TieredImageNet上,CASTLE在不一樣的學習場景中表現出了卓越的性能,即許多鏡頭學習,少許鏡頭學習和廣泛的少許鏡頭學習。 |
**PseudoEdgeNet: Nuclei Segmentation only with Point Annotations Authors Inwan Yoo, Donggeun Yoo, Kyunghyun Paeng 細胞核分割是數字病理學中整個載玻片圖像分析的重要任務之一。隨着深度學習的急劇發展,最近的深度網絡已經證實了核分割任務的成功表現。然而,實現良好性能的主要瓶頸是註釋成本。大型網絡須要大量的分段掩碼,這個註釋任務是給病理學家而不是公衆。在本文中,咱們提出了一種弱監督的核分割方法,它只須要點註釋進行訓練。該方法能夠擴展到大的訓練集,由於標記核的點比精細分割掩模便宜得多。爲此,咱們引入了一種名爲PseudoEdgeNet的新型輔助網絡,它引導分割網絡即便沒有邊緣註釋也能識別核邊緣。咱們使用兩個公共數據集評估咱們的方法,結果代表該方法始終優於其餘弱監督方法。 |
**Conditional Neural Style Transfer with Peer-Regularized Feature Transform Authors Jan Svoboda, Asha Anoosheh, Christian Osendorfer, Jonathan Masci 本文介紹了一種神經風格轉移模型,它僅使用描述所需風格的一組示例來有條件地生成風格化圖像。即便在零鏡頭設置中,所提出的解決方案也能產生高質量的圖像,而且容許更改內容幾何形狀的更大自由度。這要歸功於一種新穎的同行規則化層的引入,該層經過自定義圖形卷積層在潛在空間中重構風格,旨在分離風格和內容。與絕大多數現有解決方案相反,咱們的模型不須要任何預先訓練的網絡來計算感知損失,而且能夠經過一組新的循環損失進行端到端的全面訓練,這些循環損失直接在潛在的狀況下運行 |
NICO: A Dataset Towards Non-I.I.D. Image Classification Authors Yue He, Zheyan Shen, Peng Cui I.I.D.訓練數據和測試數據之間的假設是大量圖像分類方法的基礎。在非IID性很常見的實際狀況下,很難保證這種性質,致使這些模型的性能不穩定。然而,在文獻中,非I.I.D.圖像分類問題在很大程度上未獲得充分研究。一個關鍵緣由是缺少精心設計的數據集來支持相關研究。在本文中,咱們構建併發布了非I.I.D.名爲NICO的圖像數據集,它利用上下文有意識地建立非IID。擴展的實驗結果和分析證實,NICO數據集能夠很好地支持從頭開始訓練ConvNet模型,而且NICO能夠支持各類非I.I.D.與其餘數據集相比具備足夠靈活性的狀況。 |
***Seeing Behind Things: Extending Semantic Segmentation to Occluded Regions Authors Pulak Purkait, Christopher Zach, Ian Reid 因爲深度神經網絡DNN的出現,近年來語義分割和實例級分割取得了實質性進展。提出了許多具備卷積神經網絡CNN的深層架構,它們大大超越了傳統的機器學習方法。這些體系結構經過優化交叉熵損失來預測每一個像素的直接可觀察語義類別。在這項工做中,咱們將語義分割的極限推向預測直接可見以及被遮擋的對象或對象部分的語義標籤,其中網絡的輸入是單個深度圖像。咱們將語義類別分組爲一個背景和多個前景對象組,而且咱們建議修改標準交叉熵損失以應對設置。在咱們的實驗中,咱們證實經過最小化所提出的損失而訓練的CNN可以預測可見和被遮擋的對象部分的語義類別,而不須要與標準分割任務相比增長網絡大小。結果在從SUNCG數據集增長的新生成的數據集上進行驗證。 |
Deep Spherical Quantization for Image Search Authors Sepehr Eghbali, Ladan Tahvildari 利用緊湊離散碼編碼高維圖像的哈希方法已被普遍應用於加強大規模圖像檢索。在本文中,咱們提出了深度球形量化DSQ,這是一種新的方法,使深度卷積神經網絡生成有監督和緊湊的二進制代碼,以實現高效的圖像搜索。咱們的方法同時學習將輸入圖像變換爲低維度判別空間的映射,並使用多碼本量化來量化變換後的數據點。爲了消除範數方差對碼本學習的負面影響,咱們強制網絡L 2對提取的特徵進行歸一化,而後使用專門針對位於單位超球面上的點設計的新的監督量化技術來量化所獲得的矢量。此外,咱們引入了一種易於實現的量化技術擴展,能夠強化碼本的稀疏性。大量實驗證實,DSQ及其稀疏變體能夠生成語義上可分離的緊湊二進制代碼,其在三個基準上優於許多現有技術的圖像檢索方法。 |
Risky Action Recognition in Lane Change Video Clips using Deep Spatiotemporal Networks with Segmentation Mask Transfer Authors Ekim Yurtsever, Yongkang Liu, Jacob Lambert, Chiyomi Miyajima, Eijiro Takeuchi, Kazuya Takeda, John H. L. Hansen 先進的駕駛員輔助和自動駕駛系統依靠風險評估模塊來預測和避免危險狀況。當前的方法使用昂貴的傳感器設置和複雜的處理流程,限制了它們的可用性和穩健性。爲了解決這些問題,咱們引入了一種新穎的基於深度學習的動做識別框架,用於對單眼攝像機捕獲的短視頻片斷中的危險車道變換行爲進行分類。咱們設計了一個深度時空分類網絡,該網絡使用預先訓練的最新實例分割網絡Mask R CNN做爲此任務的空間特徵提取器。所提出方法的長短時間記憶LSTM和較淺的最終分類層在具備註釋風險標籤的半天然變道車道變化數據集上進行訓練。對最早進的特徵提取器進行了全面比較,以找到最佳的網絡佈局和培訓策略。使用所提出的網絡得到了具備0.937 AUC分數的最佳結果。咱們的代碼和訓練有素的模型是開源的。 |
Does Generative Face Completion Help Face Recognition? Authors Joe Mathai, Iacopo Masi, Wael AbdAlmageed 面部遮擋,覆蓋面部的大多數或有辨別力的部分,能夠打破面部感知並致使信息的急劇損失。諸如最近的深度面部識別模型之類的生物識別系統不能免受覆蓋面部部分的障礙物或其餘物體的影響。雖然大多數當前的面部識別方法未被優化以處理遮擋,可是已經有一些嘗試直接在訓練階段中提升魯棒性。與那些不一樣,咱們建議研究生成面部完成對識別的影響。咱們提供了一個面部完成編碼器解碼器,它基於一個帶有門控機制的卷積算子,訓練有大量的面部遮擋。爲了系統地評估真實遮擋對識別的影響,咱們建議玩遮擋遊戲,咱們將3D對象渲染到不一樣的面部,提供有效去除這些遮擋的影響的寶貴知識。野生LFW中標記面的普遍實驗及其更難以改變的LFW BLUFR,證實面部完成可以部分恢復機器視覺系統中的面部感知以提升識別率。 |
Recognizing American Sign Language Manual Signs from RGB-D Videos Authors Longlong Jing, Elahe Vahdani, Matt Huenerfauth, Yingli Tian 在本文中,咱們提出了一種基於3D卷積神經網絡3DCNN的多流框架來識別美國手語ASL手動標誌,包括手的動做,以及在某些狀況下從RGB D視頻實時非手動面部動做,融合多模態功能,包括手勢,面部表情和來自多通道RGB,深度,運動和骨架關節的身體姿式。爲了學習視頻中的總體時間動態,經過爲每一個視頻選擇幀的子集來生成代理視頻,而後將其用於訓練所提出的3DCNN模型。咱們收集了一個新的ASL數據集ASL 100 RGBD,其中包含由Microsoft Kinect V2攝像頭捕獲的42個RGB D視頻,每一個100個ASL手動標誌,包括RGB通道,深度圖,骨架關節,面部特徵和HDface。對於每一個語義區域,即人類簽名者執行的每一個單詞的持續時間,數據集被徹底註釋。咱們提出的方法在咱們新收集的ASL 100 RGBD數據集中識別100個ASL單詞時達到92.88準確度。咱們的框架識別來自RGB D視頻的手勢的有效性在Chalearn IsoGD數據集上獲得了進一步證實,而且經過僅使用5個通道而不是12個通道,在平均融合方面達到了比現有技術工做高5.51的精度。在之前的工做中。 |
**Figure Captioning with Reasoning and Sequence-Level Training Authors Charles Chen, Ruiyi Zhang, Eunyee Koh, Sungchul Kim, Scott Cohen, Tong Yu, Ryan Rossi, Razvan Bunescu 條形圖,餅圖和線圖等數字被普遍用於以簡潔的格式傳達重要信息。它們一般是人性化的,但計算機很難自動處理。在這項工做中,咱們研究了圖形字幕的問題,其目標是自動生成圖形的天然語言描述。雖然已經普遍研究了天然圖像字幕,可是字幕字幕已經受到相對較少的關注而且仍然是一個具備挑戰性的問題。首先,咱們基於FigureQA爲圖形字幕引入了一個新的數據集FigCAP。其次,咱們提出了兩種新穎的注意機制。爲了在圖中準確生成標籤,咱們建議標籤圖注意。爲了模擬圖形標籤之間的關係,咱們提出了關係圖注意。第三,咱們使用強化學習的序列級訓練,以直接優化評估指標,從而減輕暴露誤差問題,並進一步改進生成長字幕的模型。大量實驗代表,所提出的方法優於基線,從而證實了大量數據庫自動標題的巨大潛力。 |
Multi-scale guided attention for medical image segmentation Authors Ashish Sinha, Jose Dolz 儘管卷積神經網絡CNN正在推進醫學圖像分割的進步,但標準模型仍然存在一些缺點。首先,使用多尺度方法,即編碼器解碼器架構,致使信息的冗餘使用,其中相似的低級特徵在多個尺度上被屢次提取。其次,長距離特徵依賴性未被有效建模,致使與每一個語義類相關聯的非最佳判別特徵表示。在本文中,咱們嘗試經過基於引導自我關注機制的使用捕獲更豐富的上下文依賴性來克服提出的體系結構的這些限制。該方法可以將局部特徵與其對應的全局依賴性集成,而且以自適應方式突出顯示相互依賴的信道映射。此外,不一樣模塊之間的額外損失引導注意機制去除噪聲並經過強調相關特徵關聯來關注圖像的更多判別區域。咱們在磁共振成像MRI的腹部器官分割的背景下評估所提出的模型。一系列消融實驗支持這些注意模塊在所提出的架構中的重要性。此外,與其餘最早進的分割網絡相比,咱們的模型能夠產生更好的分割性能,提升預測的準確性,同時下降標準誤差。這證實了咱們生成精確可靠的醫學圖像自動分割方法的效率。咱們的代碼和訓練有素的模型在公開發布 |
How to make a pizza: Learning a compositional layer-based GAN model Authors Dim P. Papadopoulos, Youssef Tamaazousti, Ferda Ofli, Ingmar Weber, Antonio Torralba 食譜是用於準備特定菜餚的有序指令集。從視覺角度來看,每一個指示步驟可被視爲經過添加額外物體(例如,添加成分或改變現有物品的外觀,例如烹飪菜餚)來改變菜餚的視覺外觀的方式。在本文中,咱們的目標是經過構建一個反映這一步驟程序的生成模型來教一臺機器如何製做披薩。爲此,咱們學習了可組合模塊操做,能夠添加或刪除特定成分。每一個運營商都被設計爲Generative Adversarial Network GAN。僅給出弱圖像級監督,操做員被訓練以生成須要添加到現有圖像或從現有圖像移除的視覺層。所提出的模型可以經過以正確的順序順序地應用相應的移除模塊將圖像分解成有序的層序列。合成和真實披薩圖像的實驗結果代表,咱們提出的模型可以以弱監督的方式對披薩配料進行分割,2經過揭示它們下面的遮擋物即去除它們,即修復,而且3推斷出澆頭的排序而沒有任何深度訂購監督。代碼,數據和模型可在線獲取。 |
**Detection and Tracking of Multiple Mice Using Part Proposal Networks Authors Zheheng Jiang, Zhihua Liu, Long Chen, Lei Tong, Xiangrong Zhang, Xiangyuan Lan, Danny Crookes, Ming Hsuan Yang, Huiyu Zhou 小鼠社會行爲的研究愈來愈多地在神經科學研究中進行。然而,從相互做用小鼠的視頻中自動量化小鼠行爲仍然是一個具備挑戰性的問題,其中物體跟蹤在將小鼠定位在其生活空間中起關鍵做用。人工標記一般用於多個小鼠跟蹤,這些小鼠是侵入性的並所以干擾動態環境中小鼠的運動。在本文中,咱們提出了一種新的方法來連續跟蹤幾個鼠標和單個部分,而無需任何特定的標記。首先,咱們提出了一種有效且穩健的基於深度學習的鼠標部分檢測方案,以生成部分候選。隨後,咱們提出了一種新穎的貝葉斯整數線性規劃模型,該模型聯合地將具備必要幾何約束的候選零件分配給各個目標,同時在檢測到的零件之間創建成對關聯。研究界沒有公開的數據集,爲多個小鼠的部件檢測和跟蹤提供定量測試平臺,咱們在這裏介紹一個由複雜的行爲和動做組成的新的具備挑戰性的Multi Mice PartsTrack數據集。最後,咱們針對新數據集上的幾個基線評估了咱們提出的方法,其結果代表咱們的方法在準確性方面優於其餘最早進的方法。 |
Segment Integrated Gradients: Better attributions through regions Authors Andrei Kapishnikov, Tolga Bolukbasi, Fernanda Vi gas, Michael Terry 顯着性方法能夠幫助理解深度神經網絡。近年來,顯着性方法獲得了許多改進,以及評估它們的新方法。在本文中,咱們提出了一種新的基於區域的歸因方法,即Segment Integrated Gradients SIG,它創建在Sundararajan等人的綜合梯度上。 2017年,2介紹了用於憑經驗評估基於圖像質量圖的質量的評估方法。性能信息曲線PICs和3爲歸因方法提供了基於公理的健全性檢查。經過實證明驗和實例結果,咱們證實SIG比普通模型和ImageNet數據集的其餘顯着性方法產生更好的結果。 |
Iterative Self-Learning: Semi-Supervised Improvement to Dataset Volumes and Model Accuracy Authors Robert Dupre, Jiri Fajtl, Vasileios Argyriou, Paolo Remagnin 基於簡單的迭代學習循環以及學習的閾值技術和集合決策支持系統,引入了一種新穎的半監督學習技術。經過在訓練深刻學習的分類模型時使用未標記的數據,展現了最新的模型性能和增長的訓練數據量。當評估半監督學習技術以及許多更具挑戰性的圖像分類數據集CIFAR 100和ImageNet的200類子集時,對經常使用數據集執行所提出的方法的評估。 |
***Scene and Environment Monitoring Using Aerial Imagery and Deep Learning Authors Mahdi Maktabdar Oghaz, Manzoor Razaak, Hamideh Kerdegari, Vasileios Argyriou, Paolo Remagnino 無人駕駛飛行器無人機是用於智能農業相關應用的有前途的技術。利用無人機對農業農場進行空中監測,能夠進行與做物監測有關的關鍵決策。深度學習技術的進步進一步提升了基於航空影像的分析的精確性和可靠性。在無人機上安裝各類傳感器RGB,光譜相機的功能容許遠程做物分析應用,例如植被分類和分割,做物計數,產量監測和預測,做物繪圖,雜草檢測,疾病和養分缺少檢測等。在爲智能農業應用探索無人機的文獻中發現了大量研究。本文綜述了深度學習智能農業無人機圖像的研究。根據應用,咱們將這些研究分爲五大類,包括植被識別,分類和分割,做物計數和產量預測,做物繪圖,雜草檢測和做物病害以及養分缺少檢測。提供了對每項研究的深刻批判性分析。 |
Attention is all you need for Videos: Self-attention based Video Summarization using Universal Transformers Authors Manjot Bilkhu, Siyang Wang, Tushar Dobhal 視頻字幕和摘要近年來因爲序列建模的進步而變得很是流行,隨着長短時間存儲器網絡LSTM的復甦和門控循環單元GRU的引入。現有體系結構使用CNN提取空間時間特徵,並利用GRU或LSTM來模擬與軟關注層的依賴關係。這些注意力層確實有助於注意最突出的特徵並改進復發單元,然而,這些模型具備復發單元自己的固有缺點。 Transformer模型的引入推進了Sequence Modeling領域的新方向。在這個項目中,咱們實現了一個基於變壓器的視頻字幕模型,利用C3N和兩個流I3D等3D CNN架構進行視頻提取。咱們還應用某些降維技術,以便將模型的總體尺寸保持在限制範圍內。咱們最終分別在MSVD和ActivityNet數據集上顯示單個和密集視頻字幕任務的結果。 |
***Benchmarking 6D Object Pose Estimation for Robotics Authors Antti Hietanen, Jyrki Latokartano, Alessandro Foi, Roel Pieters, Ville Kyrki, Minna Lanz, Joni Kristian K m r inen 對機器人技術進行基準6D物體姿態估計的基準並不簡單,由於足夠的精度取決於許多因素,例如,所選擇的抓取器,尺寸,物體的重量和材料,抓握點以及機器人任務自己。咱們將問題表述爲成功掌握,即對於影響任務的一組固定因素,給定姿式估計是否足以完成任務。經過在姿式偏差空間中採樣並執行任務並自動檢測成功或失敗,在機率框架中建模成功的掌握。在給定姿式殘差的狀況下,採樣小時數和數千個樣本用於構建成功掌握的非參數機率。該框架經過實驗對象和裝配任務進行實驗驗證,並比較幾種基於現有技術的點雲基於3D姿態估計方法。 |
A deep learning approach for automated detection of geographic atrophy from color fundus photographs Authors Tiarnan D. Keenan, Shazia Dharssi, Yifan Peng, Qingyu Chen, Elvira Agr n, Wai T. Wong, Zhiyong Lu, Emily Y. Chew 目的評估深度學習在彩色眼底照片檢測地理萎縮GA中的效用,旨在探索檢測中心GA CGA的潛在用途。設計開發了一種深度學習模型來檢測彩色眼底照片中GA的存在,以及另外兩種在不一樣狀況下檢測CGA的模型。參與者從AREDS數據集中的4,582名參與者的縱向隨訪中拍攝了59,812張彩色眼底照片。金標準標籤來自使用標準化協議的人類專家閱讀中心評分員。方法訓練深度學習模型以使用彩色眼底照片來預測從沒有AMD的眼睛到晚期AMD的眼睛的GA存在。訓練第二個模型以預測來自相同羣體的CGA存在。訓練第三個模型以用GA預測來自眼睛子集的CGA存在。對於訓練和測試,使用5倍交叉驗證。爲了與人類臨牀醫生的表現進行比較,將模型表現與88名視網膜專家的模型表現進行了比較。結果深度學習模型GA檢測,全部眼睛的CGA檢測和GA眼中心檢測的AUC分別爲0.933 0.976,0.939 0.976和0.827 0.888。 GA檢測模型的準確度,靈敏度,特異性和精密度分別爲0.965,0.692,0.978和0.584。 CGA檢測模型具備0.966,0.763,0.971和0.394的等效值。中心檢測模型的等效值爲0.762,0.782,0.729和0.799。結論深度學習模型證實了GA自動檢測的高精度。 AUC不遜於人類視網膜專家。深度學習方法也能夠應用於CGA的識別。代碼和預訓練模型可在如下公開得到 |
***Coherent Point Drift Networks: Unsupervised Learning of Non-Rigid Point Set Registration Authors Lingjing Wang, Yi Fang 給定新的源和目標點集對,標準點集註冊方法一般重複進行所需幾何變換的獨立迭代搜索,以使源點集與目標點對齊。這限制了它們在應用程序中的使用,以處理使用大容量數據集的實時點集註冊。本文提出了一種新的方法,稱爲相干點漂移網絡CPD網絡,用於無監督學習幾何變換到實時非剛性點集註冊。與先前的努力相反,例如相干點漂移,CPD Net能夠學習位移場函數以估計來自訓練數據集的幾何變換,從而預測用於先前未見對的對齊的指望幾何變換,而無需任何額外的迭代優化過程。此外,CPD Net利用深度神經網絡的功能來擬合任意函數,該函數自適應地適應所需幾何變換的不一樣複雜程度。特別是,CPD Net被證實具備理論上的保證,能夠學習連續位移矢量函數,這能夠進一步避免像之前的工做那樣施加額外的參數平滑約束。咱們的實驗驗證了CPD Net在各類2D 3D數據集上非剛性點集配準的出色表現,即便存在明顯的位移噪聲,異常值和缺失點。咱們的代碼是可用的 |
A Generative Framework for Zero-Shot Learning with Adversarial Domain Adaptation Authors Varun Khare, Divyat Mahajan, Homanga Bharadhwaj, Vinay Verma, Piyush Rai 在本文中,咱們提出了一個基於領域適應的零射擊學習生成框架。咱們明確地針對零鏡頭學習ZSL中看到和看不見的類分佈之間的域轉移問題,並經過開發生成模型並經過對抗域適應來訓練它來尋求最小化它。咱們的方法基於端到端學習所見類和未見類的類分佈。爲了使模型可以學習看不見的類的類分佈,咱們根據類屬性信息對這些類分佈進行參數化,這些信息可用於看不見的類和看不見的類。這提供了一種很是簡單的方法來學習任何看不見的類的類分佈,僅給出其類屬性信息,而且沒有標記的訓練數據。經過對抗域適應來訓練該模型提供了對來自已見和未見類的數據之間的分佈不匹配的魯棒性。經過一系列全面的實驗,咱們代表,與各類先進的ZSL模型相比,咱們的模型在各類基準數據集上都能提供更高的精度。 |
Deep Angular Embedding and Feature Correlation Attention for Breast MRI Cancer Analysis Authors Luyang Luo, Hao Chen, Xi Wang, Qi Dou, Huangjin Lin, Juan Zhou, Gongjie Li, Pheng Ann Heng 乳腺MRI的準確和自動分析在乳腺癌的早期診斷和成功治療計劃中起着重要做用。因爲異質性,腫瘤的準確診斷仍然是一項具備挑戰性的任務。在本文中,咱們建議經過深度學習DL的餘弦邊緣Sigmoid Loss CMSL在MRI中識別乳腺腫瘤,並基於所學習的特徵經過COrrelation Attention Map COAM定位可能的癌症病變。 CMSL將腫瘤特徵嵌入到超球面,並經過餘弦約束施加決策餘量。經過這種方式,DL模型能夠在角度空間中學習更多可分離的類間特徵和更緊湊的類內特徵。此外,咱們利用特徵向量之間的相關性來生成注意力圖,該注意力圖能夠僅用圖像級別標籤準確地定位癌症候選者。咱們創建了最大的乳腺癌數據集,涉及10,290個DCE MRI掃描量,用於開發和評估所提出的方法。由CMSL驅動的模型在測試集上實現了0.855的分類準確度和0.902的AUC,靈敏度和特異性分別爲0.857和0.852,整體上優於其餘競爭方法。此外,與其餘現有技術的弱監督定位方法相比,所提出的COAM實現了癌症中心的更準肯定位。 |
**Deep Learning based Cephalometric Landmark Identification using Landmark-dependent Multi-scale Patches Authors Chonho Lee, Chihiro Tanikawa, Jae Yeon Lim, Takashi Yamashiro 提出了一種基於深度神經網絡的頭影測量界標識別模型。兩個神經網絡,稱爲貼片分類和點估計,經過從日本年輕患者的935個頭影圖裁剪的多尺度圖像塊進行訓練,其尺寸和方向根據正畸醫生檢查的界標依賴標準而變化。所提出的模型識別22個硬組織和11個軟組織標誌。爲了評估所提出的模型,計算真實值和估計值之間的歐幾里德距離偏差的界標估計精度,以及使用置信橢圓估計的界標位於相應範數內的成功率。所提出的模型成功識別出1.32±3.5mm的偏差範圍內的硬組織界標,平均成功率爲96.4,軟組織界標的偏差範圍爲1.16 4.37 mm,平均成功率爲75.2。咱們驗證,考慮貼片的尺寸依賴性尺寸和方向有助於提升估計精度。 |
Selfie: Self-supervised Pretraining for Image Embedding Authors Trieu H. Trinh, Minh Thang Luong, Quoc V. Le 咱們介紹一種稱爲Selfie的預訓練技術,它表明SELF監督的圖像嵌入。 Selfie將掩蓋語言建模的概念歸納爲連續數據,例如圖像。給定輸入圖像中的蒙版補丁,咱們的方法學會選擇正確的補丁,以及從同一圖像採樣的其餘干擾物補丁,以填充掩蔽的位置。該分類目標避免了預測目標補丁的精確像素值的須要。預訓練架構包括卷積塊網絡,用於處理補丁,而後是注意力集中網絡,以在預測掩碼補丁以前彙總未掩碼補丁的內容。在微調期間,咱們重複使用預訓練找到的卷積權重。咱們在三個基準CIFAR 10,ImageNet 32 x 32和ImageNet 224 x 224上評估咱們的方法,其中包含5到100個訓練集的不一樣標記數據量。與同一網絡的標準監督培訓相比,咱們的預訓練方法可在全部設置中對ResNet 50進行一致的改進。值得注意的是,在ImageNet 224 x 224上,每類5個例子60個,咱們的方法將ResNet 50的平均精度從35.6提升到46.7,絕對精度提升了11.1個點。咱們的預訓練方法還經過顯着下降數據集中測試精度的標準誤差,提升了ResNet 50的訓練穩定性,特別是在低數據狀態下。 |
**Key Ingredients of Self-Driving Cars Authors Rui Fan, Jianhao Jiao, Haoyang Ye, Yang Yu, Ioannis Pitas, Ming Liu 在過去的十年中,許多研究文章已經發表在自動駕駛領域。然而,它們中的大多數僅關注於特定的技術領域,例如視覺環境感知,車輛控制等。此外,因爲自動駕駛汽車技術的快速發展,這些物品變得很是快速地過期。在本文中,咱們簡要但全面地概述了自動駕駛汽車AC的關鍵成分,包括駕駛自動化水平,交流傳感器,交流軟件,開源數據集,行業領導者,交流應用和現有挑戰。 |
**EVDodge: Embodied AI For High-Speed Dodging On A Quadrotor Using Event Cameras Authors Nitin J. Sanket, Chethan M. Parameshwara, Chahat Deep Singh, Ashwin V. Kuruttukulam, Cornelia Ferm ller, Davide Scaramuzza, Yiannis Aloimonos 人類着迷於瞭解像鳥類和蜜蜂這樣的超高效敏捷飛行生物已推進了數十年的研究,試圖解決微型空中機器人避障問題。然而,大多數先前的研究都集中在靜態避障上。這是因爲缺少高速視覺傳感器和可擴展的視覺算法。在過去的十年中,神經形態傳感器的指數增加受到天然界的啓發,並有可能成爲視覺運動估計問題的事實標準。 |
***AutoGrow: Automatic Layer Growing in Deep Convolutional Networks Authors Wei Wen, Feng Yan, Hai Li 咱們建議AutoGrow從淺層種子架構開始自動深度神經網絡DNN中的深度發現,若是增加提升準確性,AutoGrow會增長新層,不然增加中止並發現網絡深度。殘差和普通塊用做增加子模塊,用於研究帶有和不帶有快捷方式的DNN。咱們提出了通用的增加和中止策略,以儘可能減小人們在最佳深度搜索上花費的精力咱們的實驗代表,經過將相同的策略應用於不一樣的任務,AutoGrow能夠始終有效地發現網絡深度,並在MNIST,FashionMNIST,SVHN,CIFAR10,CIFAR100和ImageNet的各類數據集上實現最早進的精確度。與一般設計巨大搜索空間並消耗巨大資源的神經架構搜索NAS相比,AutoGrow位於研究範圍的另外一端,專一於有效深度發現,並將增加和搜索時間縮短到與訓練類似的水平。單DNN。所以,AutoGrow可以擴展到大型數據集,如ImageNet。咱們的研究還代表,先前的網絡態射對於增長層深度是次優的。最後,咱們證實AutoGrow能夠培訓更深層次的普通網絡,即便使用批量標準化也存在問題。 |
Decompose-and-Integrate Learning for Multi-class Segmentation in Medical Images Authors Yizhe Zhang, Michael T. C. Ying, Danny Z. Chen 由醫學專家註釋的醫學圖像的分割圖包含豐富的空間信息。在本文中,咱們建議分解註釋圖,以學習醫學圖像中的分割問題的解纏結和更豐富的特徵變換。咱們的新計劃包括兩個主要階段的分解和整合。經過註釋圖分解進行分解,將原始分割問題分解爲多個分割子問題,這些新的分割子問題經過訓練多個深度學習模塊來建模,每一個模塊都有本身的一組特徵變換。集成過程總結了前一階段中模塊的解決方案,而後爲原始分段問題造成最終解決方案。提出了多種註釋圖分解方法,並開發了一種新的端到端可訓練的K到1深度網絡框架,用於實現咱們提出的分解和集成學習方案。在實驗中,咱們使用現有技術的徹底卷積網絡(例如3D中的DenseVoxNet和2D中的CUMedNet)來證實咱們的分解和整合分割,改善了多個3D和2D數據集上的分割性能。消融研究證明了咱們提出的醫學圖像學習方案的有效性。 |
Visually Grounded Neural Syntax Acquisition Authors Haoyue Shi, Jiayuan Mao, Kevin Gimpel, Karen Livescu 咱們提出了視覺接地神經語法學習者VG NSL,這是一種在沒有任何明確監督的狀況下學習句法表徵和結構的方法。該模型經過查看天然圖像和閱讀成對的字幕來學習。 VG NSL生成文本的選區解析樹,遞歸地組成成分的表示,並將它們與圖像匹配。咱們經過與圖像的匹配分數來定義成分的具體性,並使用它來指導文本的解析。在MSCOCO數據集上的實驗代表,就針對金解析樹的F1分數而言,VG NSL優於不使用視覺基礎的各類無監督解析方法。咱們發現VGNSL在隨機初始化的選擇和訓練數據量方面更加穩定。咱們還發現VG NSL得到的具體性與語言學家定義的相似度量相關。最後,咱們還在Multi30K數據集中將VG NSL應用於多種語言,代表咱們的模型始終優於先前的無監督方法。 |
V-NAS: Neural Architecture Search for Volumetric Medical Image Segmentation Authors Zhuotun Zhu, Chenxi Liu, Dong Yang, Alan Yuille, Daguang Xu 深度學習算法,特別是2D和3D徹底卷積神經網絡FCN,已迅速成爲體積醫學圖像分割的主流方法。然而,2D卷積不能充分利用沿第三軸的豐富空間信息,而3D卷積遭受要求苛刻的計算和高GPU內存消耗。在本文中,咱們建議自動搜索網絡架構定製到體積醫學圖像分割問題。具體地說,咱們將結構學習公式化爲可微分神經結構搜索,讓網絡自己在每層選擇2D,3D或Pseudo 3D P3D卷積。咱們在3個公共數據集上評估咱們的方法,即NIH Pancreas數據集,來自Medical Segmentation Decathlon MSD Challenge的Lung and Pancreas數據集。咱們的方法,名爲V NAS,在正常器官NIH胰腺和異常器官MSD肺腫瘤和MSD胰腺腫瘤的分割任務方面始終優於其餘現有技術,這顯示了所選結構的力量。此外,一個數據集上的搜索結構能夠很好地推廣到其餘數據集,這證實了咱們提出的方法的魯棒性和實際應用。 |
Chinese Abs From Machine Translation |