通知:這篇文章有9篇論文速遞信息,涉及人臉、目標檢測、顯著性目標檢測和圖像分割等方向html
往期回顧git
TensorFlow.js人臉識別—玩轉吃豆豆小遊戲github
[計算機視覺論文速遞] 2018-03-31數據庫
YOLOv3:你必定不能錯過跨域
Face網絡
[1]《Learning to Anonymize Faces for Privacy Preserving Action Detection》框架
Abstract:人們愈來愈擔憂計算機視覺設備經過錄制不須要的視頻會侵犯用戶的隱私。一方面,咱們但願相機系統/機器人可以經過了解其視頻來識別重要事件並幫助人類平常生活,但另外一方面,咱們也但願確保它們不會侵犯人們的隱私。在本文中,咱們提出了一種新的原理方法來學習視頻面部匿名者。(1)視頻匿名處理器修改原始視頻以移除隱私敏感信息(即人臉),同時仍嘗試最大化空間動做檢測性能,(2)試圖從這種匿名視頻中提取隱私敏感信息的鑑別器。最終的結果是一個視頻匿名器,它執行像素級修改以匿名每一個人的臉部,而對動做檢測性能的影響最小。與傳統人工製做的視頻/臉部匿名化方法相比,咱們經過實驗證明了咱們方法的優點,這些方法包括掩蔽,模糊和噪聲添加。打開下述github連接,能夠查看演示視頻的項目頁面以及更多結果。dom
arXiv:https://arxiv.org/abs/1803.11556ide
github:https://jason718.github.io/project/privacy/main.html性能
[2]《Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition》
CVPR 2018
Abstract:本文提出了一種編碼器 - 解碼器網絡,用於從單個二維圖像中分離三維人臉重建過程當中的形狀特徵,從而能夠同時完成重建精確的三維人臉形狀和學習識別形狀特徵的任務。與現有的三維人臉重建方法不一樣,咱們提出的方法直接從單個二維圖像中迴歸密集的三維人臉形狀,並基於複合三維人臉形狀模型明確地分別處理三維人臉形狀中的身份和殘差(即非同一性)潛在的表示。咱們針對所提出的網絡設計了訓練過程,其具備測量臉部識別偏差和3D臉部形狀重建偏差的聯合損失。爲了構建訓練數據,咱們開發了一種將3D形變模型(3DMM)擬合到對象的多個2D圖像的方法。 MICC,BU3DFE,LFW和YTF數據庫已經完成了全面的實驗。結果代表,咱們的方法擴展了3DMM的能力,以捕捉判別形狀特徵和麪部細節,所以在3D人臉重建精度和人臉識別精度方面都優於現有方法。
arXiv:https://arxiv.org/abs/1803.11366
[3]《Two-Stream Neural Networks for Tampered Face Detection》
Abstract:咱們提出了一我的臉篡改檢測的雙流網絡。 咱們訓練GoogLeNet以檢測人臉分類流中的篡改僞影,並訓練基於補丁的三重網絡,以利用捕獲本地噪聲殘留和相機特性的特徵做爲第二流。 此外,咱們使用兩個不一樣的在線人臉交換應用程序來建立一個由2010年篡改圖像組成的新數據集,每一個圖像包含一個篡改的臉部。 咱們在新收集的數據集上評估擬議的雙流網絡。 實驗結果證實了咱們方法的有效性。
arXiv:https://arxiv.org/abs/1803.11276
目標檢測
[4]《Scalable Deep Learning Logo Detection》
Abstract:現有的標識檢測方法一般會考慮少許的標識類和每一個類的有限圖像,並且須要單調乏味的對象邊界框註釋,所以沒法擴展到真實世界的動態應用程序。在這項工做中,咱們經過探索網絡數據學習原理來解決這些挑戰,而無需詳盡的手動標記。具體來講,咱們提出了一種新穎的增量學習方法,稱爲可擴展標識自我協同窗習(SL-2),可以自動自發現噪聲網絡數據中的信息量訓練圖像,以逐步提升跨模型協同窗習的模型能力方式。此外,咱們經過自動網絡數據收集和處理方法引入很是大的(2,190,757幅194個徽標類的圖像)徽標數據集「WebLogo-2M」。普遍的比較評估證實了所提出的SL ^ 2方法優於最早進的強和弱監督檢測模型和當代網絡數據學習方法的優越性。
arXiv:https://arxiv.org/abs/1803.11417
[5]《Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation》
CVPR 2018
Abstract:咱們能夠在沒有實例級註釋的狀況下檢測各類圖像域中的公共對象嗎?在本文中,咱們提出了一個新的任務框架,跨域弱監督對象檢測,解決了這個問題。對於本文,咱們能夠訪問源域(例如天然圖像)中具備實例級註釋的圖像以及目標域(例如水彩)中具備圖像級註釋的圖像。另外,目標域中要檢測的類是源域中的全部類或其子集。從源域上預先訓練好的徹底監督對象檢測器開始,咱們經過在兩種人工和自動生成的樣本上微調檢測器來提出兩步漸進域自適應技術。咱們在新收集的包含三個圖像域的數據集上測試了咱們的方法,與最佳性能基線相比,平均平均精度(mAP)方面提升了約5至20個百分點。
arXiv:https://arxiv.org/abs/1803.11365
github:https://naoto0804.github.io/cross_domain_detection/
[6]《Task-Driven Super Resolution: Object Detection in Low-resolution Images》
Abstract:咱們考慮圖像超分辨率(SR)如何在低分辨率圖像中爲物體檢測任務作出貢獻。 直觀上,SR對物體檢測任務產生積極影響。 雖然之前的一些做品代表這種直覺是正確的,但SR和探測器在這些做品中都是獨立優化的。 本文提出了一種新的框架來訓練深度神經網絡,其中SR子網絡經過與傳統檢測損失的折衷明確地將檢測損失歸入其訓練目標中。 這種端到端的培訓程序使咱們可以訓練用於任何可微分探測器的SR預處理。 咱們證實,咱們的任務驅動SR可以持續顯着提升低分辨率圖像上物體檢測器對各類條件和縮放因子的準確性。
arXiv:https://arxiv.org/abs/1803.11316
顯著目標檢測
[7]《Contrast-Oriented Deep Neural Networks for Salient Object Detection》
Abstract:深卷積神經網絡已成爲最近突破顯著物體檢測的關鍵因素。然而,現有的基於CNN的方法基於patch方式(區域方式)訓練和推理或徹底卷積網絡。因爲嚴重的存儲和重疊補丁之間的計算冗餘,前一類中的方法一般是耗時的。爲了克服這個缺陷,第二類中的方法試圖將原始輸入圖像直接映射到單個網絡正向通道中的預測密集顯著圖。雖然效率很高,可是這些方法檢測不一樣尺度的顯著對象或弱語義信息的顯著區域是很是困難的。在本文中,咱們開發了混合對比度導向的深度神經網絡來克服上述限制。咱們每一個深層網絡都由兩個互補的組件組成,包括用於密集預測的徹底卷積流和用於稀疏顯著性推斷的段級空間池流。咱們進一步提出了一個注意模塊,該模塊能夠學習用於融合來自這兩個流的兩個顯著性預測的權重圖。定製的替代方案旨在經過對預先訓練的基線模型進行微調來訓練這些深度網絡。最後,一個定製的徹底鏈接的CRF模型包含了一個顯著的輪廓特徵嵌入,能夠做爲後處理步驟選擇性地應用於改善這兩個流的融合結果中的空間相干性和輪廓定位。在六個基準數據集上的大量實驗代表,咱們提出的模型在全部流行的評估指標方面均可以顯著優於現有技術水平。
arXiv:https://arxiv.org/abs/1803.11395
圖像分割
[8]《Predicting Future Instance Segmentations by Forecasting Convolutional Features》
Abstract:預測將來事件是實現智能行爲的重要先決條件。 視頻預測已被研究做爲實現這一目標的代理任務。 最近的研究代表,爲了預測將來幀的語義分割,預測語義層面比預測RGB幀更有效,而後對這些幀進行分段。 在本文中,咱們考慮將來實例分割中更具挑戰性的問題,它將細分出單獨的對象。 爲了處理每一個圖像的不一樣數量的輸出標籤,咱們在Mask R-CNN實例分割模型的固定大小的卷積特徵的空間中開發了預測模型。 咱們將Mask R-CNN的「檢測頭」應用於預測特徵,以產生將來幀的實例分割。 實驗代表,這種方法明顯改善了基於光流的基線。
arXiv:https://arxiv.org/abs/1803.11496
[9]《Joint Person Segmentation and Identification in Synchronized First- and Third-person Videos》
Abstract:在攝像機變得愈來愈廣泛的世界中,公共場所中的場景一般由多種類型的攝像機(包括監控攝像機和可穿戴攝像機)從多個角度捕獲。一個重要的問題是如何經過查找它們之間的鏈接來組織這些異構的視頻集合,例如識別出如今視頻中的人們之間的通用對應關係以及佩戴相機。在本文中,咱們考慮了不一樣類型的多個攝像機觀察涉及多我的的場景的場景,而且咱們但願解決兩個具體的相關問題:(1)給定場景的兩個或更多個同步的第三人視頻,產生(2)給定一個或多個同步的第三人稱視頻以及第一人稱視頻的第一人視頻由可穿戴相機拍攝的人員視頻,細分並識別第三方視頻中的相機佩戴者。與以往須要地面真實邊界框估計對應關係的工做不一樣,咱們共同執行人員分割和識別。咱們發現同時解決這兩個問題是互惠的,由於更好的細粒度分割使咱們可以更好地執行視圖間的匹配,而且使用來自多個視圖的信息有助於咱們執行更精確的分割。咱們評估了咱們在從多個可穿戴相機捕獲的具備挑戰性的數據集上評估咱們的方法,而且代表咱們提出的方法在人物分割和識別方面的表現明顯優於現有技術。