通知:這篇文章有8篇論文速遞信息,涉及目標識別、SLAM、3D Model、密集點集配準、立體匹配等方向(含6篇CVPR論文)網絡
目標識別框架
[1]《Hierarchical Novelty Detection for Visual Object Recognition》ide
CVPR 2018函數
Abstract:深度神經網絡在具備預約義類別的大規模視覺對象識別任務中取得了使人矚目的成功。然而,在訓練期間識別新類(即未被看見的對象)仍然具備挑戰性。在文獻中已經討論了檢測這種新類的問題,可是以前大多數工做都是提供簡單的二元或迴歸決策,例如,輸出將是「已知的」,「新穎的」或相應的置信區間。在本文中,咱們研究更多的基於分層分類框架的信息新穎性檢測方案。對於一個新類的對象,咱們的目標是在已知類的分層分類中找到它最接近的超類。爲此,咱們提出了兩種不一樣的方法,稱爲自頂向下和扁平化方法,以及它們的組合。咱們方法的基本組成部分是置信度校訂分類器,數據從新標記以及在分層分類法下對新類進行建模的「一次退出」策略。此外,咱們的方法能夠生成分層嵌入,結合其餘經常使用的語義嵌入,能夠提升廣義零點學習性能。佈局
arXiv:https://arxiv.org/abs/1804.00722性能
SLAM
學習
[2]《CodeSLAM - Learning a Compact, Optimisable Representation for Dense Visual SLAM》優化
CVPR 2018編碼
Abstract:實時三維感知系統中的幾何表示仍然是一個關鍵的研究問題。密集的地圖捕捉完整的表面形狀,而且能夠增長語義標籤,可是它們的高維使得它們在存儲和處理上的計算成本高,而且不適合嚴格的機率推斷。基於稀疏特徵的表示能夠避免這些問題,但只捕獲部分場景信息,而且主要用於本地化。視頻
咱們提出了一種新的緊湊但密集的場景幾何表示形式,它以單個圖像的強度數據爲條件,並由包含少許參數的代碼生成。咱們受到來自圖像學習深度和自動編碼器的啓發。咱們的方法適用於基於關鍵幀的單目密集SLAM系統:雖然每一個帶有代碼的關鍵幀均可以生成深度圖,但代碼能夠與姿態變量一塊兒高效地進行優化,並與重疊關鍵幀的代碼一塊兒進行優化,以得到全局一致性。調整圖像上的深度圖容許代碼僅表示局部幾何圖形的不能直接從圖像預測的方面。咱們解釋如何學習咱們的代碼表示,並展現其在單目SLAM中的優點特性。
arXiv:https://arxiv.org/abs/1804.00874
其它
[3]《Learning to Separate Object Sounds by Watching Unlabeled Video》
Abstract:感知一個場景最完整的須要全部的感官。 然而,建模物體外觀和聲音的方式是具備挑戰性的:大多數天然場景和事件包含多個對象,而且音軌將全部聲源混合在一塊兒。 咱們建議從未標記的視頻中學習視聽對象模型,而後利用視覺上下文在新視頻中執行音頻源分離。 咱們的方法依賴於深度多實例多標籤學習框架來解決映射到單個視覺對象的音頻頻率庫,即便沒有單獨觀察/聽取這些對象。 咱們展現瞭如何使用恢復的解開的基礎來指導音頻源分離以得到更好分離的對象級聲音。 咱們的工做是第一個在大型「wild」視頻中研究音頻源分離的。 咱們在視覺輔助音頻源分離和音頻去噪方面得到了最早進的成果。
arXiv:https://arxiv.org/abs/1804.01665
注:根據畫面對聲音進行分離,頗有意思!
[4]《Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images》
Abstract:咱們提出了一種端到端的深度學習體系結構,可從單一顏色的圖像生成三角形網格中的三維形狀。 受限於深度神經網絡的性質,先前的方法一般表示體積或點雲中的3D形狀,將它們轉換爲更易於使用的網格模型比較難。與現有方法不一樣,咱們的網絡在基於圖形的卷積神經網絡中表示3D網格,並經過逐漸變形橢球造成正確的幾何圖形,利用從輸入圖像中提取的感知特徵。 咱們採用從粗到精的策略,使整個變形過程穩定,並定義各類網格相關損失以捕捉不一樣層次的屬性,以保證視覺吸引力和物理準確的3D幾何。 大量實驗代表,咱們的方法不只定性地生成具備更好細節的網格模型,並且與最早進的技術相比還實現了更高的3D形狀估計精度。
arXiv:https://arxiv.org/abs/1804.01654
[5]《Image Generation from Scene Graphs》
CVPR 2018
Abstract:爲了真正理解視覺世界,咱們的模型不只應該可以識別圖像,還可以生成它們。爲此,近期在天然語言描述中生成圖像方面取得了使人振奮的進展。這些方法在有限的領域(例如鳥類或花卉的描述)上提供了使人驚歎的結果,但卻難以忠實地複製具備許多對象和關係的複雜句子。爲了克服這個限制,咱們提出了一種從場景圖生成圖像的方法,可以明確地推理對象及其關係。咱們的模型使用圖形卷積來處理輸入圖,經過預測對象的邊界框和分割掩模來計算場景佈局,而且將佈局轉換爲具備級聯精化網絡的圖像。網絡訓練敵對一對鑑別器,以確保實際輸出。咱們經過Visual Genome和COCO-Stuff驗證了咱們的方法,其中定性結果,消融和用戶研究證實了咱們的方法可以生成具備多個對象的複雜圖像。
arXiv:https://arxiv.org/abs/1804.01622
注:李飛飛大做!!!
[6]《A Unifying Contrast Maximization Framework for Event Cameras, with Applications to Motion, Depth, and Optical Flow Estimation》
CVPR 2018
Abstract:咱們提出了一個統一的框架來解決事件相機的幾個計算機視覺問題:運動,深度和光流估計。 咱們框架的主要思想是經過最大化一個目標函數找到圖像平面上與事件數據最佳對齊的點軌跡:warped events圖像的對比度。 咱們的方法隱式地處理事件之間的數據關聯,所以不依賴於關於場景的額外外觀信息。 除了準確地恢復問題的運動參數外,咱們的框架還生成具備高動態範圍的運動修正邊緣狀圖像,可用於進一步場景分析。 所提出的方法不只簡單,並且更重要的是,據咱們所知,第一種方法能夠成功地應用於這樣一組具備事件相機的重要視覺任務。
arXiv:https://arxiv.org/abs/1804.01306
[7]《Density Adaptive Point Set Registration》
CVPR 2018
Abstract:點集配準(registration)的機率方法近年來已顯示出競爭性結果。這些技術估計點雲的機率分佈模型。雖然這樣的表示已經顯示出但願,但它對3D點密度的變化高度敏感。這個基本問題主要是由傳感器位置在點集上的變化引發的。咱們從新審視機率註冊範式的基礎。與之前的做品相反,咱們將場景的底層結構建模爲潛在機率分佈,從而引起不變以指向集合密度變化。場景的機率模型和配準參數都是經過最小化基於指望最大化框架的Kullback-Leibler散度來推斷的。咱們的密度自適應配準可以成功處理地面激光雷達應用中常見的嚴重密度變化。咱們對幾個具備挑戰性的現實世界激光雷達數據集進行了大量實驗。結果代表,咱們的方法賽過了用於多視圖註冊的最早進的機率方法,而不須要從新採樣。
arXiv:https://arxiv.org/abs/1804.01495
[8]《Left-Right Comparative Recurrent Model for Stereo Matching》
CVPR 2018
Abstract:利用來自左視圖和右視圖的視差信息對於立體視差估計是相當重要的。經過參照來自相反觀點的信息,左右一致性檢查是加強差別估計的有效方法。然而,傳統的左右一致性檢查是一個獨立的後處理步驟,而且是手工製做的。本文提出了一種新的左右比較循環模型,與視差估計一塊兒進行左右一致性檢驗。在每一個循環步驟中,模型會爲兩個視圖生成視差結果,而後執行聯機左右比較以肯定可能包含錯誤標記像素的不匹配區域。引入了一種軟性關注機制,該機制採用學習錯誤地圖更好地指導模型,有選擇性地關注下一個重複步驟中不可靠區域的細化。經過這種方式,所提出的復發模型逐漸改善了生成的視差圖。對KITTI 2015,Scene Flow和Middlebury基準的普遍評估驗證了咱們模型的有效性,證實了這種新模型能夠實現最早進的立體視差估計結果。
arXiv:https://arxiv.org/abs/1804.00796
注:左右視圖的立體匹配,深度學習真的席捲了計算機視覺啊!