28篇論文、6 大主題帶你一覽 CVPR 2020 研究趨勢

  

  編譯 | 陳大鑫git

  編輯 | 叢 末github

  首度於線上召開的CVPR 2020 會議已經落下帷幕。今年,大會共有1467篇論文被接收,共舉辦了29個Tutorial、64個Workshop,線上與會者人數達 7600人。大量的論文,加上今年新採用虛擬會議的形式,曾一度讓會議瀏覽器不堪重負(瀏覽速度很是慢)。算法

  爲了讓你們更好地掌握今年會議的整體研究趨勢,一位深度學習專業的博士生Yassine Ouali 專門撰寫了一篇博客,總結了一些引發他關注的論文,以呈現今年會議的大體面貌。瀏覽器

  咱們先來看下 CVPR 2020 官方的相關統計數據:網絡

  CVPR 往年的增加趨勢仍然繼續:做者人數增長了20%,提交論文的數量增長了29%,同時爲了適應這種擴張,審稿人和領域主席都有增長架構

  

  今年會議的註冊人數共有6424人,相比2019年增長了一千多人。在被接收的1467篇論文中,有335篇 Oral 論文。框架

  

  

  與去年類似,就接受論文而言,中國是CVPR的第一貢獻者,其中來自清華大學的做者數量最多,其次是美國(按國家)和Google(按組織)。編輯器

  

  不出所料,被接收的論文主題多數集中在與學習、識別、檢測和理解有關的主題上。可是,人們對諸如高效標籤方法(例如,遷移學習),圖像合成和機器人感知等相對較新的領域愈來愈感興趣。諸如公平和可解釋AI之類的新興話題也開始在計算機視覺界引發愈來愈多的關注。ide

  

  1函數

  圖像識別,檢測和分割

  PointRend:將圖像分割做爲渲染

  論文地址:https://arxiv.org/abs/1912.08193

  圖像分割模型(例如Mask R-CNN)一般在有規則網格上運行:輸入圖像是像素的規則網格,它們的隱藏表示是規則網格上的特徵向量,其輸出是規則網格上的標籤圖。可是,規則網格會沒必要要地在平滑區域上進行採樣,同時對目標邊界進行欠採樣,這一般會致使 輪廓模糊,如右下圖所示。

  

  這篇論文提出將圖像分割視爲一種渲染問題,並採用計算機圖形學中的經典思想來高效地渲染高質量的標籤圖。這是使用被稱爲PointRend的神經網絡模塊來完成的。PointRend將在常規網格上定義的給定數量的CNN特徵圖做爲輸入,並在更精細的網格上輸出高分辨率預測。這些精細的預測僅在通過精心選擇的點上進行,這些點被選擇爲靠近高頻區域,例如咱們不肯定的預測(即相似於自適應細分)的目標邊界,而後對其進行上採樣,並使用一個小副分目來從這些點狀特徵進行預測。

  帶有噪聲的自訓練Student改善ImageNet分類

  論文地址:https://arxiv.org/abs/1911.04252

  半監督學習方法在少數據環境下效果很好,可是在有大量標記數據的狀況下,徹底監督學習的效果仍然是最好的。在這篇論文中,做者從新審視了這一假設,並代表即便在標籤數據豐富的狀況下,有噪聲的自訓練也能表現很好。

  

  該方法使用了大量的無標籤圖像(即不一樣於ImageNet訓練集分佈),而且包括三個主要步驟:首先,在有標籤的圖像上訓練 teacher 模型,而後使用訓練好的 teacher模型在無標籤的圖像上生成僞標籤,接着將其用於在有標籤圖像和僞標籤圖像的組合上訓練student模型,student模型比teacher模型更大(例如,從EfficientNetB0開始到EfficientNetB3),並受到注入的噪聲(例如 dropout)的訓練。再而後,該student被視爲teacher ,把最後兩個步驟重複幾回以從新標註無標籤數據並訓練一個新的student模型。最後一個模型在ImageNet top-1 上實現了SOTA性能,而且顯示出更高的魯棒性。

  設計網絡設計空間

  論文地址:https://arxiv.org/abs/2003.13678

  這篇論文不着重於設計單個網絡實例,而是着重於設計參數化網絡種羣的網絡設計空間,以便爲快速和簡單的網絡找到一些指導性設計原則。

  

  論文所提出的方法着重於尋找一個好的模型種羣而不是好的模型單例(例如NAS:神經架構搜索)。基於分佈估計的比較範式,此過程包含初始化設計空間A,而後引入新的設計原理以得到新的和細化的設計空間B,其中包含更簡單和更好的模型。重複該過程,直到生成的種羣中包含更魯棒且泛化良好的模型爲止。

  EfficientDet:可擴展且高效的目標檢測

  論文地址:https://arxiv.org/abs/1911.09070

  EfficientDet是目標檢測中的一個STOA模型,在普遍的資源限制下具備更高的效率。

  

  EfficientDet具備EfficientNet的骨幹架構,而且包括兩個新的設計選擇:一個具備雙向拓撲結構或BiFPN 的雙向特徵金字塔網絡(FPN),以及一個在合併不一樣比例的特徵時使用學習的權重。此外,該網絡採用複合縮放設計,其中骨幹,類/框網絡和輸入分辨率能夠聯合起來共同適應各類資源限制,而不是像之前的工做那樣簡單地使用更大的骨幹網絡。

  動態卷積:卷積核上的注意力

  論文地址:https://arxiv.org/abs/1912.03458

  輕量的 CNN 網絡,例如MobileNetV2的主要問題之一是因爲受限的深度(即層數)和寬度(即通道數)而沒法保持較低的計算要求,所以它們的表示能力有限。在本文中,做者提出了動態卷積以經過將多個並行卷積的結果與注意力權重相加來提升卷積層的能力,而不會顯着增長計算量。

  

  動態卷積由使用共享相同卷積核大小和輸入/輸出維數的K個卷積核(而不是單個操做)組成,而後使用由較小注意力模塊產生的注意力權值來彙總其結果。爲了更快地進行訓練,內核權值被限制爲三角形,其中每一個注意力權值在[0,1]之間,且總和等於1。

  其餘論文:

  Deep Snake for Real-Time Instance Segmentation,https://arxiv.org/abs/2001.01629

  Exploring Self-attention for Image Recognition, https://arxiv.org/abs/2004.13621

  Bridging the Gap Between Anchor-based and Anchor-free Detection ,https://arxiv.org/abs/1912.02424

  SpineNet: Learning Scale-Permuted Backbone for Recognition and Localization,https://arxiv.org/abs/1912.05027

  Look-into-Object: Self-supervised Structure Modeling for Object Recognition,https://arxiv.org/abs/2003.14142

  Learning to Cluster Faces via Confidence and Connectivity Estimation,https://arxiv.org/abs/2004.00445

  PADS: Policy-Adapted Sampling for Visual Similarity Learning,https://arxiv.org/abs/2001.00309

  Evaluating Weakly Supervised Object Localization Methods Right,https://arxiv.org/abs/2001.00309

  BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation,https://arxiv.org/abs/2001.00309

  Hyperbolic Visual Embedding Learning for Zero-Shot Recognition,http://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Hyperbolic_Visual_Embedding_Learning_for_Zero-Shot_Recognition_CVPR_2020_paper.pdf

  Single-Stage Semantic Segmentation from Image Labels,https://arxiv.org/abs/2005.08104

  2

  生成模型和圖像合成

  在定向光下學習物理引導的面部重照明

  論文地址:https://arxiv.org/abs/1906.03355

  重照明包括將不可見的源圖像及其對應的定向光照明朝向新的所需定向光進行調整。先前的工做作出了很好的結果,但僅限於平滑的光照,而且沒有對非漫射效果(例如投射陰影和鏡面反射)進行建模。

  爲了可以建立精確且可信的照明效果,並將其推廣到複雜的照明條件和具備挑戰性的姿態,做者提出了一種端到端的深度學習體系架構,該體系架構既可讓人的臉部圖像令人感到愉悅又能夠對其進行光照。這分兩個階段完成,以下所示:

  

  第一階段包括使用Unet架構預測輸入圖像的反照率( albedo )和法線 (normals ),而後將所需的定向光與法線一塊兒運用以預測陰影,而後進行漫反射。

  第二階段中,使用第一階段的輸出來預測正確的陰影。整個模型通過端到端的訓練,產生的對抗網絡(GAN)損失與pix2pix論文中使用的相似。

  pix2pix論文:https://arxiv.org/abs/1611.07004

  SynSin:從單個圖像進行端到端視圖合成

  論文地址:https://arxiv.org/abs/1912.08804

  視圖合成的目標是在給定一個或多個圖像的狀況下生成場景的新視圖。可是這可能很具備挑戰性,須要從圖像中理解3D場景。爲了克服這個問題,當前的方法依賴於多圖像,在ground-truth上訓練或僅限於合成數據。做者提出了一種新穎的端到端模型,用於在測試時從單個圖像進行視圖合成,同時在沒有任何ground-truth 的3D信息(例如深度)的真實圖像上進行訓練。

  

  給SynSin輸入圖像、目標圖像和所需的相對姿態(即所需的旋轉和平移)。輸入圖像首先經過特徵網絡嵌入每一個像素位置的特徵空間,而後經過深度迴歸器在每一個像素處進行深度預測。根據特徵和深度信息,建立點雲表示後,將使用相對姿態(即應用旋轉和平移)在具備徹底可區分的神經點雲渲染器的新視圖上渲染特徵。

  可是,投影的特徵可能會有一些僞像(例如,圖像的某些不可見部分如今在新視圖中可見,而且須要渲染),爲了解決此問題,論文做者使用了生成器來填充缺失的區域。而後對整個模型進行端到端的訓練:L2損失,判別器損失和感知損失,而無需任何深度信息。在測試時,網絡會拍攝圖像和目標相對姿態,並以所需的視圖輸出圖像。

  從單反相機合成全局相干深度的動態場景新視圖

  論文地址:https://arxiv.org/abs/2004.01294

  這篇論文的目的是在給定動態場景圖像集合的狀況下,從任意視角和時間合成圖像,即由單個單反相機從多個位置(下圖左側)捕獲的一系列圖像。該方法能夠從原始區域範圍(下圖中間)中的任意位置生成新穎的視圖,還能夠生成在不一樣時間橫跨任何視圖出現的動態內容(下圖右側)。使用單個相機便可完成此操做,而無需使用多視圖系統或像先前方法的特定於人類的先驗方法。

  

  做者使用深度融合網絡,結合目標視圖的輸入圖像,將多視圖(DMV)的立體深度與單視圖(DSV)的深度相結合,生成了一個比例尺度不變和一個徹底深度圖。跨視圖具備幾何上一致的深度,可使用自監督的渲染網絡合成新穎的視圖,該網絡在缺乏數據的狀況下產生照片級逼真的圖像,並具備對抗損失和重建損失。

  

  STEFANN:使用字體自適應神經網絡的場景文本編輯器

  論文地址:https://arxiv.org/abs/1903.01192

  本文提出一種在字符級別上直接修改圖像中的文本同時保持相一樣式的方法。這分兩個步驟完成。首先,一個名爲FANnet的網絡將咱們要修改的源字符做爲輸入,並在保持結構一致性和源樣式的同時輸出目標字符。其次,着色網絡Colornet獲取第一階段的輸出和源字符併爲目標字符着色,同時保留視覺一致性。對文本的每一個字符執行此過程以後,將字符放置在噴繪的背景中,同時保持字符之間的正確間距。如下是該項目網頁上的一些結果示例。

  MixNMatch:用於條件圖像生成的多因子分離和編碼

  論文地址:https://arxiv.org/abs/1911.11758

  MixNMatch是一種條件性GAN,可以在最少的監督(即從邊界框標註到模型背景)的狀況下,將背景、目標姿態、形狀和紋理與真實圖像區分開。而後,可使用通過訓練的模型來任意組合因子以生成新圖像,包括sketch2color,cartoon2img和img2gif應用。

  

  給定單個目標類別的圖像集合,訓練模型以將與每一個圖像相關的背景、目標姿態,形狀和紋理因子同時編碼到分離的潛在代碼空間中,而後經過組合來自分離的代碼空間圖像來生成看起來真實的圖像。四個編碼器用於分別編碼每一個潛在代碼。以後採樣四個不一樣的潛在代碼,並將其輸入到FineGAN生成器中以分層生成圖像,而後使用四個「圖像代碼對」判別器對模型進行訓練,以優化編碼器和生成器來匹配其聯合的圖像代碼分佈。

  StarGAN v2:多域的多樣化圖像合成

  論文地址:https://arxiv.org/abs/1912.01865

  圖像到圖像轉換(即更改圖像的某些屬性,例如頭髮顏色)的主要目標是提升生成圖像的質量和多樣性,同時在多域(一個域是指具備相同屬性值的圖像集,例如黑髮)上保持高可伸縮性。鑑於現有方法僅解決了這些問題之一,致使或者在多樣性上有限或在全部領域的模型上有限。StarGAN v2嘗試使用風格代碼來同時解決這兩個問題,而不是第一個版本的StarGAN中的顯式域標籤。

  

  StarGAN v2模型包含四個模塊:

  生成器,用於使用所需特定域的風格代碼將輸入圖像轉換爲輸出圖像。

  潛在編碼器(或映射網絡),爲每一個域生成風格代碼,在訓練過程當中隨機選擇其中一個。

  風格編碼器可提取圖像的風格代碼,以容許生成器執行參考引導的圖像合成

  判別器可從多個域中區分真假(R / F)圖像。

  除生成器外,全部模塊都包含多個輸出分支,在訓練相應域時會選擇其中一個。而後使用對抗損失,風格重構來訓練模型,以強制生成器在生成圖像時利用風格代碼。

  GAN壓縮:交互式條件GAN的高效架構

  論文地址:https://yassouali.github.io/ml-blog/cvpr2020/

  條件GAN(cGAN)爲許多計算機視覺和圖形應用程序提供了可控制的圖像合成功能。可是,訓練它們所需的計算資源比用於檢測和識別的傳統CNN的數量級大。例如,GAN須要比圖像識別模型多10到500倍的計算量。爲了解決這個問題,做者提出了一種基於蒸餾,通道剪枝和神經架構搜索(NAS)的GAN壓縮方法,從而在保持相同性能的同時生成了壓縮模型。

  

  被提出的GAN壓縮框架採用了一個通過預訓練的生成器(被視爲teacher),該生成器首先被提取成一個較小的「 一勞永逸」的生成器,該生成器包含經過權值分配的全部可能的通道數,其中在每次迭代中爲 student選擇了不一樣的通道數。如今,爲了在每一層選擇正確的 student通道數,從一次性(student)生成器中提取了許多子生成器並進行了評估,從而建立了生成器候選池。最後,具備理想壓縮比目標和性能目標(例如FID或mIoU)的最佳子生成器使用了一次性NAS,而後微調選定的生成器,從而生成最終的壓縮模型。

  用於圖像生成的語義金字塔

  論文地址:https://arxiv.org/abs/2003.06221

  語義金字塔試圖彌補判別模型和生成模型之間的差距。這是經過使用基於GAN的新穎模型完成的,該模型利用了預訓練分類模型學習到的深度特徵空間。給定從參考圖像中提取的一組特徵,該模型會生成各類圖像樣本,每一個樣本在分類模型的每一個語義級別上都具備匹配的特徵。

  

  具體地,給定預訓練的分類網絡,GAN網絡被設計爲具備與分類網絡類似架構的生成器。訓練生成器的每一層以使其適應先前的層以及分類網絡的相應層。例如,在接近輸入的分類特徵上對生成器進行條件調整,會獲得與分類模型的輸入圖像類似的圖像,並可能經過採樣不一樣的噪聲向量來探索此類圖像的空間。另外一方面,對較深層進行調節會致使生成的圖像分佈更廣。該模型通過訓練後會產生對抗損失,以生成逼真的圖像,而多樣性損失則能夠生成具備不一樣噪聲的多樣化圖像,以及將所生成圖像的特徵與參考圖像進行匹配的重構損失。圖像的不一樣區域可使用掩碼操做以不一樣的語義級別進行調節,可被用於在語義上修改圖像。

  分析和改善StyleGAN的圖像質量

  論文地址:https://arxiv.org/abs/1912.04958

  在StyleGAN的第一個版本中,做者提出了一種替代的生成器體系架構,該體系架構可以生成高質量的圖像,而且可以分離高級屬性(例如,在人臉上進行訓練時的姿態和身份)。這種新架構包括使用來自潛在空間的映射網絡Z 和一箇中間空間 W 以更緊密地匹配訓練集中的特徵分佈,並避免出如今訓練中的禁用組合 Z。使用自適應實例Normalization(AdaIN)層將中間潛在向量合併到生成器中,同時在每次應用AdaIN以前會添加均勻的噪聲,並逐步進行訓練。該論文已經在數據驅動的無條件生成圖像建模中得到使人印象深入的結果。可是,生成的圖像仍然包含一些僞像,例如水斑和麪部屬性(如眼睛)的不變位置。

  

  首先,爲避免droplet 效應(AdaIN丟棄特徵圖中信息的結果),做者經過刪除一些多餘的操做,將噪聲添加到樣式的有效區域以外,將AdaIN替換爲權值解調層,而且僅調整每一個特徵圖的標準差。消除了漸進式GAN訓練以免基於MSG-GAN的面部屬性的永久位置。最後,StyleGAN2對損失引入了新的正則化項,以在中間潛在空間的單個位置基於Jacobian矩陣實施更平滑的潛在空間插值。

  對抗性潛在自動編碼器

  論文地址:https://arxiv.org/abs/2004.04467

  自動編碼器(AE)的特色是簡單易行,而且可以經過同時學習編碼器-生成器圖來組合生成性和表示性的功能。可是,它們不具備與GAN相同的生成功能。被提出的對抗潛在自動編碼器(ALAE)經過使用對抗性策略學習輸出數據分佈來保留GAN的生成特性,而AE架構則從數據中學習潛在分佈以改善分離特性(即 StyleGAN的W中間潛在空間)。

  

  ALAE體系架構將生成器G和判別符D分解爲兩個網絡:F,G和E,D,其中F和G之間以及E和D之間的潛在空間被認爲是相同的,並稱爲中間潛在空間 W。在這種狀況下,映射網絡F是肯定性的,而E和G是隨機的並取決於注入的噪聲。這對網絡(G,E)包含一個生成器-編碼器網絡,該網絡能夠自動編碼潛在空間W,並通過訓練以最大程度地減小這兩個分佈之間差別 Δ (例如MSE損失),即G輸入處的分佈和E輸出處的分佈。整體而言,經過交替優化GAN損失和Δ之間的差別來訓練模型 。

  其餘論文:

  Interpreting the Latent Space of GANs for Semantic Face Editing,https://arxiv.org/abs/1907.10786

  MaskGAN: Towards Diverse and Interactive Facial Image Manipulation,https://arxiv.org/abs/1907.11922

  Semantically Multi-modal Image Synthesis,https://arxiv.org/abs/2003.12697

  TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting,https://arxiv.org/abs/2003.14401

  Learning to Shadow Hand-drawn Sketches,https://arxiv.org/abs/2002.11812

  Wish You Were Here: Context-Aware Human Generation,https://arxiv.org/abs/2005.10663

  Disentangled Image Generation Through Structured Noise Injection,https://arxiv.org/abs/2004.12411

  MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks,https://arxiv.org/abs/1903.06048

  PatchVAE: Learning Local Latent Codes for Recognition,https://arxiv.org/abs/2004.03623

  Diverse Image Generation via Self-Conditioned GANs,https://arxiv.org/abs/1912.05237

  Towards Unsupervised Learning of Generative Models for 3D Controllable Image Synthesis,https://arxiv.org/abs/1912.05237

  3

  表徵學習

  自監督學習的上下文不變表徵學習

  論文地址:https://yassouali.github.io/ml-blog/cvpr2020/

  現有的自監督學習方法包括建立一個前置任務,例如,將圖像分爲九個塊,並在排列好的塊上解決拼圖遊戲。這些前置任務包括變換圖像,計算變換後的圖像的表示形式以及根據該表示形式預測變換的屬性。最後,做者認爲,學習的表示形式必須與轉換相適應,所以須要減小學習的語義信息數量。爲了解決這個問題,他們提出了PIRL(上下文不變表示學習)來學習關於變換的不變表示並保留更多的語義信息。

  

  PIRL訓練一個網絡,該網絡產生不依賴於圖像變換的圖像表示,這是經過最小化對比損失來完成的,其中訓練模型以區分N個對應負樣本中的正樣本(即圖像及其轉換版本)從數據集中隨機抽取均勻樣本,不包括用於正樣本的圖像。對於基於噪聲對比估計的損失,使用大量的負樣本相當重要。爲此,PIRL使用包含每一個示例的特徵表示的記憶銀行(memeory bank ) ,其中在給定實例中的每一個表示都是先前表示的指數移動平均值。

  ClusterFit:改進視覺表示的泛化能力

  論文地址:https://arxiv.org/abs/1912.03330

  弱監督(例如,標籤標籤預測)和自我監督(例如,拼圖遊戲)策略對於爲視覺下游任務進行預訓練CNN變得愈來愈流行。然而,在有限的訓練信號能夠在預訓練期間提取的狀況下,使用這種方法的學習表示可能會過分適合於預訓練目標,從而致使對下游任務的概括減小。

  

  ClusterFit的想法很是簡單,首先使用一些被選擇的預訓練任務對網絡進行預訓練,不管是自監督仍是弱監督學習,而後使用該網絡爲每一個圖像提取特徵,而後應用k均值聚類併爲每一個數據點分配僞標籤。而後,僞標籤可用於從頭開始訓練網絡,經過線性探測或微調,網絡將更適合於下游任務。

  用於無監督視覺表徵學習的動量對比

  論文地址:https://arxiv.org/abs/1911.05722

  無監督視覺表徵學習的最新工做基於最小化對比度損失,這能夠看做是構建動態字典,其中字典中的鍵是從數據(例如圖像或小圖塊)中採樣並由編碼器網絡表示的,而後訓練以便查詢 q相似於給定的鍵 k (正樣本),而且與其餘鍵(負樣本)不一樣。

  

  動量對比度(MoCo)經過匹配編碼查詢q來使用對比損失的編碼鍵字典。字典鍵是由一系列數據樣本動態定義的,其中字典是做爲隊列構建的,當前的小batch已入隊,最先的小batch已出隊,將其與小batch大小分離。經過使用隊列,即便在當前的小batch處理以外也可使用大量的負樣例。另外,鍵值能夠由緩慢進行的編碼器(即查詢編碼器的指數移動平均值)編碼,這樣,鍵值編碼器會隨着時間而緩慢變化,從而在訓練過程當中產生穩定的預測。查詢編碼器的另外一個好處是,用做負樣例的出隊鍵與鍵值編碼器的當前預測不太類似。

  指導超越局部像素統計的自監督特徵學習

  論文地址:https://arxiv.org/abs/2004.02331

  

  做者認爲,良好的圖像表示應同時捕獲本地和全局圖像統計信息,以便更好地推廣到下游任務,在本地任務中,本地統計信息捕獲像素點附近的分佈(例如紋理),而全局統計信息則捕獲遠程像素和色塊的分佈例如形狀。可是,CNN偏向局部統計數據,而且須要明確地將其重點放在全局功能上,以實現更好的生成。

  爲此,做者精心選擇了一組圖像變換(即扭曲、局部修復和旋轉),以使網絡僅僅觀察局部統計信息就沒法預測所應用的變換,從而迫使網絡專一於全局像素統計信息。經過選擇的變換,而後使用分類目標對網絡進行預訓練,以預測與所應用變換相對應的標籤。

  其餘論文:

  Self-Supervised Learning of Video-Induced Visual Invariances,https://arxiv.org/abs/1912.02783

  Circle Loss: A Unified Perspective of Pair Similarity Optimization,https://arxiv.org/pdf/2002.10857.pdf

  Learning Representations by Predicting Bags of Visual Words,https://arxiv.org/abs/2002.12247

  4

  計算攝影

  學會看透障礙物

  論文地址:https://arxiv.org/pdf/2004.01180.pdf

  本文提出了一種基於學習的方法來消除沒必要要的障礙物(例以下面的示例)。該方法使用了多幀障礙消除算法,該算法利用了基於優化方法和基於學習方法的優點,以密集到精細的方式在密集運動估計和背景/障礙層重構步驟之間交替。經過對密集運動進行建模,能夠逐步恢復各個層中的詳細內容,從而將背景與不須要的遮擋層逐漸分離。第一步由流形分解組成,隨後是兩個後續階段,即背景層和障礙層重構階段,最後是光流細化。

  

  背景摳圖:世界是你的綠幕

  論文地址:https://yassouali.github.io/ml-blog/cvpr2020/

  將圖像分爲前景和背景的過程稱爲遮罩(matte),一般須要綠幕背景或手動建立的三圖(trimap)來產生良好的遮罩,而後才能將提取的前景放置在所需的背景中。在本文中,做者建議使用捕獲的背景做爲真實背景的估計,而後將其用於求解前景和alpha值(即,圖像中的每一個像素都表示爲前景和背景的組合,並帶有權值alpha)。

  

  該模型將靜態天然背景前的人像圖像或視頻加上背景圖像做爲輸入。而後,深層摳圖網絡會爲給定的輸入幀提取每一個空間位置的前景色和alpha,並增長背景、柔和的分割以及可選的附近視頻幀,此外還有指導訓練以生成真實結果的判別器網絡。整個模型是結合有監督的和自監督的對抗損失進行端到端訓練的。

  使用上下文相關的分層深度修補進行3D攝影

  論文地址:https://arxiv.org/abs/2004.04727

  本文的目的是從單個RGB-D圖像合成輸入圖像中被遮擋的區域中的內容。所提出的方法包括三個步驟。首先,給定RGB-D圖像,經過使用雙邊中值濾波器對深度和顏色輸入進行濾波來應用預處理步驟,而後使用視差閾值檢測原始不連續性以估計深度邊緣。隨後檢測每一個檢測到的深度的上下文/合成區域。給定顏色,深度和邊緣信息,最後一步包括在顏色和深度修補的指導下進行深度邊緣修補,從而在GIF波紋管中看到了一個新視圖(摘自做者YT的視頻,https://www.youtube.com/watch?v=pCSI8YKdCPE)。

  

  脈衝:經過生成模型的潛在空間探索進行自監督的照片上採樣

  論文地址:https://arxiv.org/abs/2003.03808

  單圖像超分辨率的目標是從低分辨率(LR)圖像中輸出相應的高分辨率(HR)圖像。先前的方法在有監督損失下進行訓練,該損失會測量真實的HR圖像與模型輸出之間的像素平均距離。可是,存在映射到同一LR圖像的多個HR圖像,而且這些方法嘗試匹配真實的HR圖像,輸出全部可能的HR圖像的每一個像素的平均值,這些圖像在高頻區域中不包含不少細節,所以HR輸出模糊。

  

  脈衝試圖從可能縮小到相同LR輸入的HR圖像集中找到一個可能的HR圖像,而且能夠以自監督的方式進行訓練而無需有標籤數據集,從而使該方法更加靈活和不限於特定的降級運算符。具體來講,PULSE不是遍歷LR圖像並慢慢添加細節,而是遍歷高分辨率天然圖像流形,搜索縮小到原始LR圖像的圖像。這是經過最小化生成器的按比例縮小的HR輸出(將LR圖像做爲輸入)與LR圖像自己之間的距離度量來完成的。此外,搜索空間受到限制,以經過使用單位球面來確保生成器的輸出在d 維歐氏空間做爲潛在空間是逼真的。

  其餘論文:

  Learning to Autofocus,https://arxiv.org/abs/2003.08367

  Lighthouse: Predicting Lighting Volumes for Spatially-Coherent Illumination,https://arxiv.org/abs/2003.08367

  Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution,https://arxiv.org/abs/2002.11616

  Explorable Super Resolution,https://arxiv.org/abs/1912.01839

  Deep Optics for Single-shot High-dynamic-range Imaging,https://arxiv.org/abs/1908.00620

  Seeing the World in a Bag of Chips,https://arxiv.org/abs/2001.04642

  5

  遷移/小樣本/半監督/無監督學習

  用於任務感知的持續學習的條件通道門控網絡

  論文地址:https://arxiv.org/abs/2004.00070

  在訓練示例包含一系列子任務的狀況下,須要基於梯度優化的深度網絡會遭受災難性的遺忘,從而丟失先前任務中學習到的信息。持續學習試圖經過容許模型保護和保留所獲取的信息,同時仍然可以重新任務中提取新信息來解決這一問題。與LSTM / GRU中的門控機制類似,做者提出了一種通道門控模塊,其中僅根據當前任務選擇特徵圖的子集。這樣,能保護重要的filters以免模型在先前學習的任務上的性能損失,此外,經過選擇一組有限的要更新kernel,模型仍將具備學習新任務的能力。

  

  本文還引進了任務分類器,以克服在測試時瞭解模型要應用於哪一個任務的需求,訓練該任務分類器以預測在訓練時的任務,並選擇將哪些CNN特徵傳遞給全鏈接層用於分類。可是,任務分類器也容易遭受災難性的遺忘問題,所以做者建議使用情景記憶和生成記憶來訓練它,以免這種狀況發生。

  PolarMask:具備極座標表示的單鏡頭實例分割

  論文地址:https://arxiv.org/abs/1909.13226

  PolarMask建議使用極座標表示實例分割任務中每一個檢測到的目標掩碼。極座標表示與笛卡爾座標表示相比具備許多固有的優勢:(1)極座標的原點能夠看做是目標的中心。(2)從原點開始,能由距中心的距離和角度肯定對象的輪廓。(3)該角度是天然方向的(從0°到360°開始),這使得將這些點鏈接到整個輪廓很是方便。

  

  該模型基於FCOS:對於給定實例,咱們有三個輸出:k個 類上的分類機率(例如在COCO數據集上 k=80),目標的中心(極中心)和到中心的距離(掩碼迴歸)。本論文建議使用距中心n=36的距離,所以輪廓中兩點之間的角度爲10°。基於這些輸出,能夠像使用Mask-RCNN同樣,以單次拍攝的方式輕鬆檢測每一個目標的範圍,而無需使用子head網絡對每一個檢測到的目標進行像素方向的分割。

  經過嵌入自適應與設置到設置的功能進行小樣本(Few-Shot)學習

  論文地址:https://arxiv.org/abs/1812.03664

  小樣本學習包括學習一個具備N個類、每一個類中有K個樣本(即稱爲N-Way,K-shot任務)的性能良好的模型,可是高容量的深層網絡在有限的訓練數據上很容易出現過擬合。許多小樣本學習用的學習方法(例如,原型網絡)是經過在訓練有不少標記實例的狀況下從可見類中學習實例嵌入函數來解決此問題的,而後將一個簡單函數應用於具備有限標籤的不可見類中的新實例的嵌入測試時貼上標籤。可是,考慮到學習的嵌入功能對於看不見的類不是最佳的區分,所以學習的嵌入與任務無關。

  

  做者提出使用「set-to-set」功能使實例嵌入適應目標分類任務,從而產生任務特定且具備分辨性的嵌入。爲了產生任務特定的嵌入,做者將執行一個額外的適應步驟,其中嵌入功能將經過set-to-set函數進行轉換,該函數對集合的圖像實例進行上下文式處理,以實現每一個條例的強大共適應性。做者測試了許多set-to-set函數,例如BiLSTM,圖卷積網絡和Transformer,而且發現Transformer在這種狀況下有效。

  邁向可分辨性和多樣性:標籤不足狀況下的批量神經核範數最大化

  論文地址:https://arxiv.org/abs/2003.12237

  若是爲咱們提供了一個小的標註集,則因爲將決策邊界放置在高密度區域附近,結果致使模糊網絡上深度網絡的性能降低(右下圖)。一種常見的解決方案是熵最小化,可是由熵最小化引發的一個反作用是預測多樣性的下降,其中歧義樣本被歸類爲最主要的類別,便可分辨性增長但多樣性降低。

  

  這篇論文研究了增長可分辨性(輸出高度肯定的預測)和增長多樣性(均等地預測全部類別)的方法。經過分析輸出矩陣A∈RB×C (包含一批 B樣例和 C類別) 的秩,做者發現預測的判別性和多樣性能夠經過Frobenius範數和 A的秩來衡量,並提出批神經核範數最大化(Batch Nuclear-norm Maximization)將其應用於輸出矩陣 A 以提升咱們在標籤數量有限的狀況下的性能,例如半監督學習和域自適應學習。

  其餘論文:

  Distilling Effective Supervision from Severe Label Noise,https://arxiv.org/abs/1910.00701

  Mask Encoding for Single Shot Instance Segmentation,https://arxiv.org/abs/2003.11712

  WCP: Worst-Case Perturbations for Semi-Supervised Deep Learning,http://www.eecs.ucf.edu/~gqi/publications/CVPR2020_WCP.pdf

  Meta-Learning of Neural Architectures for Few-Shot Learning,https://arxiv.org/abs/1911.11090

  Towards Inheritable Models for Open-Set Domain Adaptation,https://arxiv.org/abs/1911.11090

  Open Compound Domain Adaptation,https://arxiv.org/abs/1909.03403

  6

  視覺與語言

  12合1:多任務視覺和語言表示學習

  論文地址:https://arxiv.org/abs/1912.02315

  基於視覺和語言的方法一般專一於少許孤立研究的獨立任務。可是,做者指出,完成這些任務中的每一項都須要具備視覺基礎的語言理解技能,這些技能明顯重疊。

  爲此,本文提出了一種大規模、多任務的訓練方案,該模型採用單一模型對來自如下四大類任務的12個數據集進行了訓練:視覺問題回答、基於字幕的圖像檢索,基礎引用表達式和多模式驗證。使用單個模型有助於將參數數量從大約30億個參數減小到2.7億個,同時提升跨任務的性能。

  

  該模型基於ViLBERT,其中每一個任務都有一個特定任務的head網絡,該head絡分支出一個公共的共享幹線(即ViLBERT模型)。擁有6個任務head,12個數據集以及超過440萬個獨立的訓練實例,這種規模的多任務訓練很難控制。爲了克服這個問題,首先將全部模型都在同一數據集上進行預訓練。而後使用循環批採樣從多任務訓練開始循環遍歷每一個任務,並在發現某些過擬合的狀況下儘早中止(early stopping)以停下給定任務,並有可能從新開始訓練以免災難性遺忘。

  其餘論文:

  Sign Language Transformers: Joint End-to-End Sign Language Recognition and Translation,https://arxiv.org/abs/2003.13830

  Counterfactual Vision and Language Learning,http://openaccess.thecvf.com/content_CVPR_2020/papers/Abbasnejad_Counterfactual_Vision_and_Language_Learning_CVPR_2020_paper.pdf

  Iterative Context-Aware Graph Inference for Visual Dialog,https://arxiv.org/abs/2004.02194

  Meshed-Memory Transformer for Image Captioning,https://arxiv.org/abs/1912.08226

  Visual Grounding in Video for Unsupervised Word Translation,https://arxiv.org/abs/2003.05078

  PhraseCut: Language-Based Image Segmentation in the Wild,https://people.cs.umass.edu/~smaji/papers/phrasecut+supp-cvpr20.pdf

  想要查看全部 CVPR 2020 論文,可前往如下網址查看:

  http://openaccess.thecvf.com/CVPR2020.py

  Vi a https://yassouali.github.io/ml-blog/cvpr2020/

相關文章
相關標籤/搜索