本週的重要論文有何愷明組提出的超越 EfficientNet 的新型網絡設計範式,以及阿里達摩院推出的高性能GPU專用模型TResNet。
目錄:ios
- Designing Network Design Spaces
- A Survey of Deep Learning for Scientific Discovery
- TResNet: High Performance GPU-Dedicated Architecture
- Controllable Person Image Synthesis with Attribute-Decomposed GAN
- Validation Set Evaluation can be Wrong: An Evaluator-Generator Approach for Maximizing Online Performance of Ranking in E-commerce
- Put It Back: Entity Typing with Language Model Enhancement
- Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation on Person Re-identification
- ArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音頻)
論文 1:Designing Network Design Spacesweb
- 做者:Ilija Radosavovic、 Raj Prateek Kosaraju、Piotr Dollar 等
- 論文連接:https://arxiv.org/pdf/2003.13678.pdf
摘要:儘管神經架構搜索(Neural Architecture Search,NAS)的有效性已經獲得了證實,但其範式依然存在限制。搜索結果每每是僅僅符合特定設置(如硬件平臺)的單個網絡實例。這在某些狀況下足以,但卻不能幫助咱們發掘出那些可以加深理解且泛化到新設置的網絡設計準則。總之,咱們須要建立一些易於理解、繼承和泛化的簡單模型。算法
在本文中,包括何愷明在內的幾位 FAIR 研究者提出了一種新型網絡設計範式,它可以充分結合手工設計和神經架構搜索的優勢。他們再也不將注意力放在單個網絡實例的設計上,而是設計出了參數化網絡羣的設計空間。既像手工設計同樣,研究者追求可解釋性,而且旨在發現通用設計準則以描述那些結構簡單、運行良好且不一樣設置下均能適用的網絡。又像神經架構搜索同樣,研究者充分利用半自動化流程來幫助實現這些目標。網絡
設計空間設計的示意圖。架構
移動機制下 RegNet 模型與現有網絡的性能對比。框架
本文設計空間中模型的通常網絡結構。ide
推薦:何愷明大神組的又一力做,論文已被 CVPR 2020 接收。函數
論文 2:A Survey of Deep Learning for Scientific Discovery佈局
- 做者:Maithra Raghu、Eric Schmidt
- 論文連接:https://arxiv.org/pdf/2003.11755v1.pdf
摘要:在本篇綜述論文中,兩位研究者概述了許多普遍使用的深度學習模型,涵蓋了視覺、順序和圖形結構化數據,關聯任務和各類培訓方法,以及使用較少數據和 更好地解釋這些複雜的模型。此外,他們還提供了整個設計過程的概述、實現技巧、教程連接、研究總結以及開源的深度學習 pipeline 和預訓練模型。最後,研究者但願這篇綜述文章將有助於加速跨不一樣科學領域深度學習的使用。性能
典型的深度學習工做流示意圖。
推薦:Yann LeCun 轉推並高度評價了這篇科學領域應用深度學習的綜述論文。
論文 3:TResNet: High Performance GPU-Dedicated Architecture
- 做者:Tal Ridnik、 Hussam Lawen、Itamar Friedman 等
- 論文連接:https://arxiv.org/pdf/2003.13630.pdf
摘要:在本文中,來自阿里達摩院的研究者提出一系列架構修正,旨在提高神經網絡的準確性,同時保留 GPU 訓練和推理效率。他們首先驗證並討論了由 Flops 優化帶來的瓶頸,而後提出更高效利用 GPU 結構和 asset 的替代設計,最後推出了一個稱爲 TResNet 的 GPU 專用模型。
與以前的 ConvNets 模型相比,TResNet 模型具備表現出更高的準確度和效率。使用 TResNet 模型以及與 ResNet50 類似的 GPU 吞吐量,研究者在 ImageNet 上實現了 80.7% 的 top-1 準確度。此外,TResNet 模型的遷移效果也很好,在 Stanford cars (96.0%)、CIFAR-10 (99.0%)、CIFAR-100 (91.5%) 以及 Oxford-Flowers (99.1%) 等數據集上實現了當前 SOTA 準確度。
與 ResNet50、EfficientNet 以及 MixNet 等網絡相比,本文提出的 TResNet-M 在 Top 推理速度和 Top-1 準確度上均實現了當前 SOTA。注意,全部的度量都是在具備混合精度的英偉達 V100 GPU 上完成。
TResNet-M 的 stem 設計。
TResNet 的基本塊(BasicBlock)和瓶頸設計示意圖。
推薦:本文的亮點在於,研究者提出的 TResNet 在 Top-1 準確度上超越了 ResNet50。
論文 4:Controllable Person Image Synthesis with Attribute-Decomposed GAN
- 做者:Yifang Men、Yiming Mao、Zhouhui Lian 等
- 論文連接:https://arxiv.org/pdf/2003.12267.pdf
摘要:在本文中,來自北大和字節跳動 AI 實驗室的研究者介紹了屬性分解 GAN(Attribute-Decomposed GAN),這是一種用於可控人物圖像合成的新型生成模型。該模型能夠在各類源輸入中生成涵蓋預期人物屬性(例如姿態、面部、上衣和褲子)的真實人物圖像,其核心思想是將人物屬性做爲獨立代碼嵌入到隱空間中,並經過在顯式風格表徵中執行混合和插值操做,進而實現對屬性的靈活、連續控制。
具體而言,研究者提出了一種新的體系結構,該體系結構由具備風格塊鏈接的兩個編碼路徑組成,以將原始映射分解爲多個更容易訪問的子任務。在源代碼路徑中,他們進一步使用現有的人類解析器提取組件佈局,並將其饋入到共享的全局紋理編碼器中,以分解潛在代碼。這種策略能夠合成更逼真的輸出圖像,並自動分離未標註的屬性。
生成器網絡架構示意圖。
生成器紋理編碼器詳解圖。
任意姿態的人物合成圖像結果。
推薦:實驗結果顯示,這種屬性分解 GAN 在姿態遷移方面優於現有 SOTA 技術,並在組件屬性遷移全新任務中表現出有效性。
論文 5:Validation Set Evaluation can be Wrong: An Evaluator-Generator Approach for Maximizing Online Performance of Ranking in E-commerce
- 做者:Guangda Huzhang、Zhen-Jia Pang、Yang Yu 等
- 論文連接:https://arxiv.org/pdf/2003.11941.pdf
摘要:用驗證集來測試算法性能、挑選模型是一種常見操做,在電商領域也是如此。但阿里巴巴與南京大學的一篇論文指出,對於在線推薦排序這種具備決策因素的環境,驗證集評估獲得的性能與真實的在線性能會出現很大的出入,驗證集效果好的方法真實性能可能更差。「這意味着,這一方向的研究可能已經被驗證集評估帶歪了。」針對這一問題,他們提出了一種新的評估器-生成器方法,可顯著提高商品排序的有效性。
本論文爲電子商務的逐分組 LTR 提出了一種評估器-生成器框架 EG-Rerank。EG-Rerank 可以使用商品及其上下文信息來預測已排序商品列表的購買機率。此外,研究者還引入了一個判別器並將其用做自信評分函數(self-confidence scoring function)。這個判別器可經過對抗訓練方法來學習,可給出評估器爲一個商品列表給出的分數的置信度。研究者使用這一判別器來引導生成器從判別器的視角在置信空間中輸出順序。而後,EG-Rerank 經過一種強化學習方法來訓練 LTR 模型,其可在評估器的引導下探索商品的順序。
EG-Rerank 框架。首先訓練評估器並將其固定下來,而後經過 PPO 訓練生成器,其獎勵由評估器提供。對於 EG-Rerank+,生成器和判別器是同時訓練的。
真實數據中的列表分佈。爲了減小在線環境中的噪聲以及更好的演示,研究者移除了離各組質心最遠的 20% 的記錄。
(圖注)在線性能。在 CR gap 列,第一行由於是基準,因此差距始終爲 0。
推薦:本文是南京大學人工智能學院俞揚教授指導完成的最新論文。相比於通過微調的產業級再排名逐對評分模型,本文提出的 EG-Rerank+ 可將轉化率穩定地提高 2%——對於成熟的大型平臺而言,這是很是重大的提高。
論文 6:Put It Back: Entity Typing with Language Model Enhancement
- 做者:Ji Xin、Zhiyuan Liu、Maosong Sun 等
- 論文連接:https://www.aclweb.org/anthology/D18-1121.pdf
摘要:實體分型旨在對特定語境中說起的實體的語義類型進行分類。現有的大多數模型都使用遠程監督來獲取訓練數據,而且不可避免地會遇到噪聲標籤(noise label)的問題。
爲了解決這一問題,來自清華大學和加拿大滑鐵盧大學的研究者提出使用語言模型加強來進行實體分型。具體而言,它利用語言模型來度量上下文中句子和標籤之間的兼容性,從而自動將更多注意力集中在與上下文相關的標籤上。在基準數據集上進行的實驗代表,他們提出的方法可以使用語言模型中的信息來加強實體分型模型,而且大大優於當前 SOTA 基線方法。
本文使用的模型結構圖:實體分型(ET)模塊和語言模型加強(LME)模塊。
本文實體分型在 strict accuracy、macro-F1 和 micro-F1 三種度量上的性能表現。
推薦:值得關注的是,文中的語言模型加強(LME)也得很好地適應其餘實體分型系統。
論文 7:Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation on Person Re-identification
- 做者:Yixiao Ge、Dapeng Chen、Hongsheng Li
- 論文連接:https://openreview.net/forum?id=rJlnOhVYPS
摘要:本文是香港中文大學發表於 ICLR 2020 上的一篇論文,旨在解決更實際的開放集無監督領域自適應問題,所謂開放集指預先沒法獲知目標域所含的類別。這項工做在多個行人重識別任務上驗證其有效性,精度顯著地超過最早進技術 13%-18%,大幅度逼近有監督學習性能。
爲了有效地解決基於聚類的算法中的僞標籤噪聲的問題,該文提出利用"同步平均教學"框架進行僞標籤優化,核心思想是利用更爲魯棒的"軟"標籤對僞標籤進行在線優化。在這裏,"硬"標籤指代置信度爲 100% 的標籤,如經常使用的 one-hot 標籤 [0,1,0,0],而"軟"標籤指代置信度<100% 的標籤,如 [0.1,0.6,0.2,0.1]。總的來講,該文提出"相互平均教學"(Mutual Mean-Teaching)框架爲無監督領域自適應的任務提供更爲可信的、魯棒的僞標籤;針對三元組(Triplet)設計合理的僞標籤以及匹配的損失函數,以支持協同訓練的框架。
從嘈雜的硬僞標籤到魯棒的軟僞標籤。
本文提出的相互平均教學(MMT)框架示意圖。
算法 1:無監督 MMT 訓練策略。
推薦:本文的亮點在於,這是 ICLR 收錄的第一篇行人重識別任務相關的論文,代碼和模型均也已公開。