2020年最具影響力的10個機器學習研究成果

去年有哪些機器學習重要進展是你必須關注的？聽聽 DeepMind 研究科學家怎麼說。

2020 年由於新冠疫情，不少人不得不在家工做和學習，大量人工智能學術會議也轉爲線上。不過在去年咱們仍然看到了不少 AI 技術領域的進展。DeepMind 研究科學家 Sebastian Ruder 近日幫咱們對去年的機器學習社區進行了一番總結。

首先你必須瞭解的是：這些重點的選擇基於做者我的熟悉的領域，所選主題偏向於表示學習、遷移學習，面向天然語言處理（NLP）。 若是讀者有不一樣的看法，能夠留下本身的評論。

Sebastian Ruder 列出的 2020 年十大機器學習研究進展是：

大模型和高效模型

語言模型從 2018 年到 2020 年的發展（圖片來自 State of AI Report 2020）。

2020 年發生了什麼？

在過去的一年，咱們看到了不少史無前例的巨型語言和語音模型，如 Meena（Adiwardana et al., 2020）、Turing-NLG、BST（Roller et al., 2020）和 GPT-3（Brown et al., 2020）。與此同時，研究人員們也早已意識到訓練這樣的模型要耗費過量的能源（Strubell et al., 2019），並轉而探索體量更小、效果仍然不錯的模型：最近的一些進展方向來自於裁剪（(Sajjad et al., 2020、Sanh et al., 2020、）、量化（Fan et al., 2020b）、蒸餾（Sanh et al., 201九、Sun et al., 2020）和壓縮（Xu et al., 2020）。

另有一些研究關注如何讓 Transformer 架構自己變得更高效。其中的模型包括 Performer（Choromanski et al., 2020）和 Big Bird（Zaheer et al., 2020），如本文第一張圖所示。該圖顯示了在 Long Range Arena 基準測試中不一樣模型的性能（y 軸）、速度（x 軸）和內存佔用量（圓圈大小）（Tay et al., 2020）。

像 experiment-impact-tracker 這樣的工具（Henderson et al., 2020）已讓咱們對於模型的能耗效率更爲了解。其研究者還推進了評估效率的競賽和基準測試，如 EMNLP 2020 上的 SustaiNLP 研討會，NeurIPS 2020 上的 Efficient QA 競賽和 HULK（Zhou et al., 2020。

模型體量的擴大可讓咱們不斷突破深度學習能力的極限。而爲了在現實世界部署它們，模型必須高效。這兩個方向也是相輔相成的：壓縮大號模型能夠兼顧效率和性能（Li et al., 2020），而效率更高的方法也能夠推進更強、更大的模型（Clark et al., 2020）。

鑑於對效率和可用性的考慮，我認爲將來研究的重點不只僅是模型的表現和參數數量，也會有能耗效率。這會有助於人們對於新方法進行更全面的評估，從而縮小機器學習研究與實際應用之間的差距。

檢索加強

使用 REALM 進行無監督預訓練，檢索器和編碼器通過了聯合預訓練。

大規模模型能夠利用預訓練數據學習出使人驚訝的全局知識，這使得它們能夠重建事實（Jiang et al., 2020）並在不接觸外界上下文的狀況下回答問題（Roberts et al., 2020）。然而，把這些知識隱式地存儲在模型參數中效率很低，須要極大的模型來存儲足量的信息。與之不一樣的是，最近的一些方法選擇同時訓練檢索模型和大規模語言模型，在知識密集型 NLP 任務上得到了強大的結果，如開放域問答（Guu et al., 2020、Lewis et al., 2020）和語言建模（Khandelwal et al., 2020）。

這些方法的主要優勢是將檢索直接集成到語言模型的預訓練中，從而讓語言模型效率更高，專一於學習天然語言理解中更具挑戰性的概念。所以在 NeurIPS 2020 EfficientQA 競賽中的最佳系統依賴於檢索（Min et al., 2020）。

檢索是不少生成任務的標準方法，例如文本摘要和對話此前已大量被摘要生成所替代 (Allahyari et al., 2017)。檢索加強生成能夠將兩個方面的優勢結合在一塊兒：檢索段的事實正確性、真實性以及所生成文本的相關性和構成。

檢索加強生成對於處理過去困擾生成神經模型的失敗案例尤爲有用，尤爲是在處理幻覺（hallucination）上（Nie et al., 2019）。它也能夠經過直接提供預測依據來幫助使系統更易於解釋。

少樣本學習

Prompt-based 微調使用模板化的提示和演示（Gao et al., 2020）。

在過去幾年中，因爲預訓練的進步，給定任務的訓練樣本數量持續減小（Peters et al., 201八、Howard et al., 2018）。咱們如今正處在可使用數十個示例來完成給定任務的階段（Bansal et al., 2020）。天然地，人們想到了少樣本學習變革語言建模的範式，其中最爲突出的例子就是 GPT-3 中上下文學習的方法。它能夠根據一些輸入 - 輸出對和一個提示進行預測。無需進行梯度更新。

不過這種方式仍然有其限制：它須要一個巨大的模型——模型須要依賴現有的知識——這個模型可以使用的知識量受到其上下文窗口的限制，同時提示須要手工完成。

最近的一些工做試圖經過使用小模型，集成微調和自動生成天然語言提示（Schick and Schütze, 2020、Gao et al., 2020、Shin et al., 2020）讓少樣本學習變得更加有效。這些研究與可控神經文本生成的更普遍領域緊密相關，後者試圖普遍地利用預訓練模型的生成能力。

有關這一方面，能夠參閱 Lilian Weng 的一篇博客：

https://lilianweng.github.io/lil-log/2021/01/02/controllable-neural-text-generation.html

少樣本學習可使一個模型快速承接各類任務。可是爲每一個任務更新整個模型的權重是很浪費的。咱們最好進行局部更新，讓更改集中在一小部分參數裏。有一些方法讓這些微調變得更加有效和實用，包括使用 adapter（Houlsby et al., 201九、Pfeiffer et al., 2020a、Üstün et al., 2020），加入稀疏參數向量（Guo et al., 2020），以及僅修改誤差值（Ben-Zaken et al., 2020）。

可以僅基於幾個範例就可讓模型學會完成任務的方法，大幅度下降了機器學習、NLP 模型應用的門檻。這讓模型能夠適應新領域，在數據昂貴的狀況下爲應用的可能性開闢了道路。

對於現實世界的狀況，咱們能夠收集上千個訓練樣本。模型一樣也應該能夠在少樣本學習和大訓練集學習之間無縫切換，不該受到例如文本長度這樣的限制。在整個訓練集上微調過的模型已經在 SuperGLUE 等不少流行任務中實現了超越人類的性能，但如何加強其少樣本學習能力是改進的關鍵所在。

對比學習

實例判別從同一個圖像的不一樣轉換之間比較特徵（Caron et al., 2020）。

對比學習是一種爲 ML 模型描述類似和不一樣事物的任務的方法。利用這種方法，能夠訓練機器學習模型來區分類似和不一樣的圖像。

最近，對比學習在計算機視覺和語音的自監督表徵學習（van den Oord, 2018; Hénaff et al., 2019）中愈來愈受歡迎。用於視覺表徵學習的新一代自監督強大方法依賴於使用實例判別任務的對比學習：將不一樣圖像視爲 negative pairs，相同圖像的多個視圖視爲 positive pairs。最近的方法進一步改善了這種通用框架：SimCLR（Chen et al., 2020）定義了加強型實例的對比損失；Momentum Contrast（He et al., 2020）試圖確保大量且一致的樣本對集合；SwAV（Caron et al., 2020）利用在線聚類；而 BYOL 僅使用 positive pairs（Grill et al., 2020）。Chen 和 He (2020) 進一步提出了一種與先前方法有關的更簡單的表述。

最近，Zhao et al. (2020)發現數據加強對於對比學習相當重要。這可能代表爲何在數據加強不那麼廣泛的 NLP 中使用大型預訓練模型進行無監督對比學習並不成功。他們還假設，實例判別比計算機視覺中的有監督預訓練更好的緣由是：它不會試圖讓一個類中全部實例的特徵類似，而是保留每一個實例的信息。在 NLP 中，Gunel et al. (2020)無監督的預訓練涉及對成千上萬個單詞類型進行分類的問題不大。在 NLP 中，Gunel et al. (2020)最近採用對比學習進行有監督的微調。

語言建模中經常使用的 one-hot 標籤與模型輸出的 logit 之間的交叉熵目標存在一些侷限性，例如在不平衡的類中泛化效果較差（Cao et al., 2019）。對比學習是一種可選擇的補充範式，能夠幫助緩解其中的一些問題。

對比學習與 masked 語言建模相結合可以讓咱們學習更豐富、更魯棒的表徵。它能夠幫助解決模型異常值以及罕見的句法和語義現象帶來的問題，這對當前的 NLP 模型是一個挑戰。

要評估的不僅是準確率

用於探索情感分析中否認性的理解的 CheckList 模板和測試（Ribeiro et al., 2020）。

NLP 中的 SOTA 模型已在許多任務上實現了超越人類的表現，但咱們可否相信這樣的模型能夠實現真正的天然語言理解（Yogatama et al., 2019; Bender and Koller, 2020）？其實，當前的模型離這個目標還很遠。但矛盾的是，現有的簡單性能指標沒法體現這些模型的侷限性。該領域有兩個關鍵主題：a）精選當前模型難以處理的樣例；b）不僅是選擇準確率等簡單指標，而是進行更細粒度的評估。

關於前者，經常使用的方法是在數據集建立過程當中使用對抗過濾（Zellers et al., 2018），過濾出由當前模型正確預測的樣例。最近的研究提出了更有效的對抗過濾方法（Sakaguchi et al., 2020; Le Bras et al., 2020）和一種迭代數據集建立處理方法（Nie et al., 2020; Bartolo et al., 2020），其中樣例通過過濾，模型通過了多輪的從新訓練。Dynabench 提供了此類不斷變化的基準的子集。

針對第二點的方法在本質上也是類似的。該領域一般會建立 minimal pairs（也稱爲反事實樣例或對比集）（Kaushik et al., 2020; Gardner et al., 2020; Warstadt et al., 2020），這些 minimal pairs 以最小的方式干擾了樣例，而且常常更改 gold label。Ribeiro et al. (2020) 在 CheckList 框架中形式化了一些基本的直覺，從而能夠半自動地建立此類測試用例。此外，基於不一樣的屬性來描述樣例能夠對模型的優缺點進行更細粒度的分析（Fu et al., 2020）

爲了構建功能更強大的機器學習模型，咱們不只須要瞭解模型是否優於先前的系統，還須要瞭解它會致使哪一種錯誤以及還有哪些問題沒被反映出來。經過提供對模型行爲的細粒度診斷，咱們能夠更輕鬆地識別模型的缺陷並提出解決方案。一樣，利用細粒度的評估能夠更細緻地比較不一樣方法的優缺點。

語言模型的現實應用問題

模型會根據看似無害的提示，生成有害的結果(Gehman et al., 2020)。

與 2019 年語言模型 (LMs) 分析側重於此類模型所捕獲的語法、語義和世界認知的氛圍相比，最近一年的分析揭示了許多實際問題。

好比通過預訓練的 LM 容易生成「有毒」的語言 (Gehman et al., 2020)」、泄露信息 (Song & Raghunathan, 2020)。還存在微調後易受到攻擊的問題，以至攻擊者能夠操縱模型預測結果 (Kurita et al., 2020; Wallace et al., 2020)，以及容易受到模型的影響(Krishna et al., 2020; Carlini et al., 2020）。

衆所周知，預訓練模型能夠捕獲關於受保護屬性（例如性別）的偏見（Bolukbasi et al., 2016; Webster et al., 2020），Sun et al., 2019 的研究給出了一份減輕性別偏見的調查。

大公司推出的大型預訓練模型每每在實際場景中會有積極的部署，因此咱們更應該意識到這些模型存在什麼偏見，又會產生什麼有害的後果。

隨着更大模型的開發和推出，從一開始就將這些偏見和公平問題歸入開發過程是很重要的。

Multilinguality

全球標記 / 未標記語言數據的不均衡分佈狀況(Joshi et al., 2020)。

2020 年，多語言 NLP 有諸多亮點。旨在增強非洲語種 NLP 研究的 Masakhane 機構在第五屆機器翻譯會議 (WMT20) 上發表的主題演講，是去年最使人鼓舞的演講之一。此外，這一年還出現了其餘語言的新通用基準，包括 XTREME (Hu et al., 2020)、XGLUE (Liang et al., 2020)、IndoNLU (Wilie et al., 2020)、IndicGLUE (Kakwani et al., 2020)。現有的數據集也拓展到了其餘語言中，好比：

SQuAD: XQuAD (Artetxe et al., 2020), MLQA (Lewis et al., 2020), FQuAD (d'Hoffschmidt et al., 2020);html
Natural Questions: TyDiQA (Clark et al., 2020), MKQA (Longpre et al., 2020);mysql
MNLI: OCNLI (Hu et al., 2020), FarsTail (Amirkhani et al., 2020);git
the CoNLL-09 dataset: X-SRL (Daza and Frank, 2020);github
the CNN/Daily Mail dataset: MLSUM (Scialom et al., 2020)。web

經過 Hugging Face 數據集能夠訪問其中的大部分數據集，以及許多其餘語言的數據。涵蓋 100 種語言的強大模型也就應運而生了，包括 XML-R (Conneau et al., 2020)、RemBERT (Chung et al., 2020)、InfoXLM (Chi et al., 2020)等，具體可參見 XTREME 排行榜。大量特定語言的 BERT 模型已經針對英語之外的語言進行了訓練，例如 AraBERT (Antoun et al., 2020)和 IndoBERT (Wilie et al., 2020)，查看 Nozza et al., 2020; Rust et al., 2020 的研究能夠了解更多信息。藉助高效的多語言框架，好比 AdapterHub (Pfeiffer et al., 2020)、Stanza (Qi et al., 2020)和 Trankit (Nguyen et al., 2020) ，世界上許多語種的建模和應用工做都變得輕鬆了許多。

此外，還有兩篇頗有啓發的研究，《The State and Fate of Linguistic Diversity(Joshi et al., 2020)》和《Decolonising Speech and Language Technology (Bird, 2020)》。第一篇文章強調了使用英語以外語言的緊迫性，第二篇文章指出了不要將語言社區及數據視爲商品。

拓展到英語以外的 NLP 研究有不少好處，對人類社會能產生實實在在的影響。考慮到不一樣語言中數據和模型的可用性，英語以外的 NLP 模型將大有做爲。同時，開發可以應對最具挑戰性設置的模型並肯定哪些狀況會形成當前模型的基礎假設失敗，仍然是一項激動人心的工做。

圖像Transformers

Vision Transformer 的論文中，研究者將 Transformer 編碼器應用於平坦圖像塊。

Transformer 在 NLP 領域取得了巨大的成功，但它在卷積神經網絡 CNN 佔據主導地位的計算機視覺領域卻沒那麼成功。2020 年初的 DETR (Carion et al., 2020) 將 CNN 用於計算圖像特徵，但後來的模型徹底是無卷積的。Image GPT (Chen et al., 2020)採用了 GPT-2 的方法，直接從像素進行預訓練，其性能優於有監督的 Wide ResNet，後來的模型是將圖像重塑爲被視爲「token」的補丁。Vision Transformer (ViT，Dosovitskiy et al., 2020)在數百萬個標記好的圖像上進行了訓練，每個圖像都包含此類補丁，模型效果優於現有最新的 CNN。Image Processing Transformer（IPT，Chen et al., 2020）在被破壞的 ImageNet 示例上進行對比損失預訓練，在 low-level 圖像任務上實現了新的 SOTA。Data-efficient image Transformer (DeiT，Touvron et al., 2020) 以蒸餾方法在 ImageNet 上進行了預訓練。

有趣的是，研究者們發現了 CNN 是更好的教師，這一發現相似於蒸餾概括偏置（inductive bias）應用於 BERT (Kuncoro et al., 2020)。相比之下在語音領域，Transformer 並未直接應用於音頻信號，而一般是將 CNN 等編碼器的輸出做爲輸入(Moritz et al., 2020; Gulati et al., 2020; Conneau et al., 2020)。

與 CNN 和 RNN 相比，Transformer 的概括偏置更少。儘管在理論上，它不如 RNN (Weiss et al., 2018; Hahn et al., 2020)強大，但若是基於充足的數據和規模，Transformer 會超越其餘競爭對手的表現。

將來，咱們可能會看到 Transformer 在 CV 領域愈來愈流行，它們特別適用於有足夠計算和數據用於無監督預訓練的狀況。在小規模配置的狀況下，CNN 應該還是首選方法和基線。

天然科學與機器學習

基於自注意力的 AlphaFold 架構。

去年，DeepMind 的 AlphaFold 在 CASP 蛋白質摺疊挑戰賽中實現了突破性的表現，除此以外，將機器學習應用於天然科學還有一些顯著的進展。MetNet (Sønderby et al., 2020)證實機器學習在降水預測方面優於數值天氣預報；Lample 和 Charton（2020）採用神經網絡求解微分方程，比商用計算機系統效果更好；Bellemare et al. （2020）使用強化學習爲平流層的熱氣球導航。

此外，ML 現已被普遍應用於 COVID-19，例如 Kapoor 等人利用 ML 預測 COVID-19 的傳播，並預測與 COVID-19 相關的結構，Anastasopoulos 等人將相關數據翻譯成 35 種不一樣的語言，Lee 等人的研究能夠實時回答有關 COVID-19 的問題。

有關 COVID-19 相關的 NLP 應用程序的概述，請參閱第一期 COVID-19 NLP 研討會的會議記錄：《Proceedings of the 1st Workshop on NLP for COVID-19 (Part 2) at EMNLP 2020》。

天然科學能夠說是 ML 最具影響力的應用領域。它的改進涉及到生活的許多方面，能夠對世界產生深遠的影響。隨着蛋白質摺疊等核心領域的進展，ML 在天然科學中的應用速度只會加快。期待更多促進世界進步的研究出現。

強化學習

與最早進的智能體相比，Agent57 和 MuZero 整個訓練過程當中在雅達利遊戲中的表現優於人類基準(Badia et al., 2020)。

單個深度強化學習智能體 Agent57(Badia et al., 2020)首次在 57 款 Atari 遊戲上超過人類，這也是深度強化學習領域中的一個長期基準。智能體的多功能性來自於神經網絡，該網絡容許在探索性策略和利用性策略之間切換。

強化學習在遊戲方面的另外一個里程碑是 Schrittwieser 等人開發的 MuZero，它能預測環境各個方面，而環境對精確的規劃很是重要。在沒有任何遊戲動態知識的狀況下，MuZero 在雅達利上達到了 SOTA 性能，在圍棋、國際象棋和日本象棋上表現也很出色。

最後是 Munchausen RL 智能體(Vieillard et al., 2020)，其經過一個簡單的、理論上成立的修改，提升了 SOTA 水平。

強化學習算法有許多實際意義 (Bellemare et al., 2020)。研究人員對這一領域的基本算法進行改進，經過更好的規劃、環境建模和行動預測產生很大的實際影響。

隨着經典基準（如 Atari）的基本解決，研究人員可能會尋找更具挑戰性的設置來測試他們的算法，如推廣到外分佈任務、提升樣本效率、多任務學習等。

參考內容： https://ruder.io/research-highlights-2020/

微信紅包封面獲取方法

公衆號回覆：紅包口令

 
    
    
    
     
     
              
     
 
    
  
     
     
     
      
      
               
      
  
     

 
    
    
    
     
     
              
     
 
    
猜你可能喜歡算法
mysql表數據裝滿了怎麼辦？sql
從相親提及，通俗理解決策樹算法
微信
K-近鄰算法通俗理解與實踐網絡

本文分享自微信公衆號 - 數據分析挖掘與算法（ikeguang2）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。架構