RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

上週,深度學習頂會 ICLR 2019 在新奧爾良落幕。畢業於斯坦福大學、現就任於英偉達的計算機科學家Chip Huyen參加了此次會議,並總結出了參會的8點感覺。html

選自huyenchip,做者:Chip Huyen,機器之心編譯。
算法

1. 包容性網絡

ICLR 2019 組織者強調包容性在AI中的重要性,前兩個主要演講——Sasha Rush的開場致辭和Cynthia Dwork的受邀演講——都是有關公平和平等的。如下是一些使人擔心的統計數據:session

  • 只有8.6%的展現者(oral和poster)和15%的參會者是女性;架構

  • 2/3的LGBTQ+研究者沒有以專業身份出席;app

  • 8名受邀演講者均爲白人。機器學習

Sasha Rush開場致辭的一頁PPT。

不幸的是,這種狀況彷佛並無引發AI研究者的注意和反思。其餘的workshop都爆滿,但AI for Social Good workshop卻門可羅雀,直到Yoshua Bengio出現。在我參與的衆多ICLR交流活動中,沒有人提到過多樣性,直到有一次我大聲問出來爲何我被邀請到這個並不適合個人科技活動,一位朋友告訴我說,「說出來可能有點冒犯,請你來是由於你是女性。」工具

這種現象出現的一個緣由是,這類話題並不是「技術性」的,所以在上面花時間並不會對你的研究生涯有所助益。另外一個緣由是,社會宣傳仍然存在一些問題。一位朋友曾告訴我,不要理睬那個在羣聊中挑釁個人傢伙,由於「他喜歡取笑那些探討平等和多樣性的人」。我有些朋友不會在網上談論任何有關多樣性的話題,由於他們不想「和那種話題扯上關係」。post

2. 無監督表徵學習 & 遷移學習性能

無監督表徵學習的主要目標是從無標註數據中發現有用的數據表徵,以完成後續任務。在NLP中,無監督表徵學習一般是利用語言建模完成的。而後將學到的表徵用到情感分析、命名實體識別、機器翻譯等任務中。

去年有一些比較使人振奮的論文是關於NLP無監督表徵學習的,包括ELMo (Peters et al.)、ULMFiT (Howard et al.)、OpenAI’s GPT (Radford et al.)、BERT (Devlin et al.),固然,還有「危險性太大而不能公佈的GPT-2」。

完整的GPT-2模型在ICLR上進行了展現,效果驚人。你能夠輸入任意提示,由它來完成後續文本創做。

GPT-2應用網站:https://talktotransformer.com/

Adam King利用GPT-2作成的應用網站。輸入爲「what does Amazon want to do」(ps:實際轉化速度較慢,動畫爲刪減絕大部分重複幀以後的效果)。網站地址:https://talktotransformer.com/

GPT-2能夠寫出各類文章、科學論文甚至是編造詞彙的定義。可是GPT-2如今看起來尚未徹底達到人類水平。該團隊正在致力於GPT-3的研究,這個模型更大,也可能更好。

雖然計算機視覺是首個成功應用遷移學習的社區,但其基本任務——在ImageNet上訓練分類模型——仍然是監督式的。天然語言處理社區和計算機視覺社區都在問同一個問題:「怎樣才能將無監督表徵學習應用到圖像上?」

儘管那些最有名的實驗室已經開始研究,但只有一篇論文出如今ICLR大會上:「Meta-Learning Update Rules for Unsupervised Representation Learning」(Metz et al.)。該研究團隊沒有更新權重,而是用算法更新學習規則。接下來在少許標註樣本上微調從學得學習規則中學到的表徵,來解決圖像分類問題。他們可以在MNIST和Fashion MNIST上找到準確率大於70%的學習規則。做者不打算公佈代碼,由於「它與計算有關」。外層循環須要大約10萬訓練步,在256個GPU上須要200個小時的訓練時間。

元學習的內、外循環(Metz et al.)。

我有一種感受,在不久的未來,咱們會看到更多這樣的論文。可使用無監督學習的任務包括:自動編碼、預測圖像旋轉(Gidaris等人的論文《Unsupervised Representation Learning by Predicting Image Rotations》在ICLR 2018上很火)、預測視頻中的下一幀。

3. ML的復古

機器學習領域的想法和時尚相似,都是循環式的。在poster session四處走走感受像走在記憶的迴廊上。即便最受期待的ICLR辯論也終結在「先驗 vs 結構」的話題上,而這是去年Yann LeCun 和 Christopher Manning討論過的話題,這種討論相似貝葉斯學派和頻率學派之間的經年辯論。

MIT媒體實驗室的「Grounded Language Learning and Understanding」項目在2001年就中斷了,可是grounded language learning今年帶着兩篇論文重回舞臺,不過它穿上了強化學習的外衣:

  • DOM-Q-NET: Grounded RL on Structured Language (Jia et al.):給出一個用天然語言表達的目標,該強化學習算法經過填充字段和點擊連接學習導航網頁。

  • BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning (Chevalier-Boisvert et al.):一個和OpenAI Gym兼容的平臺,具有一個手工製做的bot agent,該智能體能夠模擬人類教師指導智能體學習合成語言。

我對這兩篇論文的想法和AnonReviewer4同樣:

「……這裏提出的方法和語義解析文獻中研究的方法很是相似,儘管這篇論文僅引用了最近的深度強化學習論文。我認爲做者會從語義解析文章中受益良多,語義解析社區也能夠從這篇論文中獲得一些啓發……可是這兩個社區實際上交流並很少,即便在某些狀況下咱們研究的是相似的問題。」

肯定性有限狀態自動機(DFA)也有兩篇論文登上了ICLR 2019的舞臺:

  • Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks (Michalenko et al.)

  • Learning Finite State Representations of Recurrent Policy Networks (Koul et al.)

兩篇論文的主要動機是,由於RNN中的隱藏態空間很大,是否有可能把狀態數量減小到有限的數量?我質疑DFA是否可以有效地在語言中表明RNN,但我很喜歡在訓練階段學習RNN,而後把它轉換到DFA進行推理的想法,如同 Koul等人的論文所示。結果獲得的有限表徵在遊戲Pong中只須要3個離散記憶狀態和10個觀察狀態,它也能幫助解釋RNN。

從RNN學習一個DFA的三個階段(koul等人)。


提取自動機(Koul等人)

4. RNN失寵

2018到2019年的提交論文主題變化反映出:RNN出現大幅降低。這也在乎料之中,由於RNN雖然適用於序列數據,但也存在極大缺陷:它們沒法並行化,於是沒法利用2012年以來最大的研究驅動因素——算力。RNN在計算機視覺和強化學習領域並不流行,而在一度流行的天然語言處理領域,它們也正在被基於注意力的架構取代。

RNN失寵。(圖源: ICLR 2019補充統計數據)

這是否意味着RNN將死亡。並不是如此。ICLR 2019的最佳論文之一《 Ordered neurons: Integrating tree structures into Recurrent Neural Networks》 就和RNN有關。除了這篇最佳論文和上文提到的兩篇關於自動機的論文之外,ICLR 2019還接收了9篇關於RNN的論文,其中大部分研究深刻挖掘RNN的數學基礎知識,而不是探索RNN的新應用。

在工業界,RNN仍然很活躍,尤爲是處理時序數據的公司,好比貿易公司。而不幸的是,這些公司一般不會發表本身的研究。即便如今RNN對研究者不是那麼有吸引力,咱們也知道將來它可能「捲土重來」。

5. GAN仍然勢頭強勁

相比去年,GAN的相對變化呈負數,但相關論文的數量實際上有所增加,從大約70篇增加到了100篇左右。Ian Goodfellow 受邀發表了以GAN爲主題的演講,一如既往受到了衆多關注。

ICLR 2019第一個poster session是關於GAN的。出現了不少新的GAN架構、對已有GAN架構的改進,以及GAN分析。GAN應用囊括圖像生成、文本生成、音頻合成等多個領域,有 PATE-GAN、GANSynth、ProbGAN、InstaGAN、RelGAN、MisGAN、SPIGAN、LayoutGAN、KnockoffGAN等不一樣架構。

GAN poster session揭示了社區對GAN的反應是多麼地兩極分化。一些非GAN研究者如此評論:「我等不及想讓GAN這波風潮趕忙過去」、「一有人提到對抗,個人腦子就宕機。」他們多是嫉妒吧。

6. 缺少生物啓發式深度學習

鑑於你們對基因測序和CRISPR嬰兒的憂慮和討論,ICLR居然沒有出現不少結合深度學習和生物學的論文,這使人驚訝。關於這個話題一共有6篇論文:

兩篇關於生物啓發式架構:

  • Biologically-Plausible Learning Algorithms Can Scale to Large Datasets (Xiao et al.)

  • A Unified Theory of Early Visual Representations from Retina to Cortex through Anatomically Constrained Deep CNNs (Lindsey et al.)

一篇關於RNA設計:

  • Learning to Design RNA (Runge et al.)

三篇關於蛋白質控制(protein manipulation):

  • Human-level Protein Localization with Convolutional Neural Networks (Rumetshofer et al.)

  • Learning Protein Structure with a Differentiable Simulator (Ingraham et al.)

  • Learning protein sequence embeddings using information from structure (Bepler et al.)

受視網膜啓發的卷積神經網絡 (Lindsey et al.)

沒有一篇論文是關於基因組學的,也沒有一個workshop是關於這個話題的。這挺讓人難過的,不過對生物學感興趣的深度學習研究者或對深度學習感興趣的生物學家而言,這是一個巨大的機會。

7. 強化學習仍然是提交論文中最熱門的話題

ICLR 2019大會上的研究論文代表強化學習社區正在從無模型方法轉向樣本高效的基於模型的算法和元學習算法。這種轉變極可能受到 TD3 (Fujimoto et al., 2018) 和 SAC (Haarnoja et al., 2018) 設置的Mujoco連續控制基準上的極高分數,以及 R2D2 (Kapturowski et al., ICLR 2019) 設置的Atari離散控制人物上的極高分數的啓發。

基於模型的算法(即從數據中學習環境模型,而後利用該模型規劃或生成更多數據)在使用1/10-1/100的經驗進行訓練時,仍能達到和無模型算法同樣的漸近性能。這種優點代表基於模型的算法適合現實世界任務。當學得的模擬器可能有缺陷時,其偏差能夠經過更復雜的動態模型獲得緩解,好比模擬器的集成 (Rajeswaran et al.)。將強化學習應用到現實世界問題的另外一種方式是,使模擬器支持任意複雜的隨機化:在多樣化的模擬環境中訓練的策略可能認爲現實世界是「另外一次隨機化」,並取得成功 (OpenAI)。

可在多個任務上執行快速遷移學習的元學習算法使得樣本效率和性能獲得大幅改善 (ProMP (Rothfuss et al.)、PEARL (Rakelly et al.))。這些改善使咱們更加接近「強化學習的ImageNet時刻」,即咱們可使用從其餘任務上學習的控制策略,而不用從頭開始訓練策略(目前在複雜任務上這還是沒法實現的)。

在六個基準任務上,PEARL (Rakelly et al.) 的漸近性能和元訓練樣本效率都優於以前的元強化學習方法。

ICLR 2019接收論文中的很大一部分,以及Structure and Priors in RL (SPiRL) workshop中的全部論文,是關於如何將環境知識集成到學習算法的。儘管早期深度強化學習算法的主要優點之一是通常性(如DQN對全部Atari遊戲使用一樣的架構,而無需瞭解其中哪個特定遊戲),可是新算法展現出集成先驗知識有助於解決更復雜的任務。例如,在Transporter Network (Jakab et al.) 中,智能體使用先驗知識執行具有更多信息的結構探索。

總結來講,過去5年,強化學習社區開發了大量有效的工具來解決無模型強化學習難題。如今,是時候提出更採樣高效、可遷移的算法在現實世界問題上利用強化學習了。

此外,Sergey Levine多是今年接收論文最多的做者,有15篇之多。

8. 大部分接收論文很快就會被遺忘

在會上,我問一位知名研究者他如何看待今年的接收論文。他輕笑道:「大部分接收論文會議一結束就會被遺忘。」像機器學習這樣快速發展的領域,SOTA結果幾周甚至幾天後就可能被打破,大部分接收論文還沒正式展現就已經被超越也就不使人驚訝了。例如,ICLR 2018論文中8篇對抗樣本論文中的7篇在大會開始前已經被打破

大會上我常常聽到的一個評論是,論文接收/拒收很隨機。我不說名字,但一些廣爲人知或者引用很高的論文就曾被大會拒收過。此外,許多接收論文可能也無人引用。

做爲這個領域的一份子,我常常面臨存在危機。不管我想到了什麼靈感,彷佛總有其餘人已經在作了,且作得更好、更快。若是一篇論文對任何人都沒有幫助,那又有什麼發表的意義呢?誰能幫我解惑!

結論

固然,還有不少沒有覆蓋到的趨勢,例如:

  • 優化和正則化:Adam和SGD的爭論仍在繼續。今年ICLR大會提出了許多新技術,其中一些至關使人激動。看起來,每一個實驗室都在開發本身的優化器,咱們團隊一樣如此。

  • 評估度量:隨着生成模型愈來愈流行,咱們不可避免地須要提出新的度量標準,以評估生成的輸出。

若是你想要了解更多,David Abel發佈了一個55頁的ICLR 2019筆記。想了解ICLR 2019熱點的人,下面這張圖會有所幫助:

看起來,應該寫一篇名爲「A robust probabilistic framework for universal, transferrable unsupervised meta-learning」的論文(必定能火)。

我真的很享受ICLR,這個大會夠大,能找到不少志同道合的朋友,也夠小,不用事事都排隊,4天的會議也剛恰好。相比之下,NeurIPS就有點太長,參會四天後我就會邊看poster邊想:「看看全部這些知識,我應該如今就掌握,但卻並不想。」

我在ICLR大會上最大的收穫不只是思路,還有動力。許多我這個年紀的研究者做出的卓越成果讓我看到了研究之美,激勵我更努力地工做。用一週的時間追論文見老朋友也很是nice。

相關文章
相關標籤/搜索