做者 | 陳大鑫算法
近日,機器學習頂會ICLR 2021投稿已經結束,最後共有3013篇論文提交。ICLR 採用公開評審(openreview)機制,任何人均可以提早看到這些論文。微信
ICLR 2021頂會openview網址:網絡
https://openreview.net/group?id=ICLR.cc/2021/Conference架構
1框架
ICLR 2021投稿概覽機器學習
據Criteo AI Lab機器學習研究科學家Sergey Ivanov消息,本次ICLR 2021一共有3013篇論文提交,其中有856篇論文是來自NeurIPS 2020 Rejection 以後從新提交的。ide
如下是本次ICLR 2021提交論文的詞雲圖:性能
以後Sergey Ivanov彷佛在諷刺道:學習
雙盲評審有多盲? 對NeurIPS 2020來講,在9298份提交的論文中,已有2313篇論文發在arXiv上,佔全部提交論文的25%。 相比之下,ICLR 2021有557篇論文發在arXiv上,佔全部提交論文的25%。
最後Sergey Ivanov公佈了目前爲止基於ArXiv統計的ICLR 2021我的投稿排行榜:ui
2
一篇論文引發NLP/CV模型跨界融合的熱議
在此次ICLR 2021的投稿中,有一篇將Transformer應用於圖像識別的論文在Twitter和知乎上都引發了普遍關注以及熱議。
論文以下:
論文連接:https://openreview.net/pdf?id=YicbFdNTTy
如下是論文摘要:
【雖然Transformer架構已經成爲天然語言處理任務的標準,但它在計算機視覺中的應用仍然有限。
在視覺上,注意力要麼與CNN(卷積神經網絡)結合使用,要麼用來代CNN的某些組成部分,同時保持其總體結構不變。
咱們證實這種對CNN的依賴是沒必要要的,當直接應用於圖像塊序列時,只用到Transformer也能夠很好地執行圖像分類任務。
當對大量數據進行預訓練並遷移到多個識別基準(ImageNet、CIFAR-100、VTAB等)時,與SOTA卷積網絡相比,Vision Transformer取得了優異的結果,同時須要的計算資源要少得多。】
在推特上,斯坦福大學CS博士、特斯拉AI總監 Andrej Karpathy轉發了該論文,並表示[樂意見到計算機視覺和NLP領域更高效/靈活的體系結構的日益融合]。
那麼這篇論文到底有何神奇之處?
在知乎問題「ICLR 2021 有什麼值得關注的投稿?」下,網友陶略對此論文發表了本身的一番看法,現經陶略本人受權把內容整理以下:
【這裏把這篇論文的核心框架模型稱做ViT:Vision Transformer。
一圖勝千言?不,16x16個詞頂一張圖!(An Image is Worth 16x16 Words)
化難爲易:把圖片拆分紅16*16個patches,每一個patch作一次線性變換降維後再送入Transformer,避免像素級attention運算。
大道至簡:降維後的向量直接送入Transformer,最大限度保留Transformer純正的味道。
暴力美學:捨棄了CNN的概括偏好以後(inductive biases such as translation equivariance and locality),反而更加有利於在超大規模數據上以自監督方式學習知識,即大規模訓練勝於概括偏好(large scale training trumps inductive bias),在衆多圖像分類任務上直逼SOTA。
感謝 @匿名用戶的提醒:把image patch以後再每一個patch作一次linear projection,這偏偏就是convolution。
但我以爲這個linear projection並沒必要要每一個patch都共享同一個,實際上是能夠爲每一個patch學一個不一樣的linear projection出來的,這偏偏就是LeCun提出來的locally connected layers[1]。
更進一步,能夠每一個linear projection之間部分共享/軟共享,以減小參數自由度。idea都有了,有卡的人拿去研(guan)究(shui)吧哈哈哈。可參考這篇《Locally Smoothed Neural Networks》[2]。
固然針對ViT的軟共享應該須要根據Transformer的特色專門設計,直接把現存的軟共享技巧拿來用會有問題。
關於locally connected layers與fully connected layer的區別:locally connected layer的鏈接性等於convolution layer,小於fully connected layer。
輸入輸出維度相同的狀況下,可變參數量:convolution layer < locally connected layer < fully connected layer。
很早以前鄙人就思考過可否用locally connected layer替代convolution layer,也作過一點兒實驗。但效果很差,由於個人數據量和算力過小,不足以彌補丟棄的概括偏好。因此看見ViT這樣的工做能作出來一點兒不同的嘗試,我心裏仍是很激動的。
在CNN的框架下,一般卷積核越小性能越好,這麼大的卷積核每每被認爲行不通。但ViT作到了,它用了16*16的卷積核。
這讓我聯想到了前段時間reddit上很火的那篇《Towards Learning Convolutions from Scratch》,也是捨棄了CNN的概括偏好(translation equivalence and locality),但增長了很強的稀疏性偏好。
Surprisingly,從而使得全鏈接的網絡從數據中學到了locality。
一個事件能引發爭議,一個研究能引人關注,偏偏說明這個事件或這個研究的意義。我也是領略了點文章的皮毛以後有感而發,不吐不快,望海涵。】
望有朝一日,NLP與Vision架構收斂一致,天下大同。
NLP/Vision科研民工進入賽博躺平時代,天天等着大公司預訓練的Transformer當救濟糧。
要發展下線的時候就作一點花裏胡哨的注意力熱圖吸引農民來淘金:
圖注:上下兩圖均爲從輸出token到輸入空間的注意力典型示例
最後,還有網友表示:
[咱們正站在模型大變革的前夜,神經網絡的潛力還遠遠沒到盡頭。一種嶄新的強大的,足以顛覆整個 CV 和 AI 界的新模型才露出冰山一角,即將全面來襲。]
3
更多高贊論文
港中文助理教授周博磊整理了一份本身關注論文的筆記,有GAN、強化學習、計算機視覺三個領域相關共30多篇論文。
GAN相關:
強化學習相關論文:
計算機視覺相關論文:
周博磊博士筆記在線連接:
https://docs.google.com/document/d/1Rk2wQXgSL-9XiEcKlFnsRL6hrfGNWJURufTST2ZEpIM/edit
更多論文:
一、《An Attention Free Transformer》
論文連接:https://openreview.net/pdf?id=pW--cu2FCHY
二、《A Good Image Generator Is What You Need for High-Resolution Video Synthesis》
論文連接:https://openreview.net/pdf?id=6puCSjH3hwA
三、《Contrastive Learning with Stronger Augmentations》
論文連接:https://openreview.net/forum?id=KJSC_AsN14
四、《Score-Based Generative Modeling through Stochastic Differential Equations》
論文連接:
https://openreview.net/forum?id=PxTIG12RRHS¬eId=PxTIG12RRHS
參考連接:
https://www.zhihu.com/question/423975807/answer/1505968531
[博文視點贈書福利]
在10月1日頭條《秋天的第一本AI書:周志華親做森林書&賈揚清力薦天池書 | 贈書》留言區留言,談一談你對這兩本書的見解或有關的學習、競賽等經歷。
AI 科技評論將會在留言區選出15名讀者,送出《阿里雲天池大賽賽題解析——機器學習篇》10本,《集成學習:基礎與算法》5本,每人最多得到其中一本。
活動規則:
1. 在留言區留言,留言點贊最高的前 15 位讀者將得到贈書,活動結束後,中獎讀者將按照點贊排名由高到低的順序優先挑選兩本書中的其中一本,得到贈書的讀者請添加AI科技評論官方微信(aitechreview)。
2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。
3. 本活動時間爲2020年10月1日 - 2020年10月8日(23:00),活動推送內僅容許中獎一次。