2017機器學習與天然語言處理學術全景圖:多產的做者與機構

選自marekrei算法

機器之心編譯網絡

參與:黃小天、劉曉坤、蔣思源機器學習

在這篇文章中,做者統計了來自 ACL、EMNLP、NAACL、EACL 等學術會議的信息,用可視化的方式展示了 2017 年機器學習與天然語言處理領域的學術狀況,例如最高產的做者、機構、主題等。機器之心在展示這些以 NLP 爲主的會議後,還增長了如計算機視覺等會議的狀況。值得一提的是,該做者在 2017 年初也統計了 2016 年的信息,感興趣的讀者可查看 《2016 機器學習與天然語言處理學術全景圖:卡耐基梅隆大學排名第一》

2017 年是天然語言處理(NLP)和機器學習(ML)很是高產的一年。兩個領域持續增加,會議論文數量紛紛打破記錄。本文中我將根據我的做者和組織進行更詳細的細分。統計信息來自如下會議:ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、Sem+SemEval、NIPS、ICML、ICLR。與上年不一樣,此次把 ICLR 包含了進來,它在過去兩年飛速發展爲一個頗有競爭力的會議。此外,機器之心也將咱們統計的會議結果添加到該報告中,並做必定的分析。學習

MAREK REI 的分析是經過爬蟲自動抓取會議官網和 ACL 選集的發表信息而完成的,所以分析主要集中在天然語言處理。MAREK REI 表示做者姓名通常列在議程之中,所以可輕鬆提取;可是機構名稱相對麻煩,須要從 PDF 直接抓取。而咱們添加的信息主要來源於 2017 年報道過的人工智能方面的頂會,所以它正好能夠補充原做者提供的信息。人工智能


會議翻譯

首先,讓咱們看看 2012-2017 年間的公開會議。NIPS 當仁不讓,今年共發表 677 篇論文,排名第一。其餘多數會議也快速增加,是 ICML、ICLR、EMNLP、EACL 和 CoNLL 規模最大的一年。相比之下,TACL 和 CL 的論文發表數量彷佛每一年保持不變。NAACL 和 COLING 的論文數量則爲零,指望其在 2018 年有更好表現。3d

其實從接收論文的狀況咱們就能看出一些趨勢,由於自 2015 年來 NIPS 的接收論文就有很大的提高,這與機器學習和深度學習的崛起有很大的關係。神經信息處理系統大會(Neural Information Processing Systems,NIPS)是機器學習與計算神經科學方面的頂會,本屆 NIPS(31st)大會註冊人數超過 8000 人;共收到 3240 篇提交論文。其中有 20.9% 被組委會接收;議程包括 679 個 Poster 演講,40 個長演講(Oral), 112 個短演講(Spotlight)。若根據 NIPS 2017 提交論文數量進行分析,最熱門的三個子領域爲算法、深度學習和應用,因爲深度學習目前並無一種給咱們美感的完總體系,因此極可能這一領域的研究在 2018 年將會繼續進行下去。orm

NIPS 2017 的熱門子領域。cdn


MAREK REI 更多關注的是天然語言處理與 ML 會議,而其它如 CVPR、ICCV 和 KDD 等計算機視覺頂會與數據挖掘頂會都沒有涉及到。所以咱們能夠補充一些 2017 年的論文提交與接收狀況,以下展現了 11 項頂會的論文提交與接收狀況。其中除了上述的 NIPS,AAAI 和 CVPR 等大會也很是值得咱們關注。blog

AAAI、CVPR、IJCAI、ICCV、NIPS 今年的投稿數量均超過 2000,接收的論文數量均超過 600。ICLR 2017 是舉辦以來的第五屆,去年的論文錄用率接近 30%,今年達到了 40%。KDD 論文錄用率 18.9%,是上圖九大會議中論文錄用率最低的會議。


做者

2017 年最多產的我的做者是 Iryna Gurevych(達姆施塔特工業大學),共發表論文 18 篇。Lawrence Carin (杜克大學) 發表論文 16 篇,其中 10 篇被 NIPS 收錄。緊隨其後的是 Yue Zhang(新加坡大學)、Yoshua Bengio(蒙特利爾大學)和 Hinrich Schütze(慕尼黑大學)。

值得注意的是,曾撰文批評了蒙特利爾大學的新論文《Adversarial Generation of Natural Language》的 Yoav Goldberg 也有 10 篇論文被這些會議接收。他曾代表:「儘管我贊成 arXiv 上短期的發佈週期比如今長時間的同行評議流程更好,但如今人們在使用 arXiv 樹旗幟、佔山頭,規避同行評議過程,並且這個趨勢已愈來愈顯著。這種狀況對於那些「強」研究組而言更是顯著。目前來講,將你的成果(一般是初步的和不完整的)發在 arXiv 上沒有什麼實質的壞處,只有潛在的好處。」

其實目前不少做者都將論文預先發表在 arXiv 上,以上 MAREK REI 統計的接收論文狀況很大程度上反映了這些學者的學術水平,只不過因爲原做者重點關注天然語言處理,因此還有不少 2017 年優秀的學者與論文沒有展現在統計中。

看一下 2012-2017 年的累積統計結果,Chris Dyer(DeepMind)遙遙領先,緊隨以後的是 Iryna Gurevych(達姆施塔特工業大學)和 Noah A. Smith(華盛頓大學)。Lawrence Carin(杜克大學)、Zoubin Ghahramani(劍橋大學)和 Pradeep K. Ravikumar(卡內基梅隆大學)發表的論文主要在機器學習會議,而其餘人則在 NLP 和機器學習之間平衡。

按年份將發表論文數分開代表 Chris Dyer 在今年的發表論文數有所降低,而 Iryna Gurevych 的發表論文數有很強的上升趨勢。


第一做者

咱們來看看第一做者的狀況,第一做者一般是實現代碼和運行實驗的人。Ivan Vulić(劍橋大學)、Ryan Cotterell(約翰霍普金斯大學)和 Zeyuan Allen-Zhu(微軟研究院)都在 2017 年以第一做者的身份發表了 6 篇論文。緊隨其後的是 Henning Wachsmuth(魏瑪大學)、 Tsendsuren Munkhdalai(微軟 Maluuba)、李紀爲(斯坦福大學)和 Simon S. Du(卡內基梅隆大學)。


如上所示,斯坦福博士李紀爲在 2017 年也有很是多的接收論文,他主要的研究方向是天然語言處理(NLP)。在三年的博士生涯中,他的多篇論文被各種頂級會議接收。在四月底結束的 ICLR 2017 上,李紀爲有三篇論文被大會接收,其中兩篇爲第一做者;而在即將於 9 月份舉行的 EMNLP 2017 上,他有兩篇論文被大會接收,均爲第一做者(參見:如何生物轉CS,並在斯坦福大學三年拿到PhD:獨家專訪李紀爲博士)。

此外,因爲 ICCV 等計算機視覺領域的會議沒有獲得統計,所以何愷明等人並無在以上統計中展示。在 ICCV 2017 中,Facebook AI 研究員何愷明得到最佳論文獎,同時是最佳學生論文的做者之一。算上此前在 CVPR 200九、CVPR 2016 上的兩篇「最佳論文」,何愷明如今已得到了四個最佳論文稱號(參見:ICCV 2017獎項公佈:最大贏家何愷明獲最佳論文,參與最佳學生論文)。


機構組織

看一下 2017 年的不一樣機構組織的發表模式,卡內基梅隆發表了 126 篇論文,處於領先地位,而微軟、谷歌和斯坦福緊隨其後。包括 MIT、哥倫比亞、牛津、哈佛、多倫多、普林斯頓和蘇黎世在內的大學發表的論文中,相比 NLP,機器學習佔比例更大。相比之下,包括愛丁堡、IBM、北京、華盛頓、約翰霍普金斯、賓州、中科院、達姆施塔特、卡塔爾在內的大學和機構更關注 NLP 會議。

如上在 2017 年的大會接收論文中,清華大學和北京大學分別以 3八、37 篇接收論文取得了很是好的成績,中國科學院在 2017 在這些大會中也有 22 篇接收論文。

看一下 2012-2017 年的整段時期,卡內基梅隆依然是其中的佼佼者,而微軟、谷歌和斯坦福緊隨其後。

在這些會議歷年的累積接收論文中,北京大學、清華大學、中國科學院和哈爾濱工業大學都有很是好的排名。但這這些會議偏重於天然語言處理,所以國內還有其餘一些很是優秀的學府沒有統計並展現在內。

看看下方的時間序列,卡內基梅隆、斯坦福和 MIT 在發表論文數上呈上升趨勢。相比之下,行業領袖谷歌、微軟和 IBM 的發表論文數略微有所降低。

主題聚類

最後,我對全部發表過 9 篇或以上論文的做者的論文文本進行了 LDA 分析,並用 tsne 將結果可視化。圖中間是機器學習、神經網絡和對抗學習的主題。最密集的聚類涵蓋了強化學習和不一樣的學習策略。圖左的聚類包含 NLP 應用、語言建模、文本解析和機器翻譯。圖底的聚類包含信息建模和特徵空間。





原文連接:www.marekrei.com/blog/ml-nlp…

相關文章
相關標籤/搜索