做者 | 陳大鑫機器學習
EMNLP 是由國際語言學會(ACL)下屬的 SIGDAT 小組主辦的天然語言處理領域的頂級國際會議,在計算語言學類別下影響力排名全球第二。EMNLP 每一年舉辦一次,去年則與 IJCNLP 聯合,在香港舉辦,今年因爲疫情轉爲線性舉辦。
post
昨日,EMNLP 2020 錄取結果出爐:接受論文754篇,接收爲Findings論文520篇,被拒論文1840篇, 整體接收率爲24%。性能
論文結果一出,幾家歡喜幾家愁,有人連中幾篇,還有人被拒表示立馬轉投AAAI......學習
作科研非常辛苦,AI科技評論祝每一位科研er都勞有所獲。ui
今天AI科技評論主要關注一下頂會的變化。設計
由於新冠疫情,AI頂會的參與形式不可避免地從線下轉爲了線上,而在參會形式以外,關於AI頂會自己的一些制度創新也在「不悄然」地發生變化,好比前些天AI科技評論剛剛報道的NeurIPS開啓論文預註冊模式:3d
而今年,EMNLP 2020帶來的創新是: 「Findings of ACL: EMNLP 2020」。blog
這是一種新的接收論文類型,EMNLP表示,這將使更多高質量的論文(短篇和長篇)被接收。它用於刊登在主會上未被接收,但通過程序委員會評估爲足夠solid的工做,其實質、質量和新穎性有足夠保證。這些論文將做爲ACL選集的一部分被收錄。進程
1資源
Findings詳細介紹
Findings中的論文將遵循與EMNLP 2020會議錄中接受的論文相同的時間表。也就是說,它們有相同的DDL。
這些論文與EMNLP會議接收的論文不一樣之處在於,Findings論文不會在會議上進行演講(包括演講和poster)。被Findings接收的論文不能提交給其餘會議或期刊。
除了新穎性、嚴謹性、實驗魯棒性等評審標準外,評審者還將對論文的「可發表性」進行評估。
EMNLP表示,他們提出這個想法的目的是,將主會論文的排名過程與評估論文是否具備足夠的實質性、質量和新穎性的過程分開。這基於以下假設:存在大量符合可發表標準的被拒論文,因爲各類緣由而沒法被會議接收。
某些類型的論文更適合出如今Findings中,例如:
一、擴展了有關特定任務的SOTA水平的論文,可是對於EMNLP社區而言,卻沒有新穎的看法或發現;
二、實驗實現良好,想法新穎,並提供詳盡的分析和發現,但使用的方法被認爲不夠「新穎」;
評審委員會對評審Findings論文的廣泛要求是,審稿人必須贊成論文寫得好、有原創性、有合理的方法論幷包括適當的分析和結論。
Findings論文與主會論文的不一樣之處在於,無需產生明顯的影響力,所以在小衆領域開展的工做以及其餘更具特點的工做會更符合資格。
被Findings接收的論文能夠當即將其在線發表。對於時間特別緊迫的研究而言,這將是一個有吸引力的選擇。
例如,若是因爲被EMNLP拒絕而推遲發表,論文的新穎性將會下降。這對於在兩次會議之間的重疊匿名時段的論文也有好處。固然,Findings接收論文的做者能夠經過撤回或不提交論文終稿而選擇退出。
EMNLP表示,許多論文在arXiv上都處於低迷狀態,而從未在同行評審中發表過,由於它們被NLP研究的不斷加快所取代。
這種新的發表方式將使更多的做者有機會在給定的時間點發表具備傑出貢獻的論文,即便它們的長期影響可能不大。同時這也將減小AI領域中未經評審的工做,從而提升論文質量。
一些人提出「該計劃會加重評審和論文接受方面的偏見」的擔心,EMNLP則迴應,審覈過程並不完美,存在一些固有誤差。他們將盡力緩解這些偏見,並確保評審過程儘量公平。會議的主要重點是仍是主會論文,只有在肯定主會論文以後,審稿人才會查看其他的論文,以確認那些值得被Findings接收的論文。
若是這種新的發表方式獲得EMNLP社區的熱烈歡迎,並獲得足夠的採納,官方預計Findings機制將在以後的會議上繼續運做。
最後,EMNLP程序主席表示,他們但願研究人員能以在Findings中發表論文爲榮。
以上有關Findings的介紹其實最先在今年4月19日就在EMNLP官網就有所通知,可是你們對於這種「新螃蟹」多少有些疑惑,因而,EMNLP 程序主席Tim Baldwin在今年7月30日對有關Findings的相關問題整理出了5個官方回答。
2
有關Findings的官方回答
一、Findings的存在是否會使評審人員有權利從主會上駁回論文,而這些論文原本是能夠被接收的?
咱們不但願這種狀況發生,可是要認可有這種風險。根據此反饋,咱們決定不讓評審人員者參與「Findings」決定;相反,該決定將徹底由高級程序委員(senior programme committee)決定。咱們將注意確保主會的接收決定不會受到有關Findings接收決定的影響。
二、咱們能更準確地定義將「Findings 」論文與主會論文區分開的緣由嗎?
雖然咱們很樂意,可是它是很難肯定的。咱們在較早的博客文章中提供了一些普遍的指導原則,在未來可能會有更清晰的定義。暫時來說,咱們但願這些差別將有序地出現,相似於標準會議上的talks和posters之間的差別,該會議目前也缺少具體的定義。
三、咱們將如何衡量Findings實驗的成功與否?
首先,咱們將衡量在Findings中提供的論文數量佔比。若是接受率很高,那麼咱們將評判對該新出版物對社區的價值。深刻研究,咱們能夠嘗試描述論文提交及其評論的方面,這些方面能夠預測做者的決定。
其次,咱們將對論文做者作一些調查,以評估他們對「Findings」的見解,包括那些收到「Findings」通知的論文做者,那些被主會接收的做者以及那些被拒絕的做者。咱們將去積極瞭解做者對Findings的偏好。咱們也歡迎社區提出更好地建議。
四、Findings對workshops和其餘會議有什麼影響?
論文被Findings接受的做者可能更喜歡將其投給workshops或轉投隨後的頂會 (此處@AAAI、 NAACL、ACL )。
許多workshops 正朝着non-archival 進程邁進,容許做者介紹他們在其餘會議發表的論文。所以,咱們將鼓勵EMNLP上的workshops邀請接收爲Findings論文的做者介紹他們的工做。請注意,並不是每篇論文都能與在EMNLP上舉辦的workshop匹配,所以沒法保證這將適用於全部Findings論文。
整體而言, Findings不該下降workshops上發表論文的質量。咱們認可Findings可能會在會議週期的晚些時候影響會議,可是咱們認爲做者和審稿人的利益使它成爲一個值得權衡的選擇。
五、在主會上,Findings 論文可能會有某種形式的presentation / poster嗎?
咱們不打算如此。若是日程安排和技術容許,咱們也許能夠爲Findings 論文進行某種形式的簡短介紹,例如在之前的會議中舉行的「海報互吹--poster boaster」和「一分鐘瘋狂--one minute madness」會議。但如今咱們不承諾任何事情。
ACL剛剛進行了一項有關審覈的調查,其中包括有關「Findings/存檔」的問題。ACL審覈委員會正在處理此反饋意見,並將等待EMNLP試驗的結果,而後對Findings / ACL存檔採起進一步的措施。
在EMNLP試驗完成以後,咱們將對社區對Findings的觀點有一個更好的瞭解。就目前狀況而言,咱們不肯定這將是一次性的嘗試,仍是像原先計劃的那樣繼續做爲將來會議的一部分。
3
有關Findings的知乎問答
昨日,在EMNLP 2020 錄取結果出來後,知乎上「 如何評價EMNLP增長Findings of EMNLP這個類別? 」的 問題受到了不少人 的關注 ,也有 一些大V作了相關回答。
一、清華大學劉知遠@zibuyu9對此問題給出了很中肯的建議:
最近收到不少私信問怎麼看Findings和建議,如下是個人我的見解。 由於錄用Findings的是得分略低於錄用正會的論文,這些論文應該質量都還能夠,因此Findings應該會變成一份受人尊敬的NLP論文集;但同時,錄用機制又給同行暗示,這些論文從統計上要比正會差一些。因此,個人建議是,若是你認爲本身的工做還有較大的改進餘地,也不着急搶先發表,能夠考慮認真修改後轉投後面的AAAI、NAACL或ACL; 不然,能夠接受在Findings上發表,以騰出更多精力來開展新的研究工做。
二、復旦大學邱錫鵬本次EMNLP中了幾篇Findings,這裏現身說法:
中了幾篇Findings,因此專門研究了下。 ACL的官方說明:https://2020.emnlp.org/blog/2020-07-30-findings-acl-response 定位:ACL官方認證的論文存檔(a.k.a. 「ACL archives」),不像http://arxiv.org那樣任何人均可以上傳。 和主會接受論文的區別:Findings論文不給主會上報告,其它沒有清晰定義,就像很難區分口頭報告和海報同樣。 For the time being, we hope that the differences will emerge organically, similar to the difference between talks and posters at a standard conference, which also lacks a concrete definition. 其實就是review分數低一些。看你們的反饋,此次EMNLP比主會接受論文的下線分數低1~2分。 要想評估含金量,最快的是等list公佈後,能夠評價下里面的論文質量。真正的評價估計得等3~5年以後了,到時看看這批論文的引用率怎樣。 我的認爲:1~2分的差距和評審中的隨機性相比,幾乎能夠忽略。所以,含金量仍是有保證的。若是不在意是否必定要在CCF推薦列表中,也是個不錯的選擇。將精力多用在下一個工做上更值得。
三、還有一網友則從功利、影響力、學生/審稿人三個角度說道:
1 、功利的講一講,paper確定是被emnlp認可的,就像其餘答主所說,regular和workshop之間。中國標杆CCF估計嚴格來看是算不了B了,畢竟short paper和Demo paper在正刊裏都算不了。 會議論文指「Full paper」或「Regular paper」(正式發表的長文),對於會議上其餘形式發表的論文如Short paper、Demo paper、Technical Brief、Summary以及做爲伴隨會議的Workshop等不計入目錄考慮的範圍。 2 、從影響力角度講,在疫情時代,我以爲掛arXiv就算髮了,自媒體報道你就算oral了。以今年acl的經驗來看,在線會議擴大影響力不太可能了。因此finding和主會可能都不如早點arXiv 3 、對學生來說,有總比沒有強。確定是對研究的一種確定。對審稿人來說,這個極大的緩解了下一個會的壓力,終於不用再審一次了。 總之,如今arXiv和leaderboard這麼多,好的工做不會被埋沒,也同時鼓勵了不少新入行的同窗。多一個EMNLP finding我以爲是個好東西。
四、知乎匿名網友1表示官方給出的Findings定位應該是介於主會和workshops之間:
其實EMNLP的官方說明仍是挺清楚的。 關於含金量,官方的說法是 expect to be higher for findings than for most workshops。因此定位應該是介於main conference和workshops之間。EMNLP強調findings有着和EMNLP相同的審稿和camera-ready timeline,以及會被髮布在ACL anthology,讓人以爲和EMNLP有着至關的含金量。但我以爲這些並非含金量的決定因素。。。。關鍵仍是看收錄爲findings的論文數量和質量。 至於什麼樣的工做應該更多考慮findings而不是轉投別的conference,官方的說法是:This might be more pertinent if the paper has already been rejected from another publication venue, or if the author needs to fill out their CV, e.g., a PhD student wanting to secure a postdoc or faculty position. Other reasons might be that the importance of the work may diminish with time, and the work needs to be published quickly to have an impact. 這樣看來就好比申請PHD或者Faculty,來不及等別的會出結果了,被findings收錄確定是好過沒有發表。。。 還有就是熱門的方向和想法,極可能在轉投時候被別人佔坑的,快速在findings發表也是一個好的選擇。
五、知乎匿名網友2則拿全日制非全日制的名分舉例,直白地說道:
我的意見:說白了想收你錢,又不想給正式名分。 能夠類比剛出來的時候非全日制碩士和全日制碩士,同一張卷子,同一複試線,全日制被刷的能夠調劑非全日制。官方強調含金量同樣,可是用人單位那邊就難說了。所以有的被刷的同窗貪圖名校的名分就讀了非全,有的人不甘心再來就再來一年衝全日制。非全日制含金量主要看你的目標就業單位怎麼看,同理,Findings的含金量主要看你的學校、目標單位的評價體系。 固然,除了實際上的含金量,還有面子的問題。 你讀了北大非全,能夠說本身是北大的,但老是底氣不足,但起碼是北大啊,但仍是非全,但起碼是北大... 看你怎麼權衡了。Findings同理。
六、知乎匿名網友3最是直接,直接拿數聽說話:
Accept = 754 Accept-Findings = 520 Reject = 1840 Accept: 24% Accept+Findings: 41%
咱們接上面網友的數據來看,Accept+Findings的接收率達到了41%,若是都算以往的頂會論文應有的質量,那這是什麼樣的一個接收率呢?一屆頂會能錄取這麼多論文嗎?得分多少的論文才能被錄取的?
那就得看看EMNLP近兩年論文得分和錄取狀況了。
4
EMNLP近兩年錄取狀況
EMNLP 2018年錄取狀況
EMNLP 2018共收到論文 2100 多篇(數量比去年多出 46% ),收錄 549 篇, 接收率爲 24.6% ;另外收到 72 篇 demo 論文(數量比去年多出 40% ),收錄 29 篇(接收率爲 40%)。
本次收錄的論文中,長論文共有 1376 篇投稿,共收錄 315 篇,接收率大約佔 25.5%,其中,140 篇做爲 talk 被收錄,收錄率爲 10.2%,211 篇做爲 Poster 被收錄,收錄率爲 15.3%;短論文共有 855 篇投稿,共收錄 198 篇,接收率大約佔 23.2%,其中,81 篇做爲 talk 被收錄,收錄率爲 9.5%,117 篇做爲 Poster 被收錄,收錄率爲 13.7%。另外,大會還收錄了 10 篇 TACL 論文,3 篇被做爲 talk 收錄,7 篇被做爲 Poster 收錄。
從論文得分狀況來看,分數在 3.33 分如下的論文基本上都被拒了,得分在 3.67 以上的論文不多被拒。
EMNLP-IJCLPN 2019年錄取狀況
本次大會共收到1813篇長論文和1063篇短論文,有效投稿2876篇,比去年的2100餘篇增加了1/3;其中長論文接收作Oral 報告164篇,Poster301篇, 接收率 25.6% ;短論文被接收Oral 48篇,Poster 170篇,接收率20.5%,總接收率23.7%,相比起去年 24.6%的接收率略有降低。
投 稿 論文 數量的增長也提高了論文選擇的難度。 據AI科技評論瞭解,從論文的評審及程序委員會的組織結構上,EMNLP延續了相似ACL2019的作法,即每一個領域邀請一位資深區域主席(Senior Area Chair),每一個資深領域主席下設多名領域主席(Area Chair),每篇論文由一名AC主席及三名評審者(Reviewer)負責。
本次會議的AC共有152人之多,以保證全部論文都能獲得充分的閱讀和評分。 從今年的論文得分和錄用率看,今年的論文錄用難度加大,去年分數在 3.67 及以上的論文不多被拒,而今年分數在3.67的論文仍有30%以上被拒,要獲得3.83分纔會比較保險。 這一結果也反映出了NLP研究的火熱和競爭激烈程度。
能夠看出,EMNLP的最近兩年的錄取率都穩定在24%-25%,所以,中了Findings的某些論文的質量是存在商榷的?也說不許其實每一年都有這麼多優秀論文,可是以往都被各類奇葩評審和嚴控錄取率給限制住了?
5
不盲目以SOTA評論文
今年5月份, EMNLP 組委會就專門向審稿人發佈了一篇建議公告,指出審稿人應該作什麼以及不該該作什麼,並特別強調「一篇論文的貢獻能夠是在效率、泛化能力、可解釋性和許多其它的指標上有所進步。任何使人信服的貢獻都不該該僅僅由於沒有在某些指標上取得最高排名而被拒絕。」
在這裏,EMNLP 組委會但願從新強調一些建議/不建議作的事,但願它們可以幫助審稿人和做者。
首先,請評價論文的貢獻。此時,你應該用到你在 NLP 領域的專業知識。咱們建議你不該該僅僅由於做者在論文中給出的實驗結果較好,或者在數學上彷佛很複雜就接收論文。這都不是論文構成貢獻的充分或必要條件。
同時,咱們還建議你不該該僅僅由於有些論文的實驗結果沒有比目前最佳的工做(SOTA)好就拒掉它們。在以前的 ACL 大會上,一些審稿人過於看重 SOTA 的模型性能,他們給任何沒有達到 SOTA 性能的系統都打了低分。
然而,咱們的目的是發表真正最好的論文,那麼一個具備建設性的問題就是「論文應該在哪些方面最早進?」。正如博文「Peer review in NLP: reject-if-not-SOTA」中所談到的,一篇論文的貢獻能夠是在效率、泛化能力、可解釋性和許多其它的指標上有所進步。任何使人信服的貢獻都不該該僅僅由於沒有在某些指標上取得最高的排名而被拒絕。
其次,在閱讀論文和撰寫審稿意見時,請考慮下面這些重要的因素:
論文提出了什麼學術觀點,論文的哪些內容對這些觀點起了什麼支撐做用?若是論文提出了觀點 X 並取得了必定的性能提高,那麼這種性能提高是否真的是由 X 帶來的?
審稿意見要詳細具體。例如,若是你認爲做者忽略了一些須要引用的關鍵論文,請在你的審稿意見中將這些參考文獻列出來。引用這些文獻可能對你來講是顯而易見的,可是做者每每並不這麼清楚。詳細的審稿意見能夠幫助做者制定一份有力的針對審稿意見的應對方案,並在他們的論文中解決這些問題。值得注意的是,做者並不必定要引用或對比同時期的其它工做(即在論文提交三個月內出現的其它文獻),特別是在這些論文沒有在通過同行評審的平臺上發表的狀況下。
請提出具備建設性的建議。指出論文在哪些方面作得很差,可能在評審時起到把關性的做用(給出拒稿的理由),可是這樣作對做者的幫助就沒有那麼大了。給出一些關於做者能夠如何改進這些存在問題的方面的建議,則可讓他們把工做作得更好。
即便在批評的時候,也請注意使用友善的語言。審稿人可能會很容易變得有些激動,寫出一些你永遠不會當着別人的面說的不禮貌的話。請儘可能在你的審稿意見中保持禮貌。最後須要注意的是,如今愈來愈多的做者會在社交媒體上公開評審意見(尤爲是當這些評審意見以不切實際的理由拒掉這些論文時)。
所以,咱們建議審稿人不該該基於下面的緣由拒掉一篇論文:
論文的語言或寫做風格。請重點關注論文的實質性內容。咱們理解,有時論文的語言或寫做風格不好,以致於審稿人沒法弄懂論文的內容和實質。在這種狀況下,拒稿是能夠的,但你只有在努力弄懂這篇論文後才能這麼作。
論文的研究工做針對的語言不是英語。咱們關注的是針對任何語言的天然語言處理。
論文的實驗結果並不比 SOTA 的工做好。請根據上文和「Peer review in NLP: reject-if-not-SOTA」(https://hackingsemantics.xyz/2020/reviewing-models/)中給出的建議,查看論文的貢獻和發現。
論文沒有使用某類特定的方法(例如,深度學習)。好的工做並不要求必定要使用某種特定的方法。請說明爲何須要這種方法。想一想這篇論文的貢獻是什麼,請牢記:使用多種方法並非一件壞事。
論文的方法過於簡單。咱們的目的是不要設計出最爲複雜的方法。在這裏,請再想一想論文的貢獻和發現是什麼。一般,使用最簡單的方法完成的論文的引用量是最多的。若是某種簡單的方法比之前的工做中更復雜的方法性能更好,那麼這一般是一個重要的發現。
論文的主題範圍較窄或者過期。請保持開放的心態。咱們並不但願整個研究社區都爭相研究同一個火熱的話題。請關注論文的貢獻,想一想它對咱們的研究社區有何影響。
若是論文的主題是全新的,這樣一來咱們就沒有現有的對比工做,或者全部現有的工做都是在另外的領域完成的。咱們須要對涉足新領域的論文保持興趣。論
論文介紹的是研究資源。在像 NLP 這樣依賴於有監督機器學習的領域中,數據集的開發與建模工做同等重要。博文「Peer review in NLP: resource papers」(https://hackingsemantics.xyz/2020/reviewing-data/)討論了接收/駁回一篇描述研究資源的論文的原則,你們可參考。
https://2020.emnlp.org/blog/2020-04-19-findings-of-emnlp/
https://2020.emnlp.org/blog/2020-05-17-write-good-reviews/
https://2020.emnlp.org/blog/2020-07-30-findings-acl-response/
EMNLP 9月16日出錄用結果了!
[贈書福利]
在AI科技評論9月11日推文「」留言區留言,談一談你對本書的相關見解、期待等。
AI 科技評論將會在留言區選出5名讀者,每人送出《柏拉圖與技術呆子》一本。
活動規則:
1. 在留言區留言,留言點贊最高且留言質量較高的前 5 位讀者將得到贈書。得到贈書的讀者請聯繫 AI 科技評論客服(aitechreview)。
2. 留言內容和留言質量會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。
3. 本活動時間爲2020年9月11日 - 2020年9月18日(23:00),活動推送內僅容許中獎一次。