連轉2篇文章,先上連接,文章轉自清華大學劉知遠老師的github:https://github.com/zibuyu/research_tao/blob/master/01_community.md,致予我真誠的感謝!
我以爲全部剛瞭解或者想進入NLP領域的學生以及學者,都應該先看一下劉知遠老師的這篇文章,可讓你在接下來的幾年內能夠有一個很明確的目標和領域前沿論文來源。菜雞不由淚目嗚嗚嗚,若是我能早點看到這篇文章的話就不會傻傻發了篇交叉性極大的EI水會論文hhh。在CS和AI領域及其子領域,技術的迭代速度是極快的,這意味着期刊不會是一個很好的知識來源,缺少必定的時效性。在我我的看來,會議論文的發表,最主要的是作一個交流,和其餘小同行或者大同行作一些交流,來調整項目的下一個階段工做,打開更多的研究視角;其次是分享,向你們發表大家的最新成果,給予更多相關方向的學者予以幫助;最後纔是拿到學術成果,即所謂的狹義的發表論文。
若是你的方向不是NLP領域,或者是想作科研的萌新(我也算萌新hhh),那麼但願能夠粗略掃描這篇文章,最主要的一點是能體會到一個學科的前沿知識來源,甄別論文的質量,信息的質量,而不是在知網進行漫無目的搜索。認識一個學科的領域頂會,權威期刊,國內頂尖實驗室團隊,組織機構並養成從其中獲取信息的習慣,纔是跨入廳堂的開始!
沒有捷徑可走,視野的打開須要時間的沉澱,從依葫蘆畫瓢般地寫第一份申報書開始,從第一篇改稿N遍的論文開始,從磕磕巴巴研讀一篇英文論文開始,從不斷找老師思想碰撞開始,咱們,將來可期~php
正文開始:git
與老牌學科如物理學、化學等相比,計算機學科還很是年輕,學科體系長期處於劇烈變革之中。做爲計算機應用的重要方向,人工智能和天然語言處理天然更不例外,與現實應用緊密相關,技術發展突飛猛進,常給人今是昨非之感。在這種狀況下,傳統學術期刊的那種投稿1-2年才能見刊的模式已經趕不上技術革新的速度,年度學術會議顯然更符合計算機學科發展和交流的需求,能夠看做是一種「小步快跑」的模式。閱讀學術論文、參加學術會議是進入學術界、走進學術前沿的重要方式,在學術會議上,不只能夠集中聽取最新的成果報告,還有講習班(Tutorial)、工做坊(Workshop)、社交活動等形式,瞭解那些不會寫到論文中的八卦與動態,結識學術大佬和朋友,走向學術人生巔峯。github
在計算機領域,國際上活躍着衆多專業學術組織,吸取專業學者和學生做爲會員,按期組織學術年會,報告學術論文,讓學者們更方便地交流最新研究成果。這裏以天然語言處理領域爲例,介紹國際學術組織和學術會議的組織形式,以及國際學術論文的查找方式。
天然語言處理(Natural Language Processing,NLP)在很大程度上與計算語言學(Computational Linguistics,CL)重疊,與其餘計算機學科相似,NLP/CL領域有一個規模最大、最權威的國際專業學會,叫The Association for Computational Linguistics(ACL,http://aclweb.org/ )。ACL學會主辦了NLP/CL領域最權威的國際學術會議,即ACL年會。ACL學會還在北美和歐洲設有分會,也按期召開年會,分別稱爲NAACL和EACL。特別值得一提的是,2018年ACL年會上宣佈成立了亞洲分會AACL,並定於2020年與亞洲另一個著名國際會議IJCNLP合辦第一屆AACL分年會。
除了舉辦年會以外,ACL學會下分設多個特殊興趣小組(Special Interest Groups,SIGs),彙集了NLP/CL不一樣子領域的學者,性質相似一個大學校園的興趣社團。其中比較有名的諸如SIGDAT(Linguistic Data and Corpus-based Approaches to NLP)、SIGNLL(Natural Language Learning)等。這些SIGs也會自主組織相關主題的國際學術會議,其中最有名的應該是SIGDAT的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL的CoNLL(Conference on Natural Language Learning)。其中EMNLP發起於1996年,因爲契合了近20年數據驅動的統計天然語言處理的發展脈動,所以受到廣大學者的關注,也吸引了不少機器學習領域的學者參與。
國際上還有一個老牌NLP/CL學術組織International Committee on Computational Linguistics,每兩年組織一次學術年會International Conference on Computational Linguistics(COLING),也是NLP/CL的重要學術會議。NLP/CL的高水平學術成果主要分佈在ACL、NAACL、EMNLP和COLING等幾個學術會議上。
做爲NLP/CL學者的一個重要福利是,ACL學會網站用心創建和維護ACL Anthology頁面(https://www.aclweb.org/anthology/ ),收錄了NLP/CL領域絕大部分重要國際會議的論文全文並提供免費下載,甚至包括了其餘學術組織主辦的學術會議如COLING、IJCNLP等。新版ACL Anthology不只支持基於Google的全文檢索功能,還爲每一個學者創建了在這些會議上發表論文的主頁,可謂一站在手,NLP論文我有。
NLP/CL領域也有本身的旗艦學術期刊,發表過不少經典學術論文,那就是Computational Linguistics(http://www.mitpressjournals.org/loi/coli ),該期刊每期只有幾篇文章,平均質量高於會議論文,時間容許的話值得及時追蹤。因爲審稿週期較長,近年來對學者投稿的吸引力降低,彷佛論文質量也有所下滑。ACL學會爲了提升學術影響力,也創辦了會刊Transactions of ACL(TACL,http://www.transacl.org/ ),因爲審稿週期與會議論文至關,並提供在各大學術會議上報告論文成果的機會,得到很多學者青睞,最近發表很多有影響力的工做,成長很快值得關注。值得一提的是,這兩份期刊也均可以經過ACL Anthology開放獲取。此外,也有一些與NLP/CL有關的期刊,如ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。
根據Google Scholar Metrics 2018年發佈的NLP/CL學術期刊和會議論文引用排名,ACL、EMNLP、NAACL、SemEval、TACL、LREC位於前6位,基本反映了本領域學者的關注程度。其中ACL、EMNLP、NAACL的H5-Index和H5-Median明顯高於其餘會議和期刊,也是該領域每一年參會人數最多的會議,可謂NLP/CL的三大頂級國際會議。另外,ACL學會維護了一個Wiki頁面(http://aclweb.org/aclwiki/ ),包含了大量NLP/CL的相關信息,如著名研究機構、歷屆會議錄用率,等等,是居家必備之良品,值得深挖。
值得注意的是,雖然計算機領域學術會議論文的發表週期已經很是短,仍然不能知足最近深度學習等方向的迅猛發展。所以,愈來愈多學者選擇繞過學術會議或期刊的審稿流程,直接經過arXiv(http://arxiv.org/ )等預印本平臺在線發佈論文。因爲省去了同行評議的流程,這些最新學術成果得以更快地發佈。但也因爲缺乏同行評議的意見和過濾,致使預印本平臺上發佈的論文質量參差不齊,須要有較強的鑑別力,才能找到其中真正有價值的工做。毋庸置疑,arXiv已經成爲深度學習和天然語言處理最新進展的重要發佈渠道,Yoshua Bengio等著名學者及其團隊的最新研究成果,每每先發布在arXiv上,而後再發表在相關頂級會議上。所以,arXiv是瞭解大數據智能最新進展的重要信息渠道。
因爲arXiv預印本客觀上的確衝擊了NLP/CL學術會議審稿的雙盲規則(投稿做者和評閱人互相看不到對方身份),相關學者對經過arXiv率先發布成果見解不一,衆說紛紜。從2018年開始,ACL、EMNLP、NAACL等會議爲了更好地執行雙盲規則,對此提出了一種折中方案,將投稿截止時間前1個月也歸入匿名時段,即從投稿截止前1個月到稿件獲得錄用/拒稿通知,都不容許做者將具名論文發佈到arXiv等預印本平臺;對截稿前1個月之前發佈到arXiv上的論文,也不容許在匿名時段再作更新或作媒體宣傳。也就是說,從學術會議審稿公正性而言,並不鼓勵將成果預先發布到arXiv預印本平臺上。估計對這個問題的爭論還會持續,也許將來的確須要探索一種更好地兼顧高效與公平的學術論文發表機制,這是題外話就再也不展開。web
NLP/CL主要以天然語言文本爲主要研究對象,與人工智能、機器學習、信息檢索、數據挖掘、計算機視覺、知識工程等不少方向密切相關。例如,天然語言處理是人工智能的分支,並且人工智能的機器人、決策、知識表示等研究領域也與天然語言處理有交叉重疊;天然語言處理不少模型方法都來自機器學習的最新進展,天然語言處理也爲機器學習提供獨特的學習任務進行研究;信息檢索關心的查詢詞、文檔等也是天然語言文本,所以與天然語言處理關係密切;社會媒體中的用戶生成內容不少爲文本形式,是數據挖掘和天然語言處理共同關心的對象;計算機視覺和天然語言處理共同關注跨模態智能處理技術,如圖像描述生成(Image/Video Captioning)等;知識和語言的自然關聯性,也決定了知識工程與天然語言處理的交叉合做。這裏主要介紹幾個重點相關領域的國際學術會議與期刊。
人工智能領域相關學術會議包括IJCAI和AAAI。AAAI全稱美國人工智能年會,IJCAI全稱人工智能國際聯合大會。這兩個會議方向很是普遍,涵蓋機器人、知識、規劃、天然語言處理、機器學習、計算機視覺等幾乎全部AI子領域,是AI領域「奧運會」式的學術會議。近年來,因爲AI領域備受社會各界關注,這兩個會議的錄用論文數也成倍增加。以AAAI 2019爲例,投稿數猛增至7000多篇,最終錄用1150篇,錄用率下降至16.2%。有些老師在社交媒體上如此評價,AAAI/IJCAI更像花樣齊全的「奧運會」,而ACL/EMNLP/NAACL更像專業領域的「錦標賽」,因此通常對專業領域任務的精細研究,更多發表在錦標賽式的專業會議上。因爲知識表示等方向沒有更權威的專門學術會議,因此更多發表在AAAI/IJCAI上。人工智能領域相關學術期刊包括Artificial Intelligence、Journal of AI Research。
機器學習領域相關學術會議包括ICML,NIPS,ICLR、AISTATS等。其中NIPS全稱是Conference on Neural Information Processing Systems,因爲最近這波AI浪潮就源自以神經網絡技術爲基礎的深度學習,因此近年來備受關注,參會人數倍增,近幾年會議註冊頁面剛開放就會被搶注一空。樹大招風,2018年因爲NIPS縮寫有性別歧視的意味,因此從2019年開始改名爲了NeurIPS。ICLR是深度學習興起後在2013年創立的年輕會議,採用的開放審稿模式,整個審稿過程的審稿意見、做者回復所有實時公開,也容許其餘圍觀用戶評論,面貌一新,關注者衆,頗領一時風氣之先。機器學習領域相關學術期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。
信息檢索和數據挖掘領域相關學術會議主要由美國計算機學會(ACM)主辦,包括SIGIR、KDD、WWW(從2018年開始改名爲The Web Conference)、WSDM。信息檢索和數據挖掘領域相關學術期刊包括ACM TOIS、IEEE TKDE、ACM TKDD、ACM TIST等。其中ACM TOIS和IEEE TKDE歷史比較悠久,地位卓然;ACM TKDD則創立於2007年,ACM TIST創立於2010年,均爲新興的著名期刊,特別是ACM TIST創刊時就邀請了LibSVM等有影響力的成果發表,如今SCI影響因子比較高。
中國計算機學會(CCF)制定了「中國計算機學會推薦國際學術會議和期刊目錄」,基本公允地列出了每一個領域的高水平期刊與會議。你們能夠經過這個列表,迅速瞭解每一個領域的主要期刊與學術會議。網絡
對不少學生(即便國外學生)而言,想參加ACL、EMNLP、NAACL等國際會議並不是易事,因爲註冊費和差旅費很高,通常要有論文發表導師提供經費支持,並且長途跋涉也充滿了簽證申請、旅館預訂等不肯定因素。做爲學生,每一年能出去成功且安心地參加一次國際會議,已然很不容易了。近年來,不少國內NLP學者已經能夠持續發表高水平論文,進入國際一線研究行列,並與不少國際著名學者創建起密切的學術交流與合做。在他們的努力組織下,這些國內NLP學術會議的學術報告質量也有大幅提高,特別是特邀報告、講習班、專題論壇等環節。須要說明的是,最近AI領域大火,國內不少機構都開始組織各種AI大會,其中不少特邀講者不乏大牌學者。但爲了強調學術導向,這裏只聚焦那些以學術交流爲主的純學術會議。
與國際學術組織和會議類似,國內也有一家與NLP/CL相關的專業學術組織,中國中文信息學會(CIPS,http://www.cipsc.org.cn/ ),是國內最大的天然語言處理學術組織,最先由著名科學家錢偉長先生髮起成立。經過學會的理事名單(http://www.cipsc.org.cn/lingdao.php )基本能夠了解國內從事NLP/CL的主要單位和學者。中文信息學會每一年組織不少學術會議,例如全國計算語言學學術會議(CCL)、中國天然語言處理青年學者研討會(YSSNLP)、全國信息檢索學術會議(CCIR)、全國機器翻譯研討會(CWMT)等,是國內NLP/CL學者進行學術交流的重要平臺。尤爲值得一提的是,YSSNLP是專門面向國內NLP/CL青年學者的研討交流會,採用邀請制參加,你們自願報名在研討會上報告學術前沿動態,是國內NLP/CL青年學者進行學術交流、創建學術合做的絕佳平臺。2010年的COLING和2015年的ACL在北京召開,均由中文信息學會負責組織工做,這在必定程度上反映了學會在國內NLP/CL領域的重要地位。此外,計算機學會中文信息技術專委會組織的天然語言處理與中文計算會議(NLP&CC)是最近崛起的國內重要NLP/CL學術會議。中文信息學會主編了一份歷史悠久的《中文信息學報》,是國內該領域的重要學術期刊,發表過不少篇重量級論文。此外,國內著名的《計算機學報》、《軟件學報》等期刊上也常常有NLP/CL論文發表,值得關注。機器學習
CCL是中國中文信息學會的旗艦會議,由CIPS的計算語言學專委會舉辦。CCL從1991年開始每兩年舉辦一次,從2013年開始每一年舉辦一次,2018年是第十七屆。通過20餘年的發展,是國內天然語言處理領域權威性最高口碑最好規模最大(2017年註冊人次超過1千)的學術會議,是國內NLP學者每一年都會參加的盛會,現場交流氛圍極佳。CCL設置的講習班、特邀報告、NLP任務評測、前沿動態綜述等環節,均有較大影響力,也是快速瞭解NLP前沿動態的絕佳方式。
其中,CCL的特邀報告環節最具特點,CCL程序委員會主席孫茂松教授每一年都會大力邀請多學科相關重量級學者擔綱。以CCL 2017爲例,特邀講者包括了中國工程院院士、西安交通大學鄭南寧教授,清華大學社會科學學院院長彭凱平教授,香港科技大學計算機科學與工程學系系主任楊強教授,北京大學統計科學中心聯席主任耿直教授,搜狗公司總裁王小川等,主題涵蓋認知科學、心理學、機器學習、統計學等方向,議題與內容極具啓發性。ide
CCKS由CIPS的語言與知識計算專委會舉辦,由國內兩個相關會議合併而來,分別是中文知識圖譜研討會(CKGS)和中國語義互聯網與Web科學大會(CSWS)。CCKS是國內知識圖譜、語義技術、連接數據等領域的核心會議,2017年有500位學者註冊參加。CCKS設置的講習班、工業論壇、評測競賽、知識圖譜頂會回顧、特邀報告等環節,具備較大影響力,是快速瞭解知識圖譜等方向前沿動態的絕佳方式。學習
SMP由CIPS的社會媒體處理專委會舉辦,SMP 2018是第七屆,是國內聚焦社會媒體、面向社會計算和計算社會科學交叉學科的權威會議,SMP 2017年有800多人次參加。SMP也設置有講習班、專題論壇、評測任務等環節。
其中,SMP專題論壇很是活躍,以SMP 2017年爲例,共設置了智能金融、計算社會學、情感分析、推薦系統、計算傳播學、智能教育、表示學習及企業論壇等8個論壇,均有相關領域重量級學者擔任講者進行交流。大數據
CCIR由CIPS和CCF聯合主辦,是中國信息檢索領域最重要的盛會。會議除包含大會報告、論文報告、Poster交流、評測活動外,還組織青年學者論壇、博士生指導論壇,以及面向熱點研究問題的前沿講習班等。大會也會邀請部分相關國際期刊、會議(如TOIS、SIGIR、WWW、WSDM、CIKM)的中國做者交流論文。網站
CWMT從2005年開始舉辦,2018年是第14屆,其中共組織過七次機器翻譯評測,是國內最權威的機器翻譯學術會議。除了傳統的論文宣講、特邀報告等環節,最近還設置了新人秀、產業論壇等環節,從事機器翻譯研究與開發的同窗不能錯過。
YSSNLP是CIPS青年工做委員會的學術年會,其特點是採起邀請制,只容許青工委委員及其邀請的表明參加,每一年約有150位青年學者參加,幾乎囊括國內從事NLP研究的全部青年學者。青工委很是活躍,除了組織YSSNLP年會外,青工委還組織大量的國際頂級會議預講會、學術沙龍等學術活動。
其中國際頂級會議預講會是青工委的品牌活動之一,每一年在 ACL、SIGIR、IJCAI、AAAI等國際頂級會議正式召開以前,邀請國內有論文發表的學者介紹本身的論文工做。每次活動都吸引了大量來自學術界和工業界的現場和在線聽衆,極大促進了國內相關領域研究的發展以及研究者之間的交流。2018年學術活動安排以下,歡迎你們關注並積極參與。
這是CIPS的老牌學術活動,旨在面向青年學生進行前沿課題的教學與普及工做,帶領同窗迅速進入前沿。2018年將是CIPS暑期學校的第13屆。以2016年和2017年的暑期學校爲例,均以深度學習技術在NLP中的應用開展教學,邀請國內一線青年教師和博士生擔任講者,系統深刻地介紹深度學習的相關知識與動態。暑期學校每次持續4天課程,因爲其較好的系統性和連續性,受到國內同窗的普遍好評,近兩年註冊人數都超過場地容量。我我的擔任了2016年暑期學校的講者,以及2017年暑期學校的組織者,感受這是很是好的系統學習NLP前沿動態的方式(雖然收費有點高)。
值得一提的是,從2016年起,CIPS暑期學校被歸入到了CIPS《前沿技術講習班》編制,而CIPS組織的各大學術會議的講習班也編入CIPS《前沿技術講習班》,由CIPS統一保證講習班質量。
NLPCC由CCF中文信息技術專委會舉辦,NLPCC 2018是第七屆。NLPCC按照國際會議模式組織,組織委員會注重吸納國際學者,論文報告均用英文進行,是近年來國內崛起的重要NLP學術會議,2017年參會人數超過500人,是在國內瞭解NLP前沿動態的又一個重要平臺。值得一提的是,CCF學科前沿講習班(ADL)相似於CIPS ATT,也是面向各種專題開展的講習班,是CCF的老牌學術活動。NLPCC每次都會附帶一次面向NLP的CCF ADL講習班,值得關注。
但願以上信息可以對初入NLP的青年同窗有所助益。國內差旅成本較低,相信大部分導師會樂意支持學生參加學習,快速提升。最後想說,以上總結並不是排名,僅爲青年同窗提供學習與交流的入口。並且限於我的所見,該總結不免掛一漏萬,歡迎各類建議和意見,我會努力吸收改進。
這篇介紹了天然語言處理領域國內外的主要學術組織、會議和論文,參加學術會議,閱讀學術論文,是走近學術界、瞭解學術動態的主要方式,再輔以社交媒體和科技媒體,相信可讓同窗比較及時地掌握天然語言處理科研動態。