<轉>初學者如何查閱天然語言處理(NLP)領域學術資料

昨天實驗室一位剛進組的同窗發郵件來問我如何查找學術論文,這讓我想起本身剛讀研究生時茫然四顧的情形:看着學長們高談闊論領域動態,殊不知如何入門。通過研究生幾年的耳濡目染,如今終於能自信地知道去哪兒瞭解最新科研動態了。我想這多是初學者們共通的困惑,與其只告訴一我的知道,不如將這些Folk Knowledge寫下來,來減小更多人的麻煩吧。固然,這個總結不過是一家之談,只盼有人能從中得到一點點益處,受我的認知所限,不免掛一漏萬,還望你們海涵指正。php

1.      國際學術組織、學術會議與學術論文web

天然語言處理(natural language processingNLP)在很大程度上與計算語言學(computational linguisticsCL)重合。與其餘計算機學科相似,NLP/CL有一個屬於本身的最權威的國際專業學會,叫作The Association for Computational LinguisticsACLURLhttp://aclweb.org/),這個協會主辦了NLP/CL領域最權威的國際會議,即ACL年會,ACL學會還會在北美和歐洲召開分年會,分別稱爲NAACLEACL。除此以外,ACL學會下設多個特殊興趣小組(special interest groupsSIGs),彙集了NLP/CL不一樣子領域的學者,性質相似一個大學校園的興趣社團。其中比較有名的諸如SIGDATLinguistic data and corpus-based approaches to NLP)、SIGNLLNatural Language Learning)等。這些SIGs也會召開一些國際學術會議,其中比較有名的就是SIGDAT組織的EMNLPConference on Empirical Methods on Natural Language Processing)和SIGNLL組織的CoNLLConference on Natural Language Learning)。此外還有一個International Committee on Computational Linguistics的老牌NLP/CL學術組織,它每兩年組織一個稱爲International Conference on Computational Linguistics (COLING)的國際會議,也是NLP/CL的重要學術會議。NLP/CL的主要學術論文就分佈在這些會議上。app

做爲NLP/CL領域的學者最大的幸福在於,ACL學會網站創建了稱做ACL Anthology的頁面(URLhttp://aclweb.org/anthology-new/),支持該領域絕大部分國際學術會議論文的免費下載,甚至包含了其餘組織主辦的學術會議,例如COLINGIJCNLP等,並支持基於Google的全文檢索功能,可謂一站在手,NLP論文我有。因爲這個論文集合很是龐大,而且能夠開放獲取,不少學者也基於它開展研究,提供了更豐富的檢索支持,具體入口能夠參考ACL Anthology頁面上方搜索框右側的不一樣檢索按鈕。機器學習

與大部分計算機學科相似,因爲技術發展迅速,NLP/CL領域更重視發表學術會議論文,緣由是發表週期短,並能夠經過會議進行交流。固然NLP/CL也有本身的旗艦學術期刊,發表過不少經典學術論文,那就是Computational LinguisticsURLhttp://www.mitpressjournals.org/loi/coli)。該期刊每期只有幾篇文章,平均質量高於會議論文,時間容許的話值得及時追蹤。此外,ACL學會爲了提升學術影響力,也剛剛創辦了Transactions of ACLTACLURLhttp://www.transacl.org/),值得關注。值得一提的是這兩份期刊也都是開放獲取的。此外也有一些與NLP/CL有關的期刊,如ACM Transactions on Speech and Language ProcessingACM Transactions on Asian Language Information ProcessingJournal of Quantitative Linguistics等等。jsp

根據Google Scholar Metrics 2013年對NLP/CL學術期刊和會議的評價,ACLEMNLPNAACLCOLINGLRECComputational Linguistics位於前5位,基本反映了本領域學者的關注程度。ide

NLP/CL做爲交叉學科,其相關領域也值得關注。主要包括如下幾個方面:(1)信息檢索和數據挖掘領域。相關學術會議主要由美國計算機學會(ACM)主辦,包括SIGIRWWWWSDM等;(2)人工智能領域。相關學術會議主要包括AAAIIJCAI等,相關學術期刊主要包括Artificial IntelligenceJournal of AI Research;(3)機器學習領域,相關學術會議主要包括ICMLNIPSAISTATSUAI等,相關學術期刊主要包括Journal of Machine Learning ResearchJMLR)和Machine LearningML)等。例如最近興起的knowledge graph研究論文,就有至關一部分發表在人工智能和信息檢索領域的會議和期刊上。實際上國內計算機學會(CCF)制定了中國計算機學會推薦國際學術會議和期刊目錄http://www.ccf.org.cn/sites/ccf/aboutpm.jsp?contentId=2567814757463),經過這個列表,能夠迅速瞭解每一個領域的主要期刊與學術會議。工具

最後,值得一提的是,美國Hal Daumé III維護了一個natural language processing的博客(http://nlpers.blogspot.com/),常常評論最新學術動態,值得關注。我常常看他關於ACLNAACL等學術會議的參會感想和對論文的點評,頗有啓發。另外,ACL學會維護了一個Wiki頁面(http://aclweb.org/aclwiki/),包含了大量NLP/CL的相關信息,如著名研究機構、歷屆會議錄用率,等等,都是居家必備之良品,值得深挖。學習

2.      國內學術組織、學術會議與學術論文網站

與國際上類似,國內也有一個與NLP/CL相關的學會,叫作中國中文信息學會(URLhttp://www.cipsc.org.cn/)。經過學會的理事名單(http://www.cipsc.org.cn/lingdao.php)基本能夠了解國內從事NLP/CL的主要單位和學者。學會每一年組織不少學術會議,例如全國計算語言學學術會議(CCL)、全國青年計算語言學研討會(YCCL)、全國信息檢索學術會議(CCIR)、全國機器翻譯研討會(CWMT),等等,是國內NLP/CL學者進行學術交流的重要平臺。尤爲值得一提的是,全國青年計算語言學研討會是專門面向國內NLP/CL研究生的學術會議,從組織到審稿都由該領域研究生擔任,很是有特點,也是NLP/CL同窗們學術交流、快速成長的好去處。值得一提的是,2010年在北京召開的COLING以及2015年即將在北京召開的ACL,學會都是主要承辦者,這也必定程度上反映了學會在國內NLP/CL領域的重要地位。此外,計算機學會中文信息技術專委會組織的天然語言處理與中文計算會議(NLP&CC)也是最近崛起的重要學術會議。中文信息學會主編了一份歷史悠久的《中文信息學報》,是國內該領域的重要學術期刊,發表過不少篇重量級論文。此外,國內著名的《計算機學報》、《軟件學報》等期刊上也常常有NLP/CL論文發表,值得關注。ui

過去幾年,在水木社區BBS上開設的AINLP版面曾經是國內NLP/CL領域在線交流討論的重要平臺。這幾年隨着社會媒體的發展,愈來愈多學者轉戰新浪微博,有濃厚的交流氛圍。如何找到這些學者呢,一個簡單的方法就是在新浪微博搜索的找人功能中檢索天然語言處理 計算語言學信息檢索機器學習等字樣,立刻就能跟過去只在論文中看到名字的老師同窗們近距離交流了。還有一種辦法,清華大學梁斌開發的「微博尋人系統(http://xunren.thuir.org/)能夠檢索每一個領域的有影響力人士,所以也能夠用來尋找NLP/CL領域的重要學者。值得一提的是,不少在國外任教的老師和求學的同窗也活躍在新浪微博上,例如王威廉(http://weibo.com/u/1657470871)、李沐(http://weibo.com/mli65)等,常常爆料業內新聞,值得關注。還有,國內NLP/CL的著名博客是52nlphttp://www.52nlp.cn/),影響力比較大。總之,學術研究既須要苦練內功,也須要與人交流。所謂言者無心、聽者有心,也許其餘人的一句話就能點醒你苦思良久的問題。無疑,博客微博等提供了很好的交流平臺,固然也注意不要沉迷哦。

3.      如何快速瞭解某個領域研究進展

最後簡單說一下快速瞭解某領域研究進展的經驗。你會發現,搜索引擎是查閱文獻的重要工具,尤爲是谷歌提供的Google Scholar,因爲其龐大的索引量,將是咱們披荊斬棘的利器。

當須要瞭解某個領域,若是能找到一篇該領域的最新研究綜述,就省勁多了。最方便的方法仍是在Google Scholar中搜索領域名稱 + survey / review / tutorial / 綜述來查找。也有一些出版社專門出版各領域的綜述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它們發表了不少熱門方向的綜述,如文檔摘要、情感分析和意見挖掘、學習排序、語言模型等。

若是方向太新尚未相關綜述,通常還能夠查找該方向發表的最新論文,閱讀它們的相關工做章節,順着列出的參考文獻,就基本可以瞭解相關研究脈絡了。固然,還有不少其餘辦法,例如去videolectures.net上看著名學者在各大學術會議或暑期學校上作的tutorial報告,去直接諮詢這個領域的研究者,等等。

相關文章
相關標籤/搜索