Rouchester大學NLP/CL會議列表
一個很是好的會議時間信息網站,將天然語言處理和計算語言學領域的會議,按照時間月份順序列出。php
NLPerJP
一個日本友好人士維護的網站,常常對NLP近來熱點進行評論,能夠受到啓發。html
初學者如何查閱天然語言處理(NLP)領域學術資料
初學者如何查閱NLP領域學術資料,做者爲清華大學計算機系助理研究員劉知遠。另外,劉還曾經翻譯過《機器學習那些事兒》一文,原文刊登在ACM Communication上,劉翻譯後發表在計算機學會通信上。機器學習那些事兒。
另外,一個問題是,文本如何進行特徵選擇,特別是對於摘要任務中的以句子爲單位時,如何進行向量空間表示,能夠參考這一篇,實在不行的話,能夠逐個嘗試,從tf到tf*idf,從bool到完整,待嘗試。機器學習
52nlp
「我愛天然語言處理」網站,屬於52系列,上面有適合入門時候的資料。主要包含兩塊內容,「資源」和「求職招聘」以及「課程圖譜」。 學習
看過論文就知道,在Summarization摘要任務上近些年的領軍任務主要有: 網站
萬小軍
此人生於1979年,至今僅35歲不到,本科碩士博士都在PKU完成。google
其碩士論文:一個用於中文新聞主題檢測與追蹤的原型系統lua
博士論文:基於文檔結構關係的類似搜索與自動摘要技術翻譯
2000年7月在北京大學信息管理系獲理學學士, 2003年7月在北京大學計算機科學技術係獲理學碩士學位,2006年7月在北京大學信息科學技術學院獲博士學位,博士論文獲北京大學優秀博士論文獎。同年加入北京大學計算機科學技術研究所任助理研究員,2007年8月晉升爲副研究員。2008年獲北京大學寶潔獎教金,同年入選教育部新世紀優秀人才支持計劃與北京市科技新星計劃(B類),2010年獲北京大學王選青年學者獎。
此人在Summarization任務上07年逆天,一次性在高水平會議上發表6篇論文。
目前已晉升爲教授(研究員)。領導ICST北大計算技術研究所的LCWM(語言計算與互聯網挖掘研究組)。
上述研究組在Summarization任務下成就顯然。 htm
LiTao
中文名大概是 李濤,目前供職於FIU(佛羅里達國際大學),在Summarization任務上也是逆天存在,超過20+高水平論文。對象
Li Wenjie
目前供職於 香港理工大學PolyU of HK。夏老師曾在04~06在港中文作過研究,與其有過合做。
MDS方向跨學科
首選,(Multi-)Document Summarization任務是跨學科的。從幾個方面來看。第一,從處理的數據對象Data Object來看,屬於Document 或者Text,屬於對語言的載體-文本進行的處理,並且是用一些偏統計的方法,所以屬於NLP/CL大類。此類相關的高水平會議很多。第二,從實現的方法Method來看,使用了一些包括圖論,以聚類分類爲表明的機器學習方法,所以能夠劃歸到ML/AI大類。第三,從「數據」流Data Flow來看,在數據流上屬於一種逆向生成,即從原始大量數據中,在有限的篇幅俠找出「重要且有價值」的信息,所以能夠劃歸到DM大類。第四,從實用的大環境Application Envrionment來看,隨着現今互聯網浪潮,對互聯網上的信息處理具備實際的應用價值,所以能夠劃歸到Web大類。
怎樣出成果
首先必須感嘆,上述三人的勤奮與努力,在Summarization任務上著做等身。但做爲一個具備邏輯思惟的人,必須能看到事物的另外一面。第一,科學研究並非一蹴而就的。若是」論文數量「來看,Summarization任務出現了那麼多論文,但從「應用」角度看,除了被Yahoo收購的應用Summly以外,並無出現有價值的應用。科學論文的的評價標準時有限的,例如在Summarization任務中,自從Lin在2004年推出ROUGE標準,若是想讓同行承認,就必須採用其標準。因而後來人前赴後繼地陷入追求ROUGE得分高的目標中。當然,ROUGE得分高至少能表明方法必定程度上是有效的。可是否ROUGE高就絕對說明方法是最優的呢?徹底不是。我猜想,從評審人或者Reviewer的角度來看,ROUGE得分只是一個載體,或者說是入門條件,當達到入門條件以後,他會考量你的工做是否介紹或者讓人啓發出「新的想法或觀點」。學術活動例如國際會議的召開,老是求新的,要麼是「新結果」,你的方法與別人很相似,或者稍加改進,而後從結果上體現出來有進步。要麼是「新方法」,若是結果知足入門條件以後,從方法上徹底與人不一樣,也算新,不過這時候須要必定程度的「自圓其說」,可以說明在結果上不太具備優越性可是在方法上足夠有新意。 第二,評測標準真的對麼首先,ROUGE的出現實現了在Evaluation上從「主觀評測」到「量化」的飛躍。在04年以後的若干年,這種便於量化的方法爲不少研究者帶來了便利,更確切來講,爲相關研究者帶來「方向」。人們想作一件研究,卻不太明白方法究竟好很差。若是有一個量化準則存在,同行之間也就少了猜忌。可是,從04年到14年,這種準則的有效性其實是臨近瓶頸的。例如在GenericMDS任務上,至今最優的方法在ROUGE-1上能夠達到0.395+。而背後的事實是,有人作出了理論上的推測,即使是人工摘要,因爲問題自己存在不太一致的主觀性,不太可能超過0.41。所以,對於源於不一致主管的工做任務來講,在量化評測下,達到較爲優秀便可,在其餘方面說明「自圓其說」優越性便可。