轉自:http://www.52nlp.cn/resourceshtml
這裏提供一些52nlp博客的一些系列文章以及收集的天然語言處理相關書籍及其餘資源的下載,陸續整理中!若有不妥,我會作刪除處理!python
特別推薦系列:
一、HMM學習最佳範例全文文檔,百度網盤連接: http://pan.baidu.com/s/1pJoMA2B 密碼: f7az算法
二、無約束最優化全文文檔 -by @朱鑑 ,百度網盤連接:連接: http://pan.baidu.com/s/1hqEJtT6 密碼: qng0編程
三、PYTHON天然語言處理中文翻譯-NLTK Natural Language Processing with Python 中文版,陳濤sean 無償翻譯。連接: http://pan.baidu.com/s/1i3DvwFV 密碼: oxne
四、正態分佈的前世此生(pdf 版) – by @rickjin
五、LDA-math-彙總 LDA數學八卦 – by @rickjin
六、如何計算兩個文檔的類似度全文文檔
七、中文分詞入門之字標註法全文文檔機器學習
1、書籍:
一、《天然語言處理綜論》英文版第二版
二、《統計天然語言處理基礎》英文版
三、《用Python進行天然語言處理》,NLTK配套書
四、《Learning Python第三版》,Python入門經典書籍,詳細而不厭其煩
五、《天然語言處理中的模式識別》
六、《EM算法及其擴展》
七、《統計學習基礎》
八、《天然語言理解》英文版(彷佛只有前9章)
九、《Fundamentals of Speech Recognition》,質量不太好,不過第6章關於HMM的部分比較詳細,做者之一即是Lawrence Rabiner;
十、機率統計經典入門書:《機率論及其應用》(英文版,威廉*費勒著)
第一卷 第二卷 DjVuLibre閱讀器(閱讀前兩卷書須要)
十一、一本利用Perl和Prolog進行天然語言處理的介紹書籍:《An Introduction to Language Processing with Perl and Prolog》
十二、國外機器學習書籍之:
1) 「Programming Collective Intelligence「,中文譯名《集體智慧編程》,機器學習&數據挖掘領域」近年出的入門好書,培養興趣是最重要的一環,一上來看大部頭很容易被嚇走的」
2) 「Machine Learning「,機器學習領域無可爭議的經典書籍,下載完畢將後綴改成pdf便可。豆瓣評論 by 王寧):老書,牛人。如今看來內容並不算深,不少章節有點到爲止的感受,可是很適合新手(固然,不能」新」到連算法和機率都不知道)入門。好比決策樹部分就很精彩,而且這幾年沒有特別大的進展,因此並不過期。另外,這本書算是對97年前數十年機器學習工做的大綜述,參考文獻列表極有價值。國內有翻譯和影印版,不知道絕版否。
3) 「Introduction to Machine Learning」
1三、國外數據挖掘書籍之:
1) 「Data.Mining.Concepts.and.Techniques.2nd「,數據挖掘經典書籍 做者 : Jiawei Han/Micheline Kamber 出版社 : Morgan Kaufmann 評語 : 華裔科學家寫的書,至關深刻淺出。
2) Data Mining:Practical Machine Learning Tools and Techniques
3) Beautiful Data: The Stories Behind Elegant Data Solutions( Toby Segaran, Jeff Hammerbacher)
1四、國外模式識別書籍之:
1)「Pattern Recognition」
2)「Pattern Recongnition Technologies and Applications」
3)「An Introduction to Pattern Recognition」
4)「Introduction to Statistical Pattern Recognition」
5)「Statistical Pattern Recognition 2nd Edition」
6)「Supervised and Unsupervised Pattern Recognition」
7)「Support Vector Machines for Pattern Classification」
1五、國外人工智能書籍之:
1)Artificial Intelligence: A Modern Approach (2nd Edition) 人工智能領域無爭議的經典。
2)「Paradigms of Artificial Intelligence Programming: Case Studies in Common LISP」
1六、其餘相關書籍:
1)Programming the Semantic Web,Toby Segaran , Colin Evans, Jamie Taylor
2)Learning.Python第四版,英文svn
2、課件:
一、哈工大劉挺老師的「統計天然語言處理」課件;
二、哈工大劉秉權老師的「天然語言處理」課件;
三、中科院計算所劉羣老師的「計算語言學講義「課件;
四、中科院自動化所宗成慶老師的「天然語言理解」課件;
五、北大常寶寶老師的「計算語言學」課件;
六、北大詹衛東老師的「中文信息處理基礎」的課件及相關代碼;
七、MIT Regina Barzilay教授的「天然語言處理」課件,52nlp上翻譯了前5章;
八、MIT大牛Michael Collins的「Machine Learning Approaches for Natural Language Processing(面向天然語言處理的機器學習方法)」課件;
九、Michael Collins的「Machine Learning (機器學習)」課件;
十、SMT牛人Philipp Koehn 「Advanced Natural Language Processing(高級天然語言處理)」課件;
十一、Philipp Koehn 「Empirical Methods in Natural Language Processing」課件;
十二、Philipp Koehn「Machine Translation(機器翻譯)」課件;工具
3、語言資源和開源工具:
一、Brown語料庫:
a) XML格式的brown語料庫,帶詞性標註;
b) 普通文本格式的brown語料庫,帶詞性標註;
c) 合併並去除空行、行首空格,用於詞性標註訓練:browntest.zip
二、NLTK官方提供的語料庫資源列表
三、OpenNLP上的開源天然語言處理工具列表
四、斯坦福大學天然語言處理組維護的「統計天然語言處理及基於語料庫的計算語言學資源列表」
五、LDC上免費的中文信息處理資源
六、中文分詞相關工具:
1)Java版本的MMSEG:mmseg-v0.3.zip,做者爲solol,詳情可參見:《中文分詞入門之篇外》
2)張華平老師的ICTCLAS2010,該版本非商用免費一年,下載地址:
http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar
七、熱心讀者「finallyliuyu」提供的一批新聞語料庫,包括騰訊,新浪,網易,鳳凰等,目前放在CSDN上:http://finallyliuyu.download.csdn.net/
另外finalllyliuyu在2010年9月又提供了一批文本文類語料,詳情見:獻給熱衷於天然語言處理的業餘愛好者的中文新聞分類語料庫之二學習
4、文獻:
一、ACL-IJCNLP 2009論文全集:
a) 大會論文Full Paper第一卷
b) 大會論文Full Paper第二卷
c) 大會論文Short Paper合集
d) ACL09之EMNLP-2009合集
e) ACL09 全部workshop論文合集優化