天然語言處理NLP是計算機科學、人工智能、語言學關注計算機和人類(天然)語言之間的相互做用的領域。天然語言處理是機器學習的應用之一,用於分析、理解和生成天然語言,它與人機交互有關,最終實現人與計算機之間更好的交流。python
正是NLP在咱們平常生活中呈現出愈來愈多的便利性,才更想對NLP背後的模型原理和具體應用進行深刻的探討,以便咱們對NLP有更多的認知。查看了近些年來的相關文獻,發現單獨講解NLP方面的理論文獻國內外都有,單獨撰寫NLP任務實現的技術工具(如TensorFlow)的圖書也不少,而將兩者結合起來的圖書,目前在國內尚未發現,學會如何利用深度學習來實現許多有意義的NLP任務。具體的代碼實現(含實現過程),使用的技術框架爲TensorFlow(1.8版本),編程語言爲Python(3.6版本)。算法
《TensorFlow與天然語言處理應用》PDF+源代碼+李孟全數據庫
《TensorFlow與天然語言處理應用》PDF,414頁,有目錄,文字可複製;配套源代碼。做者: 李孟全編程
下載: https://pan.baidu.com/s/12iagygRiaSQ_uqINnma4Hw
提取碼: shfq網絡
《TensorFlow與天然語言處理應用》分爲12章,內容包括天然語言處理基礎、深度學習基礎、TensorFlow、詞嵌入(Word Embedding)、卷積神經網絡(CNN)與句子分類、循環神經網絡(RNN)、長短時間記憶(LSTM)、利用LSTM實現圖像字幕自動生成、情感分析、機器翻譯及智能問答系統。app
深度學習的優勢是能夠將全部文本跨度(包括文檔、問題和潛在答案)轉換爲向量嵌入,然而基於深度學習的QA模型存在許多挑戰。例如,現有的神經網絡(RNN和CNN)仍然不能精確地捕獲給定問題的語義含義,特別是對於文檔,主題或邏輯結構不能經過神經網絡容易地建模,而且在知識庫中嵌入項目仍然沒有有效的方法,以及QA中的推理過程很難經過向量之間的簡單數值運算來建模。這些問題是質量保證任務面臨的主要挑戰,將來應引發更多的關注。框架
學習Python天然語言處理旨在回答三個問題:第一個,什麼是天然語言處理;第二個,爲何大多數人會使用Python來開發天然語言處理應用程序;最後一個也很重要的問題,在學習天然語言處理的時候,有哪些Python相關資源可用。機器學習
雅蘭·薩納卡《Python天然語言處理》中英文PDF代碼編程語言
《Python天然語言處理》中文PDF,631頁,有目錄,文字可複製;英文PDF,468頁,有目錄,文字可複製;配套源代碼。做者: [印] 雅蘭·薩納卡Jalaj Thanaki,譯者: 張金超 / 劉舒曼ide
下載: https://pan.baidu.com/s/1bTObRcW8p7Q0WA15_O-S0g
提取碼: qy3k
NLP入門書籍第一書《Python天然語言處理》,比Nitin那本NLTK來得更加詳細/全面適合入門,基礎詳細。介紹部分數學知識到NLP流程,NLP/NLU/NLG等,規則系統應用場合/機器學習/深度學習等各優缺點內容翔實附帶入門代碼 04/27 讀第二遍,雅蘭很聰明,畢業到工做時間寫出這本書,全書脈絡清晰/重點把握 * 體系理論:★★★★☆ : 從機器學習到深度學習差別;各個算法差別優缺點分析;從詞袋到word2vec等詳細分析;從規則系統到機器學習,惋惜沒有說起CBR等 * 組織脈絡:★★★★☆ 清晰,把握側重點,部分關鍵概念說起(one-hot編碼等等) * 實踐指導:★★★★☆:提供了詳細的各類代碼,第11章 提供了詳細的備忘錄及指導 惋惜越到後面,部分代碼比較隨意。
《基於深度學習的天然語言處理》中文PDF+英文PDF+Yoav Goldberg
《基於深度學習的天然語言處理》中文PDF,274頁,帶書籤目錄,文字能夠複製。
《基於深度學習的天然語言處理》英文PDF,282頁,帶書籤目錄,文字能夠複製。
下載: https://pan.baidu.com/s/1v05L521Xr9le0IQCE7f6VA
提取碼: 33ku
《基於深度學習的天然語言處理》做者: Yoav Goldberg 譯者: 車萬翔 / 郭江 / 張偉男 / 劉銘 ,重點介紹了神經網絡模型在天然語言處理中的應用。首先介紹有監督的機器學習和前饋神經網絡的基本知識,如何將機器學習方法應用在天然語言處理中,以及詞向量表示(而不是符號表示)的應用,而後介紹了更多專門的神經網絡結構,包括一維卷積神經網絡、循環神經網絡、條件生成模型和基於注意力的模型。最後也討論了樹形網絡、結構化預測以及多任務學習的發展展望。
《Python天然語言處理實戰核心技術與算法》PDF代碼+塗銘
《Python天然語言處理實戰核心技術與算法》PDF,303頁,有書籤目錄,文字能夠複製;配套源代碼。做者:塗銘 / 劉祥 / 劉樹春
下載: https://pan.baidu.com/s/1Jp02kwGY3HOkZw5Op5b55w
提取碼: ry7e
中文天然語言處理須要使用編程工具和框架,能夠利用python實現需求。天然語言處理是一門融語言學、計算機科學、數學於一體的學科,比較複雜,學習門檻高。
推薦學習塗銘等編寫的《Python天然語言處理實戰:核心技術與算法》,重點探討中文的天然語言處理,以Python及其相關框架爲工具,以實戰爲導向,詳細講解了天然語言處理的各類核心技術、方法論和經典算法。
《知識圖譜方法實踐與應用》PDF+勘誤PDF+王昊奮
《知識圖譜方法實踐與應用》PDF,481頁,帶書籤目錄,文字可複製,王昊奮,漆桂林編著;配套實踐工具和相關勘誤。
下載: https://pan.baidu.com/s/18R8DGiGAkHdtafYLBlTVvg
提取碼: h4jm
知識圖譜是較爲典型的多學科交叉領域,涉及知識工程、天然語言處理、機器學習、圖數據庫等多個領域。本書系統地介紹知識圖譜涉及的關鍵技術,如知識建模、關係抽取、圖存儲、自動推理、圖譜表示學習、語義搜索、知識問答、圖挖掘分析等。《知識圖譜方法實踐與應用》嘗試將學術前沿和實戰結合,在掌握實際應用能力的同時對前沿技術發展有所瞭解。
《Python文本分析》中文PDF+英文PDF+源代碼
《Python文本分析》中文PDF,285頁,文字能夠複製。《Python文本分析》英文PDF,397頁,文字能夠複製。配套源代碼。做者: [印] 迪潘簡·撒卡爾
下載: https://pan.baidu.com/s/1s30LJMsOJyk6sdHatqqVOQ
提取碼: tyn2
《Python文本分析》遵循結構化和綜合性的方法,介紹了文本和語言語法、結構和語義的基礎概念和高級概念。從天然語言和Python的基礎開始,進而學習先進的分析理念和機器學習概念。
全面提供了天然語言處理(NLP)和文本分析的主要概念和技術。包含了豐富的真實案例實現技術,例如構建分類新聞文章的文本分類系統,使用主題建模和文本摘要分析app或遊戲評論,進行熱門電影概要的聚類分析和電影評論的情感分析。介紹了基於Python和流行NLP開源庫和文本分析實用工具,如天然語言工具包nltk、gensim、scikit-learn、spaCy和Pattern。
《駕馭文本:文本的發現組織和處理》中文PDF+英文PDF+源代碼
《駕馭文本:文本的發現組織和處理》中文PDF,342頁,帶書籤目錄,文字能夠複製。
《駕馭文本:文本的發現組織和處理》英文PDF,322頁,帶書籤目錄,文字能夠複製。
配套源代碼。
下載: https://pan.baidu.com/s/1Uarrs6bt4z7xvEdHWefXzA
提取碼: t4eh
文本處理是目前互聯網內容應用(如搜索引擎、推薦引擎)的關鍵技術。本書涵蓋了文本處理概念和技術的多個方面,包括文本預處理、搜索、字符串匹配、信息抽取、命名實體識別、分類、聚類、標籤生成、摘要、問答等。《駕馭文本:文本的發現組織和處理》的特色在於經過實例來理解文本處理的這些概念和技術,讀者利用現有的開源工具就能夠本身實現這些實例。
《面向機器學習的天然語言標註》中文PDF+英文PDF
《面向機器學習的天然語言標註》中文PDF,312頁,文字可複製,帶書籤;英文PDF,343頁,文字可複製,帶書籤。
下載: https://pan.baidu.com/s/1IRLfBleM1vN3X_XFCAR6iA
提取碼: ct2m
《面向機器學習的天然語言標註》內容全面、詳略得當,結合實例講解,更易理解。數據標註其實是在定義問題,這纔是難點,挺有意思,瞭解了一些標註的方法和數據集,開闊眼界,較全面的NLP機器標註。
《天然語言處理理論與實戰》PDF代碼+唐聃
《天然語言處理理論與實戰》PDF,362頁,帶目錄,文字可複製;配套源代碼。唐聃等著。
下載: https://pan.baidu.com/s/1myY9s4LiDblxLf-7ZqEtJA
提取碼: g8u6
《天然語言處理理論與實戰》通過科學調研分析,選擇以理論結合實例的方式將內容呈現出來。其中涉及開發工具、Python語言、線性代數、機率論、統計學、語言學等工程上經常使用的知識介紹,而後介紹天然語言處理的核心理論和案例解析,最後經過幾個綜合性的例子完成天然語言處理的學習和深刻。
《天然語言處理實踐聊天機器人技術原理與應用》PDF+王昊奮
《天然語言處理實踐聊天機器人技術原理與應用》PDF,198頁,帶書籤目錄,文字能夠複製。
做者: 王昊奮 等
下載: https://pan.baidu.com/s/1A9erGTD1SW3RgnzW13hOxw
提取碼: 4j3f
學習天然語言處理的目的是將其應用到智能問答或者評論處理等問題中。最近正在作對話系統這塊,學習了《天然語言處理實踐聊天機器人技術原理與應用》,總體感受不錯,頗有啓發,能夠系統地對這塊領域作一個瞭解,做爲一本參考書放着挺好的,算是作工做的一中習慣了,系統性強了實戰就弱了,工程化還得靠本身親自操刀,按照參考書中的大綱逐個擊破技術點便可。
《天然語言處理綜論第2版》中文PDF+英文PDF+Jurafsky+馮志偉
《天然語言處理綜論第2版》中文PDF,827頁,有目錄書籤,文字能夠複製。《天然語言處理綜論第2版》英文PDF,1044頁,有目錄書籤,文字能夠複製。做者: Daniel Jurafsky(D. 朱夫斯凱) / James H. Martin(J. H. 馬丁)
譯者: 馮志偉
下載: https://pan.baidu.com/s/1MH0iUDqg9VBalojg-IEXlw
提取碼: 7cnh
《天然語言處理綜論第2版》對於初版作了全面的改寫,增長了大量反映天然語言處理最新成就的內容,特別是增長了語音處理和統計技術方面的內容。《天然語言處理綜論第2版》覆蓋全面,強調實用,注重評測,語料爲本。
隨着互聯網行業的高速發展,人們獲取信息的方式愈來愈多,從主動獲取信息逐漸變爲被動接收信息,信息量也呈爆發式增加。所以,人們已經從信息匱乏時代進入信息「過載」時代。人們對信息獲取的有效性和針對性的需求隨之出現,推薦系統也應運而生。推薦系統就是互聯網時代的一種信息檢索工具,推薦系統的任務就是鏈接用戶和信息,創造價值。
推薦系統從20世紀90年代開始出現,逐漸成爲一門獨立的學科,而且在學術界和工業界應用中都取得了諸多成果。《推薦系統算法實踐》主要講解目前學術界和工業界的一些主流、經常使用的推薦方法和工具。
首先從基礎開始,介紹數學基礎、具體的推薦系統,以及經常使用的推薦算法工具,包括目前主流的工具Sklearn、Spark MLlib、TensorFlow,而且介紹效率提高工具Zeppelin Notebook和Jupyter Notebook。
《推薦系統算法實踐》PDF+源代碼+黃美靈
《推薦系統算法實踐》PDF,290頁,帶書籤目錄,文字能夠複製,黃美靈著,配套源代碼。
下載: https://pan.baidu.com/s/1Fa3ilB-SQJ8MWAyyCYSoCg
提取碼: nx39
書中涉及理論的部分,表述的感受可讓沒什麼數學基礎的人可以看懂,針對數學薄弱的工程師仍是有益的。
《推薦系統算法實踐》主要講解推薦系統中的召回算法和排序算法,以及各個算法在主流工具Sklearn、Spark、TensorFlow等中的實現和應用。《推薦系統算法實踐》中本着按部就班的原則進行講解。首先,介紹推薦系統中推薦算法的數學基礎,推薦算法的平臺、工具基礎,以及具體的推薦系統。其次,講解推薦系統中的召回算法,主要包括基於行爲類似的協同過濾召回和基於內容類似的Word2vec召回,而且介紹其在Spark、TensorFlow主流工具中的實現與應用。再次,講解推薦系統中的排序算法,包括線性模型、樹模型和深度學習模型,分別介紹邏輯迴歸、FM、決策樹、隨機森林、GBDT、GBDT+LR、集成學習、深度森林、DNN、Wide & Deep、DeepFM、YouTube推薦等模型的原理,以及其在Sklearn、Spark、TensorFlow主流工具中的實現與應用。最後,介紹推薦算法的4個實踐案例,幫助進行工程實踐和應用,而且介紹如何在Notebook上進行代碼開發和算法調試,以幫助提高工做效率。