做者:煉己者html
本博客全部內容以學習、研究和分享爲主,如需轉載,請聯繫本人,標明做者和出處,而且是非商業用途,謝謝!python
直接作文本分類這個項目,具體的思路很簡單。把原始文本變成向量,而後調用sklearn庫裏的分類算法,就能夠實現文本分類了!算法
如何把文本轉換爲文本向量呢?看這篇文章便可,手把手地教你把中文文本變成向量(附代碼)機器學習
儘可能地去理解代碼,代碼的實現思路,之後遇到相似問題能不能轉換成相應的數據格式,繼續用這些代碼操做。學習
完整的實現文本分類這個項目以後不要驕傲,覺得本身很厲害了,能夠縱橫NLP界了。接下來你要開始有體系地去學習3d
我仍是推薦視頻爲主,書籍爲輔,畢竟咱們是小白,直接看書會很容易放棄的。須要有好的e老師帶咱們飛!視頻
第一個視頻教程,宗成慶教授的視頻教程,建議書和視頻一塊兒來。htm
書籍也是宗成慶教授的著做
blog
第二個視頻教程,是煉數成金的教程,裏面的課程目錄是這樣的
教程
兩個視頻教程你能夠網上搜索,也能夠關注公衆號:ZhangyhPico
回覆關鍵字 天然語言處理入門 ,即可以領取資源
經典書籍我推薦《python天然語言處理》 以及 《數學之美》這兩本書
《python天然語言處理》這本書很適合咱們小白來讀,做者感受就是以咱們小白的角度來寫的。裏面主要是處理英文數據的,你能夠試着用書裏的方法來操做中文數據,這樣你會更好的落實和理解書中的代碼。
《數學之美》這本書我感受就是在說天然語言處理方向的技術原理,能夠拿來作科普。好比你想作什麼算法了,能夠先拿這本書讀一讀,對你要用到的算法有個初步瞭解
到了這個階段你的理論知識基本完備,至少不那麼迷茫了。接下來你能夠開始作項目,讀論文了。固然沒事兒的時候還要多多翻閱這兩本經典之做,基本作機器學習方向就不能忽略這兩本書了。李航的《統計學習方法》,周志華的西瓜書《機器學習》。
作項目的話你確定要有數據,中文的數據很差找,這裏有一份關於中文數據的彙總,能夠參考一下。
中文文本語料庫整理
項目有不少,好比命名實體識別,實體關係抽取,知識圖譜等等。
命名實體識別系列你能夠參考這裏的博客操做,中文命名實體識別總結
知識圖譜這個項目很大,要作的東西不少。你能夠先把理論知識備好,再去操做
理論知識依舊建議看視頻,視頻教程是小象學院的。能夠關注公衆號:ZhangyhPico
,回覆關鍵字知識圖譜,便可領取視頻教程
天然語言處理方向的論文資料能夠看這篇博客,裏面會教你怎麼找論文
初學者如何查閱天然語言處理(NLP)領域學術資料
到了這裏,入門是確定入門了,後續發展就看你本身了。沒事兒讀讀論文,作作比賽,悠哉遊哉!!!
歡迎掃碼關注