NLP和Machine Learning學習記錄

 

  畢業設計中須要利用NLP和ML技術來解決問題,這一個階段對這些技術進行學習和應用。html

  NLP 技術python

  NLP學習主要參考書籍:用Python進行天然語言處理(中文) http://www.nltk.org/git

  能夠解決分詞(stem和lamma)、分句、詞性標註、以及wordnet同義詞分析、句子結構分析、實體識別等  github

  關於文法特徵,還須要進一步閱讀算法

  另外目前最新的NLP相關工具實現,能夠參考http://nlp.stanford.edu/機器學習

  本文主要利用NLP技術來進行中英文分句、分詞,以及在分詞的基礎上詞性標註,並創建句法樹,在句法樹的上依據特徵進行實體識別工具

   ML: Machine Learning學習

   主要採用SVM來進行異常檢測,OC-SVM能夠檢測出同一個類別中的異常行爲;以及SVM用來實現分類;實現採用scikit-learn機器學習包中svm庫來解決  http://scikit-learn.org/stable/modules/svm.html設計

   主題建模htm

   利用LDA來對系列文本進行主題建模,實現類似文本聚類,以及關鍵詞抽取,能夠利用gensim主題建模包,https://radimrehurek.com/gensim/,支持中文

   mallet 機器學習工具,僅支持英文

   聚類算法

   k-mean算法 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html  

   scikit-learn 是python上不錯的機器學習包,很方便使用

 

  其它:CRF:條件隨機域,統計模型用來樣本標籤預測;https://pystruct.github.io/

相關文章
相關標籤/搜索