畢業設計中須要利用NLP和ML技術來解決問題,這一個階段對這些技術進行學習和應用。html
NLP 技術python
NLP學習主要參考書籍:用Python進行天然語言處理(中文) http://www.nltk.org/git
能夠解決分詞(stem和lamma)、分句、詞性標註、以及wordnet同義詞分析、句子結構分析、實體識別等 github
關於文法特徵,還須要進一步閱讀算法
另外目前最新的NLP相關工具實現,能夠參考http://nlp.stanford.edu/機器學習
本文主要利用NLP技術來進行中英文分句、分詞,以及在分詞的基礎上詞性標註,並創建句法樹,在句法樹的上依據特徵進行實體識別工具
ML: Machine Learning學習
主要採用SVM來進行異常檢測,OC-SVM能夠檢測出同一個類別中的異常行爲;以及SVM用來實現分類;實現採用scikit-learn機器學習包中svm庫來解決 http://scikit-learn.org/stable/modules/svm.html設計
主題建模htm
利用LDA來對系列文本進行主題建模,實現類似文本聚類,以及關鍵詞抽取,能夠利用gensim主題建模包,https://radimrehurek.com/gensim/,支持中文
mallet 機器學習工具,僅支持英文
聚類算法
k-mean算法 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
scikit-learn 是python上不錯的機器學習包,很方便使用
其它:CRF:條件隨機域,統計模型用來樣本標籤預測;https://pystruct.github.io/