中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,結巴分詞,FNLP,哈工大LTP,中科院ICTCLAS分詞,GATE,SnowNLP,東北大學NiuTrans,NLPIR,;java
英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的開源NLP工具主要參見StackoverFlow-java or python for nlppython
相關問題&文章:git
(1)如何用 Python 中的 NLTK 對中文進行分析和處理? 這個問題下的回答也詳說了其餘的語音處理包github
(2)中文分詞項目總結算法
詳細介紹架構
HanLP:HanLP是由一系列模型與算法組成的Java工具包,目標是普及天然語言處理在生產環境中的應用。HanLP具有功能完善、性能高效、架構清晰、語料時新、可自定義的特色。機器學習
開發語言:Java工具
網址:hankcs/HanLP性能
開發機構:大快搜索學習
協議:Apache-2.0
功能:很是多,主要有中文分詞,詞性標註,命名實體識別,關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析,文本分類:情感分析,word2vec,語料庫工具
活躍度:github star 超過4千5,近期(201711)仍在保持更新
Ansj中文分詞:一個基於n-Gram+CRF+HMM的中文分詞的java實現.
開發語言:Java
網址:NLPchina/ansj_seg
協議:Apache License 2.0
功能:中文分詞. 中文姓名識別 . 用戶自定義詞典,關鍵字提取,自動摘要,關鍵字標記
性能:分詞速度達到每秒鐘大約200萬字左右(mac air下測試),準確率能達到96%以上
活躍度:github star 數量超過3500,近期(2017.11)仍在保持更新
THULAC:一個高效的中文詞法分析工具包,具備中文分詞和詞性標註功能。
開發語言:
網址:THULAC:一個高效的中文詞法分析工具包
開發機構:清華大學天然語言處理與社會人文計算實驗室
協議:研究目的免費開放源代碼,商用目的需洽談許可證
功能:中文分詞和詞性標註
感謝石墨用戶@hain 的補充
Synonyms: 中文近義詞工具包
開發語言:Python
網址:https://github.com/huyingxi/Synonyms
開發機構:我的
協議:MIT
功能:獲取近義詞集合,句子類似度計算
性能:見網站
活躍度:~1k Star
結巴分詞:Python中文分詞組件
開發語言:Python
網址:fxsjy/jieba
開發機構:
協議:MIT受權協議
功能:中文分詞
FNLP:FNLP主要是爲中文天然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。
開發語言:
網址: FudanNLP/fnlp
開發機構:復旦
協議:LGPL3.0許可證。
功能:信息檢索: 文本分類 新聞聚類;中文處理: 中文分詞 詞性標註 實體名識別 關鍵詞抽取 依存句法分析 時間短語識別;結構化學習: 在線學習 層次分類 聚類
Genism:Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.
開發語言:Python
網址:RaRe-Technologies/gensim
協議:LGPL-2.1 license
活躍度:github star數超過五千,近期(201711)仍在更新
TextBlob:Simple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.
開發語言:Python
網址:sloria/TextBlob
功能:情感分析、詞性標註、翻譯等
活躍度:github star 超過4千,近期(201711)仍在更新
Spacy:spaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.
開發語言:python
協議:MIT協議
功能: 功能不少,如tagging, parsing and named entity recognition等
性能:功能強大,支持二十多種語言(然而目前還不支持中文,能夠閱讀官方文檔瞭解更多信息https://spacy.io/usage/),號稱是工業級強度的Python NLP工具包,區別於學術性質更濃的Python NLTK
活躍度:star 超過7千,近期(201711)仍很是活躍
做者:鑑津Jackie