中文分詞工具很是繁多,主要與你們分享其中幾個工具,這是本人第一次接觸中文分詞工具,望輕噴。java
中文分詞工具:python
1、IK Analyzer 是一個開源的,基於java語言開發的輕量級的中文分詞工具包。git
http://www.oschina.net/p/ikanalyzergithub
源碼地址:http://www.oschina.net/news/58998/ikanalyzer-source-move-to-gitosc算法
使用方式:下載IK Analyzer(http://pan.baidu.com/s/1hssEdog),在Java工程中引入jar包便可。dom
2、NLPIR 中文分詞庫(又名ICTCLAS2013)工具
示例(Java):http://my.oschina.net/u/944980/blog/132183spa
3、Jcseg 是基於mmseg算法的一個輕量級開源中文分詞工具.net
http://www.oschina.net/p/jcsegblog
4、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/ )實現的
http://www.oschina.net/p/mmseg4j
5、Anjs 中文分詞器
Python中文分詞組件:
1、Genius是一個開源的Python中文分詞組件,採用 CRF(Conditional Random Field)條件隨機場算法。
http://www.oschina.net/p/genius-fc
2、Python中文分詞組件「結巴」分詞
https://github.com/fxsjy/jieba
安裝說明:
代碼對 Python 2/3 均兼容
寫在最後:下一篇博客我會分享本身研究的其中兩個中文分詞工具,分別爲jieba分詞和IK Analyzer分詞器。