中文分詞工具

中文分詞工具很是繁多,主要與你們分享其中幾個工具,這是本人第一次接觸中文分詞工具,望輕噴。java

中文分詞工具:python

1、IK Analyzer 是一個開源的,基於java語言開發的輕量級的中文分詞工具包。git

http://www.oschina.net/p/ikanalyzergithub

源碼地址:http://www.oschina.net/news/58998/ikanalyzer-source-move-to-gitosc算法

使用方式:下載IK Analyzer(http://pan.baidu.com/s/1hssEdog),在Java工程中引入jar包便可。dom

2、NLPIR 中文分詞庫(又名ICTCLAS2013)工具

示例(Java):http://my.oschina.net/u/944980/blog/132183spa

3、Jcseg 是基於mmseg算法的一個輕量級開源中文分詞工具.net

http://www.oschina.net/p/jcsegblog

4、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/  )實現的

http://www.oschina.net/p/mmseg4j

5、Anjs 中文分詞器

http://www.oschina.net/p/ansj

Python中文分詞組件:

1、Genius是一個開源的Python中文分詞組件,採用 CRF(Conditional Random Field)條件隨機場算法。

http://www.oschina.net/p/genius-fc

2、Python中文分詞組件「結巴」分詞

https://github.com/fxsjy/jieba

安裝說明:

代碼對 Python 2/3 均兼容

  • 全自動安裝: easy_install jieba 或者 pip install jieba / pip3 install jieba
  • 半自動安裝:先下載 https://pypi.python.org/pypi/jieba/ ,解壓後運行 python setup.py install
  • 手動安裝:將 jieba 目錄放置於當前目錄或者 site-packages 目錄
  • 經過 import jieba 來引用

寫在最後:下一篇博客我會分享本身研究的其中兩個中文分詞工具,分別爲jieba分詞和IK Analyzer分詞器。

相關文章
相關標籤/搜索