推薦十款java開源中文分詞組件

時間 2019-11-11

原文原文鏈接

1：Elasticsearch的開源中文分詞器 IK Analysis(Star:2471)html

IK中文分詞器在Elasticsearch上的使用。原生IK中文分詞是從文件系統中讀取詞典，es-ik自己可擴展成從不一樣的源讀取詞典。目前提供從sqlite3數據庫中讀取。es-ik-plugin-sqlite3使用方法： 1. 在elasticsearch.yml中設置你的sqlite3詞典的位置： ik_analysis_db_path: /opt/ik/dictionary.db 我提供了默認的詞典：https:/...java

2：開源的java中文分詞庫 IKAnalyzer(Star:343)算法

IK Analyzer 是一個開源的，基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始， IKAnalyzer已經推出了4個大版本。最初，它是以開源項目Luence爲應用主體的，結合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始，IK發展爲面向Java的公用分詞組件，獨立於Lucene項目，同時提供了對Lucene的默認...sql

3：java開源中文分詞 Ansj(Star:3019)數據庫

Ansj中文分詞這是一個ictclas的java實現.基本上重寫了全部的數據結構和算法.詞典是用的開源版的ictclas所提供的.而且進行了部分的人工優化內存中中文分詞每秒鐘大約100萬字(速度上已經超越ictclas) 文件讀取分詞每秒鐘大約30萬字準確率能達到96%以上目前實現了.中文分詞. 中文姓名識別 . 用戶自定義詞典能夠應用到自...數據結構

4：結巴分詞 ElasticSearch 插件(Star:188)數據結構和算法

elasticsearch官方只提供smartcn這個中文分詞插件，效果不是很好，好在國內有medcl大神（國內最先研究es的人之一）寫的兩個中文分詞插件，一個是ik的，一個是mmseg的elasticsearch

5：Java分佈式中文分詞組件 - word分詞(Star:672)分佈式

word分詞是一個Java實現的分佈式的中文分詞組件，提供了多種基於詞典的分詞算法，並利用ngram模型來消除歧義。能準確識別英文、數字，以及日期、時間等數量詞，能識別人名、地名、組織機構名等未登陸詞工具

6：Java開源中文分詞器jcseg(Star:400)

Jcseg是什麼？ Jcseg是基於mmseg算法的一個輕量級開源中文分詞器，同時集成了關鍵字提取，關鍵短語提取，關鍵句子提取和文章自動摘要等功能，而且提供了最新版本的lucene, solr, elasticsearch的分詞接口， Jcseg自帶了一個 jcseg.properties文件...

7：中文分詞庫Paoding

庖丁中文分詞庫是一個使用Java開發的，可結合到Lucene應用中的，爲互聯網、企業內部網使用的中文搜索引擎分詞組件。Paoding填補了國內中文分詞方面開源組件的空白，致力於此並希翼成爲互聯網網站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗。 Paoding...

8：中文分詞器mmseg4j

一、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/... )實現的中文分詞器，並實現 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使...

9：中文分詞Ansj(Star:3015)

Ansj中文分詞這是一個ictclas的java實現.基本上重寫了全部的數據結構和算法.詞典是用的開源版的ictclas所提供的.而且進行了部分的人工優化內存中中文分詞每秒鐘大約100萬字(速度上已經超越ictclas) 文件讀取分詞每秒鐘大約30萬字準確率能達到96%以上目前實現了....

10：Lucene中文分詞庫ICTCLAS4J

ictclas4j中文分詞系統是sinboy在中科院張華平和劉羣老師的研製的FreeICTCLAS的基礎上完成的一個java開源分詞項目，簡化了原分詞程序的複雜度，旨在爲廣大的中文分詞愛好者一個更好的學習機會。

轉載至：http://www.cnblogs.com/zsuxio...

相關標籤/搜索