Java開源項目cws_evaluation:中文分詞器分詞效果評估

cws_evaluation 是一個Java開源項目,用於對Java中文分詞器分詞效果進行評估java

 

cws_evaluation 經過對前文《word分詞器、ansj分詞器、mmseg4j分詞器、ik-analyzer分詞器分詞效果評估》中寫的評估程序進行重構改進後造成的。git

 

支持的分詞器有:word分詞器、ansj分詞器、mmseg4j分詞器、ik-analyzer分詞器、jcseg分詞器、fudannlp分詞器、paoding分詞器、jieba分詞器、stanford分詞器等9大中文分詞器。github

 

評估採用的測試文本有253 3709行,共2837 4490個字符。算法

 

cws_evaluation主頁
測試

可運行程序下載
lua

 

最好的評估結果是word分詞 全切分算法(trigram)spa

 

word分詞 全切分算法(trigram):
分詞速度:42.10602 字符/毫秒
行數完美率:65.04%  行數錯誤率:34.95%  總的行數:2533709  完美行數:1648163  錯誤行數:885546
字數完美率:56.3% 字數錯誤率:43.69% 總的字數:28374490 完美字數:15976750 錯誤字數:12397740

 

 

下面的評估數據中,word分詞使用bigram,按行數完美率排序:code

 

1:
word分詞 全切分算法:
分詞速度:40.259953 字符/毫秒
行數完美率:58.79%  行數錯誤率:41.2%  總的行數:2533709  完美行數:1489713  錯誤行數:1043996
字數完美率:49.53% 字數錯誤率:50.46% 總的字數:28374490 完美字數:14054431 錯誤字數:14320059

2:
Ansj ToAnalysis 精準分詞:
分詞速度:705.25415 字符/毫秒
行數完美率:58.6%  行數錯誤率:41.39%  總的行數:2533709  完美行數:1484830  錯誤行數:1048879
字數完美率:50.96% 字數錯誤率:49.03% 總的字數:28374490 完美字數:14462190 錯誤字數:13912300

3:
Stanford Beijing University segmentation:
分詞速度:14.4612055 字符/毫秒
行數完美率:58.29%  行數錯誤率:41.7%  總的行數:2533709  完美行數:1477034  錯誤行數:1056675
字數完美率:51.36% 字數錯誤率:48.63% 總的字數:28374490 完美字數:14574120 錯誤字數:13800370

4:
Ansj NlpAnalysis NLP分詞:
分詞速度:171.70125 字符/毫秒
行數完美率:58.15%  行數錯誤率:41.84%  總的行數:2533687  完美行數:1473377  錯誤行數:1060310
字數完美率:49.8% 字數錯誤率:50.19% 總的字數:28374398 完美字數:14132290 錯誤字數:14242108

5:
Stanford Chinese Treebank segmentation:
分詞速度:13.723294 字符/毫秒
行數完美率:55.45%  行數錯誤率:44.54%  總的行數:2533709  完美行數:1404968  錯誤行數:1128741
字數完美率:47.27% 字數錯誤率:52.72% 總的字數:28374490 完美字數:13414926 錯誤字數:14959564

6:
word分詞 雙向最大最小匹配算法:
分詞速度:172.1868 字符/毫秒
行數完美率:55.31%  行數錯誤率:44.68%  總的行數:2533709  完美行數:1401582  錯誤行數:1132127
字數完美率:45.83% 字數錯誤率:54.16% 總的字數:28374490 完美字數:13005696 錯誤字數:15368794

7:
Ansj BaseAnalysis 基本分詞:
分詞速度:834.34753 字符/毫秒
行數完美率:55.31%  行數錯誤率:44.68%  總的行數:2533709  完美行數:1401582  錯誤行數:1132127
字數完美率:48.17% 字數錯誤率:51.82% 總的字數:28374490 完美字數:13670258 錯誤字數:14704232

8:
word分詞 雙向最大匹配算法:
分詞速度:270.38776 字符/毫秒
行數完美率:52.01%  行數錯誤率:47.98%  總的行數:2533709  完美行數:1317801  錯誤行數:1215908
字數完美率:42.42% 字數錯誤率:57.57% 總的字數:28374490 完美字數:12038414 錯誤字數:16336076

9:
FudanNLP:
分詞速度:94.249245 字符/毫秒
行數完美率:51.48%  行數錯誤率:48.51%  總的行數:2533709  完美行數:1304371  錯誤行數:1229338
字數完美率:43.22% 字數錯誤率:56.77% 總的字數:28374490 完美字數:12265742 錯誤字數:16108748

10:
Jieba SEARCH:
分詞速度:662.1663 字符/毫秒
行數完美率:51.42%  行數錯誤率:48.57%  總的行數:2533709  完美行數:1303081  錯誤行數:1230628
字數完美率:42.09% 字數錯誤率:57.9% 總的字數:28374490 完美字數:11944313 錯誤字數:16430177

11:
Ansj IndexAnalysis 面向索引的分詞:
分詞速度:750.1914 字符/毫秒
行數完美率:50.89%  行數錯誤率:49.1%  總的行數:2533709  完美行數:1289517  錯誤行數:1244192
字數完美率:42.96% 字數錯誤率:57.03% 總的字數:28374490 完美字數:12191132 錯誤字數:16183358

12:
Jcseg 複雜模式:
分詞速度:412.83997 字符/毫秒
行數完美率:48.64%  行數錯誤率:51.35%  總的行數:2533709  完美行數:1232550  錯誤行數:1301159
字數完美率:39.59% 字數錯誤率:60.4% 總的字數:28374490 完美字數:11236204 錯誤字數:17138286

13:
word分詞 雙向最小匹配算法:
分詞速度:343.60004 字符/毫秒
行數完美率:46.76%  行數錯誤率:53.23%  總的行數:2533709  完美行數:1185013  錯誤行數:1348696
字數完美率:36.52% 字數錯誤率:63.47% 總的字數:28374490 完美字數:10365168 錯誤字數:18009322

14:
word分詞 逆向最大匹配算法:
分詞速度:607.2527 字符/毫秒
行數完美率:46.72%  行數錯誤率:53.27%  總的行數:2533709  完美行數:1183913  錯誤行數:1349796
字數完美率:36.67% 字數錯誤率:63.32% 總的字數:28374490 完美字數:10407342 錯誤字數:17967148

15:
word分詞 正向最大匹配算法:
分詞速度:615.3252 字符/毫秒
行數完美率:46.66%  行數錯誤率:53.33%  總的行數:2533709  完美行數:1182351  錯誤行數:1351358
字數完美率:36.73% 字數錯誤率:63.26% 總的字數:28374490 完美字數:10422209 錯誤字數:17952281

16:
Jcseg 簡易模式:
分詞速度:750.60815 字符/毫秒
行數完美率:45.24%  行數錯誤率:54.75%  總的行數:2533709  完美行數:1146355  錯誤行數:1387354
字數完美率:36.48% 字數錯誤率:63.51% 總的字數:28374490 完美字數:10352723 錯誤字數:18021767

17:
word分詞 逆向最小匹配算法:
分詞速度:970.16754 字符/毫秒
行數完美率:41.78%  行數錯誤率:58.21%  總的行數:2533709  完美行數:1058606  錯誤行數:1475103
字數完美率:31.68% 字數錯誤率:68.31% 總的字數:28374490 完美字數:8989797 錯誤字數:19384693

18:
MMSeg4j ComplexSeg:
分詞速度:1071.8275 字符/毫秒
行數完美率:38.81%  行數錯誤率:61.18%  總的行數:2533688  完美行數:983517  錯誤行數:1550171
字數完美率:29.6% 字數錯誤率:70.39% 總的字數:28374428 完美字數:8400089 錯誤字數:19974339

19:
MMSeg4j SimpleSeg:
分詞速度:1369.4913 字符/毫秒
行數完美率:37.57%  行數錯誤率:62.42%  總的行數:2533688  完美行數:951909  錯誤行數:1581779
字數完美率:28.45% 字數錯誤率:71.54% 總的字數:28374428 完美字數:8074021 錯誤字數:20300407

20:
IKAnalyzer 智能切分:
分詞速度:350.47543 字符/毫秒
行數完美率:37.55%  行數錯誤率:62.44%  總的行數:2533686  完美行數:951638  錯誤行數:1582048
字數完美率:27.97% 字數錯誤率:72.02% 總的字數:28374416 完美字數:7938726 錯誤字數:20435690

21:
word分詞 正向最小匹配算法:
分詞速度:1079.0421 字符/毫秒
行數完美率:36.85%  行數錯誤率:63.14%  總的行數:2533709  完美行數:933769  錯誤行數:1599940
字數完美率:26.85% 字數錯誤率:73.14% 總的字數:28374490 完美字數:7621334 錯誤字數:20753156

22:
Jieba INDEX:
分詞速度:622.5616 字符/毫秒
行數完美率:36.44%  行數錯誤率:63.55%  總的行數:2533709  完美行數:923459  錯誤行數:1610250
字數完美率:26.25% 字數錯誤率:73.74% 總的字數:28374490 完美字數:7448925 錯誤字數:20925565

23:
MMSeg4j MaxWordSeg:
分詞速度:1064.9885 字符/毫秒
行數完美率:34.27%  行數錯誤率:65.72%  總的行數:2533688  完美行數:868440  錯誤行數:1665248
字數完美率:25.2% 字數錯誤率:74.79% 總的字數:28374428 完美字數:7152898 錯誤字數:21221530

24:
IKAnalyzer 細粒度切分:
分詞速度:366.91785 字符/毫秒
行數完美率:18.87%  行數錯誤率:81.12%  總的行數:2533686  完美行數:478176  錯誤行數:2055510
字數完美率:10.93% 字數錯誤率:89.06% 總的字數:28374416 完美字數:3103178 錯誤字數:25271238

25:
Paoding MAX_WORD_LENGTH_MODE:
分詞速度:1343.1075 字符/毫秒
行數完美率:14.19%  行數錯誤率:85.8%  總的行數:2533158  完美行數:359637  錯誤行數:2173521
字數完美率:7.72% 字數錯誤率:92.27% 總的字數:28373102 完美字數:2191349 錯誤字數:26181753

26:
Paoding MOST_WORDS_MODE:
分詞速度:1338.9246 字符/毫秒
行數完美率:11.6%  行數錯誤率:88.39%  總的行數:2533158  完美行數:294011  錯誤行數:2239147
字數完美率:5.92% 字數錯誤率:94.07% 總的字數:28373102 完美字數:1680261 錯誤字數:26692841
相關文章
相關標籤/搜索