cws_evaluation 是一個Java開源項目,用於對Java中文分詞器分詞效果進行評估。java
cws_evaluation 是經過對前文《word分詞器、ansj分詞器、mmseg4j分詞器、ik-analyzer分詞器分詞效果評估》中寫的評估程序進行重構改進後造成的。git
支持的分詞器有:word分詞器、ansj分詞器、mmseg4j分詞器、ik-analyzer分詞器、jcseg分詞器、fudannlp分詞器、paoding分詞器、jieba分詞器、stanford分詞器等9大中文分詞器。github
評估採用的測試文本有253 3709行,共2837 4490個字符。算法
可運行程序下載
lua
最好的評估結果是word分詞 全切分算法(trigram):spa
word分詞 全切分算法(trigram): 分詞速度:42.10602 字符/毫秒 行數完美率:65.04% 行數錯誤率:34.95% 總的行數:2533709 完美行數:1648163 錯誤行數:885546 字數完美率:56.3% 字數錯誤率:43.69% 總的字數:28374490 完美字數:15976750 錯誤字數:12397740
下面的評估數據中,word分詞使用bigram,按行數完美率排序:code
1: word分詞 全切分算法: 分詞速度:40.259953 字符/毫秒 行數完美率:58.79% 行數錯誤率:41.2% 總的行數:2533709 完美行數:1489713 錯誤行數:1043996 字數完美率:49.53% 字數錯誤率:50.46% 總的字數:28374490 完美字數:14054431 錯誤字數:14320059 2: Ansj ToAnalysis 精準分詞: 分詞速度:705.25415 字符/毫秒 行數完美率:58.6% 行數錯誤率:41.39% 總的行數:2533709 完美行數:1484830 錯誤行數:1048879 字數完美率:50.96% 字數錯誤率:49.03% 總的字數:28374490 完美字數:14462190 錯誤字數:13912300 3: Stanford Beijing University segmentation: 分詞速度:14.4612055 字符/毫秒 行數完美率:58.29% 行數錯誤率:41.7% 總的行數:2533709 完美行數:1477034 錯誤行數:1056675 字數完美率:51.36% 字數錯誤率:48.63% 總的字數:28374490 完美字數:14574120 錯誤字數:13800370 4: Ansj NlpAnalysis NLP分詞: 分詞速度:171.70125 字符/毫秒 行數完美率:58.15% 行數錯誤率:41.84% 總的行數:2533687 完美行數:1473377 錯誤行數:1060310 字數完美率:49.8% 字數錯誤率:50.19% 總的字數:28374398 完美字數:14132290 錯誤字數:14242108 5: Stanford Chinese Treebank segmentation: 分詞速度:13.723294 字符/毫秒 行數完美率:55.45% 行數錯誤率:44.54% 總的行數:2533709 完美行數:1404968 錯誤行數:1128741 字數完美率:47.27% 字數錯誤率:52.72% 總的字數:28374490 完美字數:13414926 錯誤字數:14959564 6: word分詞 雙向最大最小匹配算法: 分詞速度:172.1868 字符/毫秒 行數完美率:55.31% 行數錯誤率:44.68% 總的行數:2533709 完美行數:1401582 錯誤行數:1132127 字數完美率:45.83% 字數錯誤率:54.16% 總的字數:28374490 完美字數:13005696 錯誤字數:15368794 7: Ansj BaseAnalysis 基本分詞: 分詞速度:834.34753 字符/毫秒 行數完美率:55.31% 行數錯誤率:44.68% 總的行數:2533709 完美行數:1401582 錯誤行數:1132127 字數完美率:48.17% 字數錯誤率:51.82% 總的字數:28374490 完美字數:13670258 錯誤字數:14704232 8: word分詞 雙向最大匹配算法: 分詞速度:270.38776 字符/毫秒 行數完美率:52.01% 行數錯誤率:47.98% 總的行數:2533709 完美行數:1317801 錯誤行數:1215908 字數完美率:42.42% 字數錯誤率:57.57% 總的字數:28374490 完美字數:12038414 錯誤字數:16336076 9: FudanNLP: 分詞速度:94.249245 字符/毫秒 行數完美率:51.48% 行數錯誤率:48.51% 總的行數:2533709 完美行數:1304371 錯誤行數:1229338 字數完美率:43.22% 字數錯誤率:56.77% 總的字數:28374490 完美字數:12265742 錯誤字數:16108748 10: Jieba SEARCH: 分詞速度:662.1663 字符/毫秒 行數完美率:51.42% 行數錯誤率:48.57% 總的行數:2533709 完美行數:1303081 錯誤行數:1230628 字數完美率:42.09% 字數錯誤率:57.9% 總的字數:28374490 完美字數:11944313 錯誤字數:16430177 11: Ansj IndexAnalysis 面向索引的分詞: 分詞速度:750.1914 字符/毫秒 行數完美率:50.89% 行數錯誤率:49.1% 總的行數:2533709 完美行數:1289517 錯誤行數:1244192 字數完美率:42.96% 字數錯誤率:57.03% 總的字數:28374490 完美字數:12191132 錯誤字數:16183358 12: Jcseg 複雜模式: 分詞速度:412.83997 字符/毫秒 行數完美率:48.64% 行數錯誤率:51.35% 總的行數:2533709 完美行數:1232550 錯誤行數:1301159 字數完美率:39.59% 字數錯誤率:60.4% 總的字數:28374490 完美字數:11236204 錯誤字數:17138286 13: word分詞 雙向最小匹配算法: 分詞速度:343.60004 字符/毫秒 行數完美率:46.76% 行數錯誤率:53.23% 總的行數:2533709 完美行數:1185013 錯誤行數:1348696 字數完美率:36.52% 字數錯誤率:63.47% 總的字數:28374490 完美字數:10365168 錯誤字數:18009322 14: word分詞 逆向最大匹配算法: 分詞速度:607.2527 字符/毫秒 行數完美率:46.72% 行數錯誤率:53.27% 總的行數:2533709 完美行數:1183913 錯誤行數:1349796 字數完美率:36.67% 字數錯誤率:63.32% 總的字數:28374490 完美字數:10407342 錯誤字數:17967148 15: word分詞 正向最大匹配算法: 分詞速度:615.3252 字符/毫秒 行數完美率:46.66% 行數錯誤率:53.33% 總的行數:2533709 完美行數:1182351 錯誤行數:1351358 字數完美率:36.73% 字數錯誤率:63.26% 總的字數:28374490 完美字數:10422209 錯誤字數:17952281 16: Jcseg 簡易模式: 分詞速度:750.60815 字符/毫秒 行數完美率:45.24% 行數錯誤率:54.75% 總的行數:2533709 完美行數:1146355 錯誤行數:1387354 字數完美率:36.48% 字數錯誤率:63.51% 總的字數:28374490 完美字數:10352723 錯誤字數:18021767 17: word分詞 逆向最小匹配算法: 分詞速度:970.16754 字符/毫秒 行數完美率:41.78% 行數錯誤率:58.21% 總的行數:2533709 完美行數:1058606 錯誤行數:1475103 字數完美率:31.68% 字數錯誤率:68.31% 總的字數:28374490 完美字數:8989797 錯誤字數:19384693 18: MMSeg4j ComplexSeg: 分詞速度:1071.8275 字符/毫秒 行數完美率:38.81% 行數錯誤率:61.18% 總的行數:2533688 完美行數:983517 錯誤行數:1550171 字數完美率:29.6% 字數錯誤率:70.39% 總的字數:28374428 完美字數:8400089 錯誤字數:19974339 19: MMSeg4j SimpleSeg: 分詞速度:1369.4913 字符/毫秒 行數完美率:37.57% 行數錯誤率:62.42% 總的行數:2533688 完美行數:951909 錯誤行數:1581779 字數完美率:28.45% 字數錯誤率:71.54% 總的字數:28374428 完美字數:8074021 錯誤字數:20300407 20: IKAnalyzer 智能切分: 分詞速度:350.47543 字符/毫秒 行數完美率:37.55% 行數錯誤率:62.44% 總的行數:2533686 完美行數:951638 錯誤行數:1582048 字數完美率:27.97% 字數錯誤率:72.02% 總的字數:28374416 完美字數:7938726 錯誤字數:20435690 21: word分詞 正向最小匹配算法: 分詞速度:1079.0421 字符/毫秒 行數完美率:36.85% 行數錯誤率:63.14% 總的行數:2533709 完美行數:933769 錯誤行數:1599940 字數完美率:26.85% 字數錯誤率:73.14% 總的字數:28374490 完美字數:7621334 錯誤字數:20753156 22: Jieba INDEX: 分詞速度:622.5616 字符/毫秒 行數完美率:36.44% 行數錯誤率:63.55% 總的行數:2533709 完美行數:923459 錯誤行數:1610250 字數完美率:26.25% 字數錯誤率:73.74% 總的字數:28374490 完美字數:7448925 錯誤字數:20925565 23: MMSeg4j MaxWordSeg: 分詞速度:1064.9885 字符/毫秒 行數完美率:34.27% 行數錯誤率:65.72% 總的行數:2533688 完美行數:868440 錯誤行數:1665248 字數完美率:25.2% 字數錯誤率:74.79% 總的字數:28374428 完美字數:7152898 錯誤字數:21221530 24: IKAnalyzer 細粒度切分: 分詞速度:366.91785 字符/毫秒 行數完美率:18.87% 行數錯誤率:81.12% 總的行數:2533686 完美行數:478176 錯誤行數:2055510 字數完美率:10.93% 字數錯誤率:89.06% 總的字數:28374416 完美字數:3103178 錯誤字數:25271238 25: Paoding MAX_WORD_LENGTH_MODE: 分詞速度:1343.1075 字符/毫秒 行數完美率:14.19% 行數錯誤率:85.8% 總的行數:2533158 完美行數:359637 錯誤行數:2173521 字數完美率:7.72% 字數錯誤率:92.27% 總的字數:28373102 完美字數:2191349 錯誤字數:26181753 26: Paoding MOST_WORDS_MODE: 分詞速度:1338.9246 字符/毫秒 行數完美率:11.6% 行數錯誤率:88.39% 總的行數:2533158 完美行數:294011 錯誤行數:2239147 字數完美率:5.92% 字數錯誤率:94.07% 總的字數:28373102 完美字數:1680261 錯誤字數:26692841