通过对前文《word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进,形成了一个新的Java开源项目cws_evaluation,用于对各种中文分词器的分词效果进行评估。评估采用的测试文本有253 3709行,共2837 4490个字符。
?
可运行程序下载
Java开源项目cws_evaluation主页
?
评估结果如下:
?
class="java" name="code">1: Ansj ToAnalysis 精准分词: 分词速度:710.05457 字符/毫秒 行数完美率:58.60302% 行数错误率:41.39698% 总的行数:2533709 完美行数:1484830 错误行数:1048879 字数完美率:50.968987% 字数错误率:49.031013% 总的字数:28374490 完美字数:14462190 错误字数:13912300 2: Ansj NlpAnalysis NLP分词: 分词速度:162.75282 字符/毫秒 行数完美率:58.1515% 行数错误率:41.8485% 总的行数:2533687 完美行数:1473377 错误行数:1060310 字数完美率:49.806484% 字数错误率:50.19352% 总的字数:28374398 完美字数:14132290 错误字数:14242108 3: word分词 双向最大最小匹配算法: 分词速度:148.26799 字符/毫秒 行数完美率:55.3174% 行数错误率:44.6826% 总的行数:2533709 完美行数:1401582 错误行数:1132127 字数完美率:45.835876% 字数错误率:54.164124% 总的字数:28374490 完美字数:13005696 错误字数:15368794 4: Ansj BaseAnalysis 基本分词: 分词速度:748.4303 字符/毫秒 行数完美率:55.3174% 行数错误率:44.6826% 总的行数:2533709 完美行数:1401582 错误行数:1132127 字数完美率:48.177986% 字数错误率:51.822014% 总的字数:28374490 完美字数:13670258 错误字数:14704232 5: word分词 双向最大匹配算法: 分词速度:256.69678 字符/毫秒 行数完美率:52.01075% 行数错误率:47.989254% 总的行数:2533709 完美行数:1317801 错误行数:1215908 字数完美率:42.42689% 字数错误率:57.57311% 总的字数:28374490 完美字数:12038414 错误字数:16336076 6: Ansj IndexAnalysis 面向索引的分词: 分词速度:714.2549 字符/毫秒 行数完美率:50.89444% 行数错误率:49.10556% 总的行数:2533709 完美行数:1289517 错误行数:1244192 字数完美率:42.965115% 字数错误率:57.034885% 总的字数:28374490 完美字数:12191132 错误字数:16183358 7: word分词 双向最小匹配算法: 分词速度:311.40378 字符/毫秒 行数完美率:46.769894% 行数错误率:53.230106% 总的行数:2533709 完美行数:1185013 错误行数:1348696 字数完美率:36.529884% 字数错误率:63.47012% 总的字数:28374490 完美字数:10365168 错误字数:18009322 8: word分词 逆向最大匹配算法: 分词速度:510.55295 字符/毫秒 行数完美率:46.72648% 行数错误率:53.27352% 总的行数:2533709 完美行数:1183913 错误行数:1349796 字数完美率:36.678516% 字数错误率:63.321484% 总的字数:28374490 完美字数:10407342 错误字数:17967148 9: word分词 正向最大匹配算法: 分词速度:587.29333 字符/毫秒 行数完美率:46.66483% 行数错误率:53.33517% 总的行数:2533709 完美行数:1182351 错误行数:1351358 字数完美率:36.73091% 字数错误率:63.269085% 总的字数:28374490 完美字数:10422209 错误字数:17952281 10: word分词 逆向最小匹配算法: 分词速度:933.9551 字符/毫秒 行数完美率:41.780884% 行数错误率:58.219116% 总的行数:2533709 完美行数:1058606 错误行数:1475103 字数完美率:31.682673% 字数错误率:68.31732% 总的字数:28374490 完美字数:8989797 错误字数:19384693 11: MMSeg4j ComplexSeg: 分词速度:1083.1199 字符/毫秒 行数完美率:38.817604% 行数错误率:61.182396% 总的行数:2533688 完美行数:983517 错误行数:1550171 字数完美率:29.604435% 字数错误率:70.39557% 总的字数:28374428 完美字数:8400089 错误字数:19974339 12: MMSeg4j SimpleSeg: 分词速度:1408.0236 字符/毫秒 行数完美率:37.570095% 行数错误率:62.429905% 总的行数:2533688 完美行数:951909 错误行数:1581779 字数完美率:28.455273% 字数错误率:71.54473% 总的字数:28374428 完美字数:8074021 错误字数:20300407 13: IKAnalyzer 智能切分: 分词速度:365.02032 字符/毫秒 行数完美率:37.55943% 行数错误率:62.440567% 总的行数:2533686 完美行数:951638 错误行数:1582048 字数完美率:27.978464% 字数错误率:72.02154% 总的字数:28374416 完美字数:7938726 错误字数:20435690 14: word分词 正向最小匹配算法: 分词速度:1002.278 字符/毫秒 行数完美率:36.853836% 行数错误率:63.146164% 总的行数:2533709 完美行数:933769 错误行数:1599940 字数完美率:26.859812% 字数错误率:73.14019% 总的字数:28374490 完美字数:7621334 错误字数:20753156 15: MMSeg4j MaxWordSeg: 分词速度:1104.2806 字符/毫秒 行数完美率:34.27573% 行数错误率:65.72427% 总的行数:2533688 完美行数:868440 错误行数:1665248 字数完美率:25.20896% 字数错误率:74.79104% 总的字数:28374428 完美字数:7152898 错误字数:21221530 16: IKAnalyzer 细粒度切分: 分词速度:389.615 字符/毫秒 行数完美率:18.872742% 行数错误率:81.12726% 总的行数:2533686 完美行数:478176 错误行数:2055510 字数完美率:10.936535% 字数错误率:89.06347% 总的字数:28374416 完美字数:3103178 错误字数:25271238
?