史上最全中文分詞工具整理

一.中文分詞工具

二.準確率評測:性能

THULAC:與表明性分詞軟件的性能對比測試

咱們選擇LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等國內具表明性的分詞軟件與THULAC作性能比較。咱們選擇Windows做爲測試環境,根據第二屆國際漢語分詞測評(The SecondInternational Chinese Word Segmentation Bakeoff)發佈的國際中文分詞測評標準,對不一樣軟件進行了速度和準確率測試。大數據

 

在第二屆國際漢語分詞測評中,共有四家單位提供的測試語料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在評測提供的資源icwb2-data中包含了來自這四家單位的訓練集(training)、測試集(testing), 以及根據各自分詞標準而提供的相應測試集的標準答案(icwb2-data/scripts/gold).在icwb2-data/scripts目錄下含有對分詞進行自動評分的perl腳本score。blog

咱們在統一測試環境下,對上述流行分詞軟件和THULAC進行了測試,使用的模型爲各分詞軟件自帶模型。THULAC使用的是隨軟件提供的簡單模型Model_1。評測環境爲 Intel Core i5 2.4 GHz 評測結果以下:ip

除了以上在標準測試集上的評測,咱們也對各個分詞工具在大數據上的速度進行了評測,結果以下:資源

CNKI_journal.txt(51 MB)it

分詞數據準備及評測由BosonNLP完成:11 款開放中文分詞引擎大比拼(2015年發佈)io

分詞的客觀量化測試離不開標註數據,即人工所準備的分詞「標準答案」。在數據源方面,咱們將測試分爲: 1.新聞數據:140篇,共30517詞語; 2.微博數據:200篇,共12962詞語; 3.汽車論壇數據(汽車之家)100篇:共27452詞語; 4.餐飲點評數據(大衆點評):100條,共8295詞語。微博

 

準確度計算規則:

將全部標點符號去除,不作比較

參與測試的部分系統進行了實體識別,可能形成詞語認定的不統一。咱們將對應位置替換成了人工標註的結果,獲得準確率估算的上界。

通過以上處理,用SIGHAN 分詞評分腳本比較獲得最終的準確率,召回率和F1值。

以上全部數據採用北大現代漢語基本加工規範對全部數據進行分詞做爲標準。具體數據下載地址請參見附錄。經過這四類數據綜合對比不一樣分詞系統的分詞準確度。

相關文章
相關標籤/搜索