中文分詞工具之基於字標註法的分詞


基於字標註法的分詞python

中文分詞字標註一般有2-tag,4-tag6-tag這幾種方法,其中4-tag方法最爲經常使用。標註集是依據漢字(其中也有少許的非漢字字符)在漢語詞中的位置設計的。ide

1. 2-tagspa

2-tag是一種最簡單的標註方法,標註集合爲{B,I},其將詞首標記設計爲B,而將詞的其餘位置標記設計爲I。例如詞語「重慶」的標註結果是「重/B /I」,而「大學生」的標註結果爲「大/B /I /I設計

對於如下句子 博客

邁向 充滿 但願 世紀 —— 一九九八年 新年 講話 it

使用2-tagBI)的標註結果爲 class

/B/I /B滿/I /B/I /B /B /B/I /B/I /B/I/I/I/I /B/I /B/I方法

 

2.4-tagim

 

4-tag標註集合爲{S,B,M,E}S表示單字爲詞,B表示詞的首字,M表示詞的中間字,E表示詞的結尾字。對於如下句子 img

邁向 充滿 但願 世紀 —— 一九九八年 新年 講話

使用4-tagS,B,M,E)的標註結果爲

/B/E /B滿/E /B/E /S /S /B/E /B/E /B/M/M/M/E /B/E /B/E

參考我愛天然語言處理博客, python實現方法爲

圖1.png


本文使用 pku語料庫,其原始格式爲

 

圖2.png

 

標註後的結果爲

 圖3.png

 

3.6-tag

6-tag標註集合爲{S,B,M1,M2,M,E}S表示單字爲詞,B表示詞的首字,M1/M2/M表示詞的中間字,E表示詞的結尾字。例如「大學生」能夠標註爲「大/B /M /E」 。

相關文章
相關標籤/搜索