中文分詞工具之基於字標註法的分詞

基於字標註法的分詞python

中文分詞字標註一般有2-tag,4-tag和6-tag這幾種方法,其中4-tag方法最爲經常使用。標註集是依據漢字(其中也有少許的非漢字字符)在漢語詞中的位置設計的。spa

1. 2-tag法 設計

2-tag是一種最簡單的標註方法,標註集合爲{B,I},其將詞首標記設計爲B,而將詞的其餘位置標記設計爲I。例如詞語「重慶」的標註結果是「重/B 慶/I」,而「大學生」的標註結果爲「大/B 學/I 生/I」blog

對於如下句子博客

邁向 充滿 但願 的 新 世紀 —— 一九九八年 新年 講話方法

使用2-tag(B,I)的標註結果爲im

邁/B向/I 充/B滿/I 希/B望/I 的/B 新/B 世/B紀/I —/B—/I 一/B九/I九/I八/I年/I 新/B年/I 講/B話/Iimg

 

2.4-tag法語言

 

4-tag標註集合爲{S,B,M,E},S表示單字爲詞,B表示詞的首字,M表示詞的中間字,E表示詞的結尾字。對於如下句子集合

邁向 充滿 但願 的 新 世紀 —— 一九九八年 新年 講話

使用4-tag(S,B,M,E)的標註結果爲

邁/B向/E 充/B滿/E 希/B望/E 的/S 新/S 世/B紀/E —/B—/E 一/B九/M九/M八/M年/E 新/B年/E 講/B話/E

參考我愛天然語言處理博客, python實現方法爲

本文使用 pku語料庫,其原始格式爲

 

標註後的結果爲

 

3.6-tag法

6-tag標註集合爲{S,B,M1,M2,M,E},S表示單字爲詞,B表示詞的首字,M1/M2/M表示詞的中間字,E表示詞的結尾字。例如「大學生」能夠標註爲「大/B 學/M 生/E」 。

相關文章
相關標籤/搜索