基於字標註法的分詞python
中文分詞字標註一般有2-tag,4-tag和6-tag這幾種方法,其中4-tag方法最爲經常使用。標註集是依據漢字(其中也有少許的非漢字字符)在漢語詞中的位置設計的。spa
1. 2-tag法 設計
2-tag是一種最簡單的標註方法,標註集合爲{B,I},其將詞首標記設計爲B,而將詞的其餘位置標記設計爲I。例如詞語「重慶」的標註結果是「重/B 慶/I」,而「大學生」的標註結果爲「大/B 學/I 生/I」blog
對於如下句子博客
邁向 充滿 但願 的 新 世紀 —— 一九九八年 新年 講話方法
使用2-tag(B,I)的標註結果爲im
邁/B向/I 充/B滿/I 希/B望/I 的/B 新/B 世/B紀/I —/B—/I 一/B九/I九/I八/I年/I 新/B年/I 講/B話/Iimg
2.4-tag法語言
4-tag標註集合爲{S,B,M,E},S表示單字爲詞,B表示詞的首字,M表示詞的中間字,E表示詞的結尾字。對於如下句子集合
邁向 充滿 但願 的 新 世紀 —— 一九九八年 新年 講話
使用4-tag(S,B,M,E)的標註結果爲
邁/B向/E 充/B滿/E 希/B望/E 的/S 新/S 世/B紀/E —/B—/E 一/B九/M九/M八/M年/E 新/B年/E 講/B話/E
參考我愛天然語言處理博客, python實現方法爲
本文使用 pku語料庫,其原始格式爲
標註後的結果爲
3.6-tag法
6-tag標註集合爲{S,B,M1,M2,M,E},S表示單字爲詞,B表示詞的首字,M1/M2/M表示詞的中間字,E表示詞的結尾字。例如「大學生」能夠標註爲「大/B 學/M 生/E」 。