基於詞典的前綴掃描中文分詞

說明 中文分詞是很多文本分析的基礎。最近一個項目,輸入一個地址,需要識別出地址中包含的省市區街道等單詞。與以往的分詞技術不同。jieba/hanlp等常用的分詞技術,除了基於詞典,還有基於隱馬爾科夫/條件隨機場等機器學習技術對未登錄詞的分詞,有一定的概率性。而我們所使用的地址識別,要求必須基於詞庫進行精確的分詞。這些比較高級的分詞技術反而成爲了不必要的風險。 另外還有一個原因是,流行的分詞技術對多
相關文章
相關標籤/搜索