基於詞典的前綴掃描中文分詞

時間 2021-07-14

原文原文鏈接

說明中文分詞是很多文本分析的基礎。最近一個項目，輸入一個地址，需要識別出地址中包含的省市區街道等單詞。與以往的分詞技術不同。jieba/hanlp等常用的分詞技術，除了基於詞典，還有基於隱馬爾科夫/條件隨機場等機器學習技術對未登錄詞的分詞，有一定的概率性。而我們所使用的地址識別，要求必須基於詞庫進行精確的分詞。這些比較高級的分詞技術反而成爲了不必要的風險。另外還有一個原因是，流行的分詞技術對多