自制基於HMM的中文分詞器

不像英文那樣單詞之間有空格做爲自然的分界線, 中文詞語之間沒有明顯界限。必須採用一些方法將中文語句劃分爲單詞序列才能進一步處理, 這一劃分步驟便是所謂的中文分詞。python 主流中文分詞方法包括基於規則的分詞,基於大規模語料庫的統計學習方法以及在實踐中應用最多的規則與統計綜合方法。算法 隱馬爾科夫模型(HMM)是中文分詞中一類經常使用的統計模型, 本文將使用該模型構造分詞器。關於HMM模型的介紹
相關文章
相關標籤/搜索