NLP學習(五)-中文語料處理

1.中文分詞三大類 基於字典,詞庫進行匹配 正向最大匹配 逆向最大匹配 雙向最大匹配 設立切分標誌法 最佳匹配 基於詞頻度統計 N-gram模型 隱馬爾科夫模型 基於字標註的中文分詞方法 基於知識理解 2.結巴分詞 # # -*- coding: utf-8 -*- # # # from __future__ import unicode_literals # import sys # sys.p
相關文章
相關標籤/搜索