GitChat 宿永傑中文自然語言處理入門第02課：簡單好用的中文分詞利器 jieba 和 HanLP 閱讀筆記

時間 2021-01-12

原文原文鏈接

jieba 的分詞算法主要有以下三種：基於統計詞典，構造前綴詞典，基於前綴詞典對句子進行切分，得到所有切分可能，根據切分位置，構造一個有向無環圖（DAG）；基於DAG圖，採用動態規劃計算最大概率路徑（最有可能的分詞結果），根據最大概率路徑分詞；對於新詞(詞庫中沒有的詞），採用有漢字成詞能力的 HMM 模型進行切分。 # -*- coding: utf-8 -*- import sys

>>阅读原文<<