GitChat 宿永傑 中文自然語言處理入門 第02課:簡單好用的中文分詞利器 jieba 和 HanLP 閱讀筆記

jieba 的分詞算法 主要有以下三種: 基於統計詞典,構造前綴詞典,基於前綴詞典對句子進行切分,得到所有切分可能,根據切分位置,構造一個有向無環圖(DAG); 基於DAG圖,採用動態規劃計算最大概率路徑(最有可能的分詞結果),根據最大概率路徑分詞; 對於新詞(詞庫中沒有的詞),採用有漢字成詞能力的 HMM 模型進行切分。   # -*- coding: utf-8 -*- import sys
相關文章
相關標籤/搜索