基於n-gram模型的中文分詞

時間 2021-07-14

原文原文鏈接

一、前言 n-gram模型，稱爲N元模型，可用於定義字符串中的距離，也可用於中文的分詞；該模型假設第n個詞的出現只與前面n-1個詞相關，與其他詞都不相關，整個語句的概率就是各個詞出現概率的乘積；而這些概率，利用語料，統計同時出現相關詞的概率次數計算得到；常用的模型是Bi-gram和Tri-gram模型。 n-gram的應用：模糊匹配二、算法推論假設一個字符串s由m個詞組成，因此我們

>>阅读原文<<