基於n-gram模型的中文分詞

一、前言   n-gram模型,稱爲N元模型,可用於定義字符串中的距離,也可用於中文的分詞;該模型假設第n個詞的出現只與前面n-1個詞相關,與其他詞都不相關,整個語句的概率就是各個詞出現概率的乘積;而這些概率,利用語料,統計同時出現相關詞的概率次數計算得到;常用的模型是Bi-gram和Tri-gram模型。   n-gram的應用:模糊匹配 二、算法推論   假設一個字符串s由m個詞組成,因此我們
相關文章
相關標籤/搜索