自然語言處理：文本分詞的原理

時間 2021-01-12

原文原文鏈接

一、中文分詞的基本原理因爲中文分詞，詞語之間往往都是連貫的，所以進行分詞的時候往往要採取概率模型。現代分詞都是基於統計的分詞，而統計的樣本內容來自於一些標準的語料庫。假如有一個句子：「小明來到荔灣區」，我們期望語料庫統計後分詞的結果是：「小明/來到/荔灣/區」，而不是「小明/來到/荔/灣區」。那麼如何做到這一點呢？　　從統計的角度，我們期望"小明/來到/荔灣/區"這個分詞後句子出現的概率要