文本挖掘的分詞原理

1. 分詞的基本原理     現代分詞都是基於統計的分詞,而統計的樣本內容來自於一些標準的語料庫。假如有一個句子:「小明來到荔灣區」,我們期望語料庫統計後分詞的結果是:"小明/來到/荔灣/區",而不是「小明/來到/荔/灣區」。那麼如何做到這一點呢?     從統計的角度,我們期望"小明/來到/荔灣/區"這個分詞後句子出現的概率要比「小明/來到/荔/灣區」大。如果用數學的語言來說說,如果有一個句子S
相關文章
相關標籤/搜索