中文分詞

最常見的分詞方法是基於詞典匹配 – 最大長度查找(前向查找,後向查找) 後向查找準確 數據結構 – 爲了提高查找效率,不要逐個匹配詞典中的詞 – 查找詞典所佔的時間可能佔總的分詞時間的1/3左右,爲了保證切分速度,需要選擇一個好的查找詞典方法 – Trie樹常用於加速分詞查找詞典問題 說明反向比較好,正向的話有歧義 貝葉斯公式: 大學生 大學 大腦 大型活動 p(w2=學|w1=大)=p(大,學)
相關文章
相關標籤/搜索