中文分詞算法 之 詞典機制性能優化與測試

在之前的兩篇博文中文分詞算法 之 基於詞典的正向最大匹配算法和中文分詞算法 之 基於詞典的逆向最大匹配算法中,我們對分詞實現和詞典實現都做了優化,本文對詞典實現做進一步優化,並和之前的多個實現做一個對比,使用的詞典下載地址,使用的測試文本下載地址。   優化TrieV3的關鍵在於把虛擬根節點(/)的子節點(詞表首字母)提升爲多個相互獨立的根節點,並對這些根節點建立索引。優化的依據是根節點(詞表首字
相關文章
相關標籤/搜索