分詞詞典數據結構的探討

基於TRIE索引樹的結構在分詞詞典數據結構中普遍採用,即便在改進的數據結構中其思想也都保持不變,本文以TRIE索引樹來對分詞詞典進行一些分析。 數據結構首先包含一個首字的數組,每個數組的offset即某個漢字的編碼轉化爲short整形的值(一個漢字2字節)。gb2312編碼表可以參見:http://linux.chinaunix.net/techdoc/desktop/2009/03/12/110
相關文章
相關標籤/搜索