HanLP二元核心詞典解析

本文分析:HanLP版本1.5.3中二元核心詞典的存儲與查找。當詞典文件沒有被緩存時,會從文本文件CoreNatureDictionary.ngram.txt中解析出來存儲到TreeMap中,然後構造start和pair數組,並基於這兩個數組實現詞共現頻率的二分查找。當已經有緩存bin文件時,那直接讀取構建start和pair數組,速度超快。 源碼實現 二元核心詞典的加載 二元核心詞典在文件:Co
相關文章
相關標籤/搜索