HanLP二元核心詞典解析

時間 2021-01-12

原文原文鏈接

本文分析：HanLP版本1.5.3中二元核心詞典的存儲與查找。當詞典文件沒有被緩存時，會從文本文件CoreNatureDictionary.ngram.txt中解析出來存儲到TreeMap中，然後構造start和pair數組，並基於這兩個數組實現詞共現頻率的二分查找。當已經有緩存bin文件時，那直接讀取構建start和pair數組，速度超快。源碼實現二元核心詞典的加載二元核心詞典在文件：Co

>>阅读原文<<