基於統計的無詞典的高頻詞抽取(三)——子串歸併

時間 2021-07-13

原文原文鏈接

由於最近換了工作，需要熟悉新的工作環境，工作內容也比較多，所以一直沒有更新文章，趁着今晚有空，就繼續寫寫這系列的文章。前面兩篇，我們已經實現了後綴數組的排序，高頻字串的抽取，也初有成效，如下圖：接下來，我們就繼續對結果進行進一步的精確化，使用子串歸併來實現：首先，我先舉一個可能不大適合的例子來大概解釋一下什麼叫做子串歸併。假設，某個語料庫中，統計到「你」出現了100次，而「你好」也剛好出現了