基於統計的無詞典的高頻詞抽取(三)——子串歸併

由於最近換了工作,需要熟悉新的工作環境,工作內容也比較多,所以一直沒有更新文章,趁着今晚有空,就繼續寫寫這系列的文章。 前面兩篇,我們已經實現了後綴數組的排序,高頻字串的抽取,也初有成效,如下圖: 接下來,我們就繼續對結果進行進一步的精確化,使用子串歸併來實現: 首先,我先舉一個可能不大適合的例子來大概解釋一下什麼叫做子串歸併。假設,某個語料庫中,統計到「你」出現了100次,而「你好」也剛好出現了
相關文章
相關標籤/搜索