[NLP]發現新詞

思路: 1、對新文本進行對其斷句、分詞、去除停用詞, 2、計算文檔的二階共現、三階共現、四階共現頻率  3、發現兩個字符串合併的新詞:針對統計的二階共現頻率,計算詞語的 互信息: 左右熵:基於對應三階共現結果 將結果進行加權求和,最後排序,根據經驗閾值確定新詞,然後使用詞典過濾後加入詞典 4、發現三個字符串合併的新詞,與3 同理,統計三階共現概率 互信息計算需要 對n-gram 的互信息求和,如
相關文章
相關標籤/搜索