自然語言處理|MP最大概率中文分詞

時間 2021-01-13

標籤 NLP 自然語言處理简体版

原文原文鏈接

課程作業，只完成了最基本的算法，還有不足的地方，例如一些多位數的分詞方式等，大家可以適當參考。 1.語言模型說明語言模型爲bigram，保存在一個（n*n）的numpy矩陣LM中，訓練過程：第一次遍歷訓練語料構建詞表，即保存所有出現過的詞第二次遍歷訓練語料構建二維計數表，bigram[i][j] = count(wi-1,wi) 平滑（由於運算量較大，且測試較小所以平滑運算直接在後

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。