自然語言處理|MP最大概率中文分詞

課程作業,只完成了最基本的算法,還有不足的地方,例如一些多位數的分詞方式等,大家可以適當參考。   1.語言模型說明 語言模型爲bigram,保存在一個(n*n)的numpy矩陣LM中,訓練過程:  第一次遍歷訓練語料構建詞表,即保存所有出現過的詞  第二次遍歷訓練語料構建二維計數表,bigram[i][j] = count(wi-1,wi)  平滑(由於運算量較大,且測試較小所以平滑運算直接在後
相關文章
相關標籤/搜索