(五)N-gram語言模型的數據處理

時間 2019-12-07

原文原文鏈接

1、步驟數據集說明：一段英文（1）分詞：把原始的英文分詞，只保留詞之間的順序不變，多個句子也是看出總體進行分詞。（2）統計詞頻：按照n元進行詞頻統計，好比「I love NLP I enjoy it」當n=2時候，能夠劃分爲（【I love】，【love NLP】，【NLP I】…），分別統計【I love】，【love NLP】等出現的次數。（在樸素貝葉斯中只是統計一個詞，這裏是統計n個先

>>阅读原文<<