(五)N-gram語言模型的數據處理

1、步驟 數據集說明:一段英文 (1)分詞:把原始的英文分詞,只保留詞之間的順序不變,多個句子也是看出總體進行分詞。 (2)統計詞頻:按照n元進行詞頻統計,好比「I love NLP I enjoy it」當n=2時候,能夠劃分爲(【I love】,【love NLP】,【NLP I】…),分別統計【I love】,【love NLP】等出現的次數。(在樸素貝葉斯中只是統計一個詞,這裏是統計n個先
相關文章
相關標籤/搜索