A Neural Probabilistic Language Model ------閱讀筆記

傳統的統計語言模型有一些缺點: 1.由於維度災難(特別是離散變量),在高維下,數據的稀缺性導致統計語言模型存在很多爲0的條件概率,傳統的統計語言模型也花費大量的精力來處理這個,包括平滑,插值,回退等方法 2.語言模型的參數個數隨着階數呈指數增長,所以一般這個模型的階數不會很高,這樣n-gram無法建立長遠的關係 3.n-gram無法建模出多個相似詞的關係,比如在訓練集中有: the cat is
相關文章
相關標籤/搜索