n-gram模型中的平滑方法

當使用n-gram模型對測試語料中的句子進行評估時,如果句子中包含在訓練集中未出現的n元語法,則計算出來句子出現的概率爲0。例如上一篇博客語言模型和n元語法中的例子,此時用該模型來計算下面句子的概率: 因此,必須分配給所有可能出現的字符串一個非零的概率值來避免這種錯誤的發生。 平滑技術(smoothing)就是用來解決此類問題,基本思想是「劫富濟貧",即提高低概率,降低高概率。常見的有加1法(ad
相關文章
相關標籤/搜索