自然語言處理基礎(4)--數據平滑技術

        n元語法模型中,在統計結果中出現了零概率事件反映語言的規律性,即這種現象本來就不該出現,但更多的時候是由於語言模型的訓練文本T的規模以及其分佈存在着一定的侷限性和片面性。這就是所謂的「數據稀疏」問題。         所謂「數據平滑技術」,是指爲了產生更準確的概率來調整最大似然估計的技術,基本思想就是提高低概率(如零概率),降低低概率,儘量使概率分佈趨於平均。      1.Lap
相關文章
相關標籤/搜索