交叉熵基本概念

語言模型的性能一般用交叉熵和複雜度(perplexity)來衡量。交叉熵的意義是用該模型對文本識別的難度,或者從壓縮的角度來看,每一個詞平均要用幾個位來編碼。複雜度的意義是用該模型表示這一文本平均的分支數,其倒數可視爲每一個詞的平均機率。平滑是指對沒觀察到的N元組合賦予一個機率值,以保證詞序列總能經過語言模型獲得一個機率值。一般使用的平滑技術有圖靈估計、刪除插值平滑、Katz平滑和Kneser-N
相關文章
相關標籤/搜索