數學之美- 古德-圖靈估計

一個偶然的機會讀了吳軍老師的《數學之美》,受益不淺,別於之後的溫習就打算寫下來優化

此估計是爲訓練統計語言模型而提出的 ,其原理就是對於沒有看見的事件,咱們不能認爲它的發生機率就是零,所以咱們從機率的總量(Probability mass)中,分配一個很小的比例給予這些沒有看見的事件,這樣一來,看見的那些事件的機率總和就要小於1,所以,須要將全部看見的事件機率小一點。至於小多少,要根據「越是不可信的統計折扣越多」的方法進行。spa

以統計詞典的每一個詞的機率爲例,來講明古德-圖靈估計公式。事件

假設在語料庫中出現r次的詞有Nr個,特別的未出現的詞數爲N0,預料庫的大小爲N。出現r次的詞在整個語料庫中的相對頻度則是r/N,若是不作任何優化處理,就是這個相對的品讀做爲這些詞的機率估計。ip

如今假定當r比較小時,它的統計可能不可靠,所以出現r次的那些詞在計算它們機率時要使用一個更小一點的次數,是dr,古德-圖靈估計按照下面的公式計算dr。dr=(r+1)*Nr+1/Nr  顯然∑dr*Nr=N,通常來講,出現一次的詞數量比出現兩次的多,出現兩次的比出現三次的多,這種規律稱爲Zipf定律。數學

據上對於二元組(wi-1,wi)的機率估計P(wi|wi-1)也能夠作一樣的處理。it

二元模型機率的公式以下:原理

                          f(wi|wi-1)  if #(wi|wi-1)>=T方法

P(wi|wi-1)= fgt(wi|wi-1)  if 0<#(wi|wi-1)<T
統計

                    Qwi-1)*f(wi)  otherwise語言

注意:T爲某一閥值,fgt()表示通過古德-圖靈估計後的相對頻度,而Q(wi-1)=(1-∑p(wi|wi-1))/∑f(wi

相關文章
相關標籤/搜索