零機率問題,就是在計算實例的機率時,若是某個量x,在觀察樣本庫(訓練集)中沒有出現過,會致使整個實例的機率結果是0。在文本分類的問題中,當一個詞語沒有在訓練樣本中出現,該詞語調機率爲0,使用連乘計算文本出現機率時也爲0。這是不合理的,不能由於一個事件沒有觀察到就武斷的認爲該事件的機率是0。事件
爲了解決零機率的問題,法國數學家拉普拉斯最先提出用加1的方法估計沒有出現過的現象的機率,因此加法平滑也叫作拉普拉斯平滑。
假定訓練樣本很大時,每一個份量x的計數加1形成的估計機率變化能夠忽略不計,但能夠方便有效的避免零機率問題。數學
假設在文本分類中,有3個類,C一、C二、C3,在指定的訓練樣本中,某個詞語K1,在各個類中觀測計數分別爲0,990,10,K1的機率爲0,0.99,0.01,對這三個量使用拉普拉斯平滑的計算方法以下:
1/1003 = 0.001,991/1003=0.988,11/1003=0.011lambda
在實際的使用中也常用加 lambda(1≥lambda≥0)來代替簡單加1。若是對N個計數都加上lambda,這時分母也要記得加上N*lambda。方法