KL散度的兩種形式以下:函數
對於q被高估或者低估的緣由爲:spa
首先看上式KL(p||q)的表達式,目標是但願KL(p||q)的值儘量的小,可是在p(x)的值很大的狀況下,爲了保證KL(p||q)的值儘量小,因此q(x)的值須要接近p(x),這樣才能保證整個log(p(x)/q(x))總體變小。直觀上來講,就是在p(x)的機率密度大的地方,它應該儘可能與q(x)的機率密度保持一致,而在p(x)機率密度小的地方,p(x)和q(x)的差異對KL值的影響就很小了。因此會出現q(x)被高估的狀況,KL(q||p)同理。blog
因此在變分推導的過程當中,每每使用KL(q||p)的值做爲推導的目標函數,實際中會出現鎖定在局部極值點的狀況。ip