上一篇文章極大似然估計的應用已經說明了,後驗機率的求解難點在於類條件機率的估計很是難。html
p(x | w)中的x每每包含多個相關因素(是一個多種因素構成的向量),即它可能有多個須要考慮的屬性值:x=(x1,x2,x3,...,xn)。post
任一xi都表明了全部相關因素中的其中一個。在癌症輔助判斷中,它多是患者的年齡,也多是患者的性別,也多是患者是否吸菸等等。所以當x是一個向量時,咱們若要計算P(x|c),實際上就是要計算P(x1,x2,x3,...,xn∣c) 。這個理論上也是能夠利用咱們的數據集D來進行估計的,可是現實狀況是,n的值每每很是大(屬性很是多),而咱們的數據集每每不能保證咱們的樣本包含了屬性值的全部可能組合(假設每一個屬性都是二值屬性,那麼就有2^n種屬性組合)。那麼不少p(x|c)咱們估計獲得的值就是0。然而這些樣本極可能僅僅是咱們的數據集中沒包含到,即「未被觀測到」,但不表明它們現實中「出現機率爲0」。因而這就給咱們計算出真實合理的目標p(c|x)值形成了障礙。url
因而,樸素貝葉斯的「樸素」就發揮做用了。咱們爲了可以得到合理的p(x|c)的值,採用了「很不科學」的屬性條件獨立性假設。spa
這個假設用公式表達式這樣的:htm
屬性條件獨立性假設其實是忽略掉了某些屬性之間可能存在的關聯,假設屬性的取值可能性都是獨立的。可是,因爲樸素貝葉斯分類器在這種naive的假設下仍能在實際問題中取得比較好的效果,所以這個假設的不合理性也就能夠暫時放下不談了。blog