h 是基於樸素貝葉斯算法訓練出來的 hypothesis(假設),它的值就是貝葉斯分類器對於給定的 x 因素下,最可能出現的狀況c。y 是 c 的取值集合。這裏去掉了 P(x)是由於它和 c 的機率沒有關係,不影響取最大的 c。 樸素貝葉斯直觀上理解,就是和樣本屬性以及樣本類別的出現頻率有關,利用已有的樣本屬性和樣本類別計算出的各個機率,來代入新的樣本的算式中算出屬於各種別的機率,取出機率最大的作爲新樣本的類別。 因此爲了計算準確,要知足以下幾個條件: • 各種別下的訓練樣本數量儘量均衡 • 各訓練樣本的屬性取值要覆蓋全部可能的屬性的值 • 引入拉普拉斯修正進行平滑處理。