樸素貝葉斯算法仍然是流行的挖掘算法之一,該算法是有監督的學習算法,解決的是分類問題,如客戶是否流失、是否值得投資、信用等級評定等多分類問題。該算法的優勢在於簡單易懂、學習效率高、在某些領域的分類問題中可以與決策樹、神經網絡相媲美。但因爲該算法以自變量之間的獨立(條件特徵獨立)性和連續變量的正態性假設爲前提,就會致使算法精度在某種程度上受影響
樸素貝葉斯的實現流程
1.理解先驗機率和後驗機率的區別?
a.先驗機率:是指根據以往經驗和分析獲得的機率。簡單來講,就是經驗之談,打趣來講——不聽老人言,吃虧在眼前。
b.後驗機率:是指經過調查或其它方式獲取新的附加信息,去修正發生的機率。也就是參考的信息量更多、更全。
2.它們之間的轉換,推導出貝葉斯公式
3.機率的數學公式形式爲
注:公式中 P(AB) 爲事件 AB 的聯合機率,P(A|B) 爲條件機率,表示在 B 條件下 A 的機率,P(B) 爲事件 B 的機率。
推導過程:
4.貝葉斯公式
擴展:
5.如何理解樸素這兩個字
樸素貝葉斯基於一個簡單的假定:給定特徵向量之間相互條件獨立。
考慮到 P(B1B2...Bn) 對於全部類別都是同樣的。而對於樸素貝葉斯的分類場景並須要準確獲得某種類別的可能性,更多重點在於比較分類結果偏向那種類別的可能性更大。
6.例子
某個醫院早上收了六個門診病人,以下表截圖
如今又來了第七個病人,是一個打噴嚏的建築工人。請問他患上感冒的機率有多大?
沒有感冒人羣特徵知足:打噴嚏,建築工人
套用樸素貝葉斯算法
假定"打噴嚏"和"建築工人"這兩個特徵是獨立的,所以,上面的等式就變成了
所以,這個打噴嚏的建築工人,有66%的機率是得了感冒。同理,能夠計算這個病人患上過敏或腦震盪的機率。這就是貝葉斯分類器的基本方法:在統計資料的基礎上,依據某些特徵,計算各個類別的機率,從而實現分類。
算法