一、準備:算法
(1)先驗機率:根據以往經驗和分析獲得的機率,也就是一般的機率,在全機率公式中表現是「由因求果」的果機器學習
(2)後驗機率:指在獲得「結果」的信息後從新修正的機率,一般爲條件機率(但條件機率不全是後驗機率),在貝葉斯公式中表現爲「執果求因」的因函數
例如:加工一批零件,甲加工60%,乙加工40%,甲有0.1的機率加工出次品,乙有0.15的機率加工出次品,求一個零件是否是次品的機率即爲先驗機率,已經得知一個零件是次品,求此零件是甲或乙加工的機率是後驗機率學習
(3)全機率公式:設E爲隨機試驗,B1,B2,....Bn爲E的互不相容的隨機事件,且P(Bi)>0(i=1,2....n), B1 U B2 U....U Bn = S,若A是E的事件,則有spa
P(A) = P(B1)P(A|B1)+P(B2)P(A|B2)+.....+P(Bn)P(A|Bn)3d
(4)貝葉斯公式:設E爲隨機試驗,B1,B2,....Bn爲E的互不相容的隨機事件,且P(Bi)>0(i=1,2....n), B1 U B2 U....U Bn = S,E的事件A知足P(A)>0,則有blog
P(Bi|A) = P(Bi)P(A|Bi)/(P(B1)P(A|B1)+P(B2)P(A|B2)+.....+P(Bn)P(A|Bn))事件
(5)條件機率公式:P(A|B) = P(AB)/P(B)方法
(6)極大似然估計:極大似然估計在機器學習中想當於經驗風險最小化,(離散分佈)通常流程:肯定似然函數(樣本的聯合機率分佈),這個函數是關於所要估計的參數的函數,而後對其取對數,而後求導,在令導數等於0的狀況下,求得參數的值,此值即是參數的極大似然估計im
注:經驗風險:在度量一個模型的好壞,引入了損失函數,常見的損失函數有:0-1損失函數、平方損失函數、絕對損失函數、對數損失函數等,同時風險函數(指望風險)是對損失函數的指望,指望風險是關於聯合分佈的理論指望,可是理論的聯合分佈是沒法求得的,只能利用樣原本估計指望,所以引入經驗風險,經驗風險就是樣本的平均損失,根據大數定理在樣本趨於無窮大的時候,這個時候經驗風險會無限趨近與指望風險
二、樸素貝葉斯算法
(1)思路:樸素貝葉斯算法的樸素在於對與特徵之間看做相互獨立的意思例如:輸入向量(X1, X2,....,Xn)的各個元素是相互獨立的,所以計算機率P(X1=x1,X2=x2,....Xn=xn)=P(X1=x1)P(X2=x2)......P(Xn=xn),其次基於貝葉斯定理,對於給定的訓練數據集,首先基於特徵條件獨立假設學習聯合機率分佈,而後基於此模型,對於給定的輸入向量,利用貝葉斯公式求出後驗機率最大的輸出分類標籤
(2)詳細:以判斷輸入向量x的類別的計算過程來具體說下樸素貝葉斯計算過程
<1>要計算輸入向量x的類別,便是求在x的條件下的y的機率,當y取某值最大機率,則此值便爲x的分類,則機率爲P(Y=ck|X=x)
<2>利用條件機率公式推導貝葉斯公式(此步非必要,本人在記貝葉斯公式時習慣這麼記)
由條件機率公式得P(Y=ck|X=x) = P(Y=ck,X=x)/P(X=x) = P(X=x | Y=ck)P(Y=ck)/P(X=x)
由全機率公式可得(替換P(X=x)):
<3>因爲樸素貝葉斯的「樸素」,特徵向量之間是相互獨立的,所以可得以下公式:
<4>將<3>中的公式帶入<2>中的貝葉斯公式可得:
<5>看上式的分母,對於給定的輸入向量X,以及Y的全部取值,所有都用了,詳細的講即爲不管是計算在向量x條件下的任意一個Y值 ck,k=1,2....K,向量和c1.....ck都用到了,所以影響P(Y=ck|X=x)大小隻有分子起做用,所以可得
注:argmax指的是取機率最大的ck
<6>其實到<5>樸素貝葉斯的整個過程已經完畢,可是其中的P(Y=ck)和P(X(j)=x(j)|Y=ck)的求解方法並無說,兩者得求解是根據極大似 然估計法來得其機率,即得以下公式:
其中的I(..)是指示函數,固然這些機率在實際中能夠很塊求得,能夠看以下得一個題,看完以後就知道這兩個機率是怎麼求了,公式推導 過程不贅述(具體過程我也不太清楚,不過看做相似二項分佈得極大似然求值)
三、題-----一看就把上邊得串起來了(直接貼圖)