貝葉斯分類器

貝葉斯決策論:是機率框架下實施決策的基本方法。對分類任務來講,在全部相關機率都已知的理想情形下,貝葉斯決策論考慮如何基於這些機率誤判損失來選擇最優的類別標記。算法

 

1. 貝葉斯優化目標:

本x上的「條件風險」爲:網絡

咱們的任務是尋找一個斷定準則h:X——Y以最小化整體風險:框架

顯然,對每一個樣本x,若h能最小化條件風險,則整體風險R(h)也將被最小化。--------產生了貝葉斯斷定準則:爲最小化整體風險,只需在每一個樣本上選擇那個能使條件風險R(c|x)最小的類別標記,即機器學習

此時,h*稱爲貝葉斯最優分類器,與之對應的整體風險R(h*)稱貝葉斯風險。1 - R(h*)反映了分類器所能達到獲得最好性能,即經過機器學習所能產生的模型精度的理論上限。函數

 

  簡而言之:最小化分類錯誤率。性能

 

不難看出,欲使用貝葉斯斷定準則來最小化決策風險,首先要得到後驗機率P(c|x)。然而,在現實任務中這一般難以直接得到。從這個角度來看,機器學習所要實現的是基於有限的訓練樣本集儘量準確地估計出這個後驗機率。大致說來,主要有兩種策略:學習

  • 判別式模型:給定x,可用過直接建模該後驗機率來預測c,這樣獲得的是「判別式模型」;-----表明:決策樹、BP神經網絡、支持向量機等。
  • 生成式模型:先對聯合機率分佈P(x,c)建模,而後再由此得到P(c|x),這樣獲得的是「生成式模型」。----表明:貝葉斯分類。

重點講解一下生成式模型,必然考慮優化

其中, P(c):是類「先驗」機率;(表達了樣本空間中各種樣本所佔的比例,根據大樹定律,當訓練集包含充足的獨立用分佈樣本時,它能夠經過各種樣本出現的頻率來進行估計。)spa

   P(x|c):是樣本x相對於類標記c的類條件機率,或稱爲「似然」;3d

   P(x):是用於歸一化的「證據」因子。對給定樣本x,證據因子P(x)與類標記無關,

所以估計P(c|x)的問題就轉化爲如何給予訓練數據來估計先驗P(c)和似然P(x|c)

 

如今的難點就變成了如何獲得P(x|c),因爲它涉及關於x全部屬性的聯合機率,直接根據樣本出現的頻率來估計將會遇到嚴重的困難。。。。。

通常估計類條件機率的一種經常使用策略是先假定其具備某種肯定的機率分佈形式,再基於訓練樣本對機率分佈的參數進行估計。事實上,機率模型的訓練過程就是參數估計過程。

 

有兩種解決學派:

  •   頻率主義學派:認爲參數雖然未知,但確實客觀存在的固定值,所以,能夠用過優化似然函數等準則來肯定參數值;
  •        貝葉斯學派:認爲參數時未觀察到隨機變量,其自己也可有分佈,所以,可假定參數服從一個先驗分佈,而後基於觀測到的數據來計算參數的後驗分佈。

 

本節主要介紹一個頻率學派的極大似然估計,這是根據數據採樣來估計機率分佈參數的經典方法。

 

 此時參數θc的極大似然估計

須要注意的是:這種參數化的方法雖能使類條件機率估計變得相對簡單,可是估計結果的準確性嚴重依賴於所假設的機率分佈形式是否古河潛在的真實數據分佈。在現實生活中,欲作出能較好地接近潛在真實分佈的假設,每每需在必定程度上利用關於應用任務自己的經驗知識,不然若僅憑「猜想」來假設機率分佈形式,極可能產生誤導性的結果。

 

2. 樸素貝葉斯分類器:

從上面可知,估計後驗機率的主要困難在於:類條件機率是全部屬性上的聯合機率,難以從有限的訓練樣本直接估計而得。所以,爲了不這個障礙,樸素貝葉斯分類器採用了「屬性條件獨立性假設」:對已知類別,假設全部屬性相互獨立,換言之,假設每一個屬性獨立地對分類結果發生影響。

 

假設成立的話,

其中d爲屬性數目,xi爲x在第i個屬性上的取值。因爲對全部類別來講P(x)相同,所以上式的貝葉斯斷定準則有:

這就是樸素貝葉斯分類器的表達式。

 

注意:爲了不其餘屬性攜帶的信息被訓練集中未出現的屬性值「抹去」,在估計機率值時一般要進行「平滑」,經常使用「拉普拉斯修正」。顯然,拉普拉斯修正避免了因訓練集樣本不充分而致使機率估值爲零的問題,而且在訓練集變大時,修正過程所引入的先驗的影響也會逐漸變得可忽略,使得估計漸趨向於實際機率值。

 

 

補充:

因爲樸素貝葉斯分類器採用了屬性條件獨立性假設,但在現實任務中這個假設每每很難成立,因而,人們嘗試對屬性條件獨立性假設進行必定程度的放鬆,由此產生了一類稱爲「半樸素貝葉斯分類器」。

基本思想:適當考慮一部分屬性間的相互依賴信息,從而既不須要進行徹底聯合機率計算,又不至於完全忽略了比較強的屬性依賴關係。「獨依賴估計」是半樸素貝葉斯分類器最經常使用的一種策略,就是假設每一個屬性在類別以外最多僅依賴於一個其餘屬性。

 

全部的討論是假設樣本中全部屬性變量的值都已被觀測到,即訓練樣本是「完整的」,但在現實應用中每每會遇到「不完整」的訓練樣本,---EM算法是經常使用的估計參數隱變量的利器,它是一種迭代式的方法,

其基本想法是:

 

相關文章
相關標籤/搜索