PAC學習框架

PAC學習框架是機器學習的基礎。它主要用來回答如下幾個問題:算法

  1. 什麼問題是能夠高效學習的?
  2. 什麼問題本質上就難以學習?
  3. 須要多少實例才能完成學習?
  4. 是否存在一個通用的學習模型?

PAC=probably approximately correct,極可能接近正確的app

---------------------框架

什麼問題能獲得「可能接近正確」的結果呢?原文說的比較抽象,我把他翻譯下:機器學習

說一個問題是PAC可學習的,須要定義m個sample組成S空間,其中每一個sample服從D分佈,而且互相獨立;學習

若是存在一個算法A,在m(sample個數)有限的狀況下,找到假設h;翻譯

使得對於任意兩個數x,y,機率P(h對S中sample預測錯誤次數大於x) < y;3d

xy對應image 中兩個奇怪的符號!注意上面說的是小於,截圖中說的是相反事件的大於。實際上是一回事。blog

那麼該問題是PAC可學習的。事件

----get

舉個例子,在二維平面上去學習一個矩陣:

image

目標是找到R,R內部的點是藍色的,外部的點是紅色的。

爲了證實上面的問題是PAC可學習的,咱們須要找到一個算法A,而且證實只須要m個實例,就能夠是的機率等式成立。

首先肯定算法:

image

這個算法很簡單,就是全部藍色的點的最小矩形R。那麼這個R能不能知足上面的機率等式呢?假設給定x和y。若是錯誤個數大於x的機率小於y,須要什麼條件呢?

很差回答,所以咱們須要作一個轉換:

image

咱們先沿着R的4條邊,向內部擴展,畫出4個小矩形:r1,2,3,4。每一個r的機率x/4。

若是R’的錯誤個數大於x,那麼R’必然與r1,2,3,4中的至少一個有交集。(不然錯誤個數一定小於x)

所以有不等式:

image

因爲並集的機率小於各自機率的和:

image

因爲S中的每一個sample的獨立分佈的,而且落在r1中的機率爲x/4,因此

image

因爲咱們要求錯誤個數大於x的機率小於y,因此能夠定義以下的不等式。

image

推導出m的下限。

這就說明只須要有限個實例就能知足上面的機率不等式。

------------------------------------------------

這就說明了,上面這個平面圖形中學習矩形的問題是PAC可學習的。

相關文章
相關標籤/搜索