PAC學習框架是機器學習的基礎。它主要用來回答如下幾個問題:算法
PAC=probably approximately correct,極可能接近正確的app
---------------------框架
什麼問題能獲得「可能接近正確」的結果呢?原文說的比較抽象,我把他翻譯下:機器學習
說一個問題是PAC可學習的,須要定義m個sample組成S空間,其中每一個sample服從D分佈,而且互相獨立;學習
若是存在一個算法A,在m(sample個數)有限的狀況下,找到假設h;翻譯
使得對於任意兩個數x,y,機率P(h對S中sample預測錯誤次數大於x) < y;3d
xy對應 中兩個奇怪的符號!注意上面說的是小於,截圖中說的是相反事件的大於。實際上是一回事。blog
那麼該問題是PAC可學習的。事件
----get
舉個例子,在二維平面上去學習一個矩陣:
目標是找到R,R內部的點是藍色的,外部的點是紅色的。
爲了證實上面的問題是PAC可學習的,咱們須要找到一個算法A,而且證實只須要m個實例,就能夠是的機率等式成立。
首先肯定算法:
這個算法很簡單,就是全部藍色的點的最小矩形R。那麼這個R能不能知足上面的機率等式呢?假設給定x和y。若是錯誤個數大於x的機率小於y,須要什麼條件呢?
很差回答,所以咱們須要作一個轉換:
咱們先沿着R的4條邊,向內部擴展,畫出4個小矩形:r1,2,3,4。每一個r的機率x/4。
若是R’的錯誤個數大於x,那麼R’必然與r1,2,3,4中的至少一個有交集。(不然錯誤個數一定小於x)
所以有不等式:
因爲並集的機率小於各自機率的和:
因爲S中的每一個sample的獨立分佈的,而且落在r1中的機率爲x/4,因此
因爲咱們要求錯誤個數大於x的機率小於y,因此能夠定義以下的不等式。
推導出m的下限。
這就說明只須要有限個實例就能知足上面的機率不等式。
------------------------------------------------
這就說明了,上面這個平面圖形中學習矩形的問題是PAC可學習的。