所謂概括推理思想,便是由某類事物的部分對象具備某些特徵,推出該類事物的所有對象都具備這些特徵的推理。抽象地來講,由個別事實歸納出通常結論的推理稱爲概括推理(簡稱概括),它是推理的一種html
傳統上,根據前提所考察對象範圍的不一樣,把概括推理分爲面試
1. 徹底概括推理:考察某類事物的所有對象 2. 不徹底概括推理:僅考慮某類事物的部分對象,並進一步根據:所依據的前提是否揭示對象與其屬性間的因果聯繫,把不徹底概括推理分爲 1)簡單枚舉概括推理:在經驗觀察基礎上所作出的歸納 2)科學概括推理:在科學實驗基礎上所作出的歸納
這裏的所謂的「對象與其屬性間的因果聯繫」即概括推理強度,概括推理的強度彼此間差別很大,根據概括強度可分爲算法
1. 演繹推理:必然性推理 2. 概括推理:或然性推理
而現代概括推理的主要形式有機器學習
1. 枚舉論證 2. 類別 3. 比喻論證 4. 統計論證 5. 因果論證
概括推理的前提是其結論的必要條件,可是概括推理的前提必須是真實的,不然概括就失去了意義wordpress
概括推理裏的結論指的是觀測到了已經發生的事物結果,具體到機器學習領域就是咱們常說的樣本。須要特別注意的是,前提是真不能保證結論也必定是真,有時候概括推理的結論多是假的,或者不徹底是真的。如根據某天有一隻兔子撞到樹上死了,推出天天都會有兔子撞到樹上死掉,這一結論極可能爲假,除非一些很特殊的狀況發生函數
在平常思惟中,人們常根據對一類事物的部分對象具備某種屬性的考慮,推出這一類事物的所有對象或部分對象也具備該屬性的結論,這種推理就是枚舉推理,即從特殊到通常的推理過程工具
例如:數目有年輪,從它的年輪知道樹木生長的年數;動物也有年輪,從烏龜甲上的環數能夠知道它的年齡,牛馬的年輪在牙齒上,人的年輪在腦中。從這些事物推理出全部生物都有記錄本身壽命長短的年輪。post
咱們稱被考察的那部分對象爲樣本(S),樣本中某一個對象爲樣本個體(s),稱這一類事物的所有對象爲整體(A),樣本屬性(P),整體所具備的屬性稱爲描述屬性性能
枚舉推理是從所考察的樣本屬性歸納出整體屬性的推理,其推理形式以下:學習
A 的 S 都具備 P 屬性 => 全部 A 都具備 P 屬性
枚舉推理是典型的概括推理,由於它體現了概括歸納這個概念的實質。從哲學的認識論意義上說,演繹體現了由通常到個別的認識過程,概括體現了由個別到通常的認識過程,兩者是互相聯繫、互相補充的
若是一個整體中的全部個體在某一方面都具備相同的屬性,那麼任意一個個體在這方面的屬性都是整體的屬性(廣泛寓於特殊中)
例如醫生爲病人驗血只需抽取病人血液的一小部分。母親給嬰兒餵奶只要嘗一小口就能知道奶的溫度,不一樣的個體在某方面所具備的無差異的屬性稱爲同質性,有差異的屬性稱爲異質性。比較而言,在科學概括中,樣本屬性與描述屬性具備同質性的機率較高,而在簡單枚舉法中,樣本屬性與描述屬性具備同質性的機率較低
1. 沒有發現與觀測結論相關的反例:只要有與結論相關的反例,不管有多少正面支持結論的實例,結論都是不真實的 2. 樣本容量越大,結論的可靠型就越大:基於過少的樣本所做出的歸納是容易犯錯誤的,咱們須要足夠大的樣本容量,也就是樣本內所含個體的數量,才能確立咱們對所做出的歸納的信心 3. 樣本的個體之間的差別越大,結論的可靠性就越大:樣本個體之間的差別一般能反映樣本個體在整體中的分佈狀況,樣本個體之間的差別越大說明樣本個體在整體中的分佈越廣。這條準則涉及樣本的表明性問題 4. 樣本屬性與描述屬性有同質性的機率越大,結論的可靠性越大:從邏輯上說,樣本屬性與結論所歸納歸納的整體屬性應當具備同質性,不然就必定會有反例。對於機器學習來講,就是咱們取的樣本必定要是最終實際線上模型的獲取方式、特徵抽取提取方式等方面必定要保持一致,這樣才能保證同質性
在一類事物中,根據所觀察的樣本個體具備某種屬性的前提,得出整體中的其餘一些個體也具備這種屬性的結論,這種推理就是特稱枚舉推理,例如
1. 在亞洲觀察到的天鵝是白色的,在歐洲和非洲觀察到的天鵝也是白色的。因此美洲的天鵝也是白的:特稱枚舉是從樣本到樣本的推理 2. 在亞洲觀察到的天鵝是白色的,在歐洲和非洲觀察到的天鵝也是白色的,因此隔壁小李叔叔救回來的那隻受傷的天鵝也會是白的:單稱推理是從已考察的樣本S到未知個體
須要注意的是,上面提到的4個全稱枚舉的準則都一樣應用於特徵枚舉與單稱枚舉,可是存在幾個問題
1. 因爲單稱枚舉和特稱枚舉的結論是對未知個體作出的判定,結論超出了前提的判定範圍,其結論面臨着更大的反例的可能性,例如小李叔叔救回來的天鵝不是白色的,或者根本就不是天鵝 2. 在平常思惟實際中,單稱枚舉和特稱枚舉所推斷的狀況每每在將來纔會出現。於是也稱之爲預測推理,其中單稱枚舉推理是最經常使用的形式,例如:從過去太陽老是從東方升起,推斷出明天太陽也將從東方升起
若是前提所包含的樣本個體窮盡了整體中的全部個體 ,則其結論具備必然的性質。徹底概括法的特色是前提所考察的一類對象的所有,結論判定的範圍沒有超出前提的判定範圍,本質上屬於演繹推理
機率思想與概括思想之間存在密切聯繫。概括法中的機率概括推理是從概括法向機率法發展的標誌。機率概括推理是根據一類事件出現的機率,推出該類全部事件出現的機率的不徹底概括推理,是由部分到全體的推理,其特色是對可能性的大小做數量方面的估計,它的結論超出了前提所判定的範圍,於是是或然的。
從某種程度上來講,概括是一種特殊的機率,機率方法是概括方法的天然推廣,機率是概括法發展到必定程度的必然產物
1. 機率法 1) 機率法自己是對大量隨機事件和隨機現象所進行的一種概括,是對隨機事件發生的結果的概括,它並不關心事件發生的具體過程 2)而機率方法則主要適用於多變量因果關係的復瑣事件所決定的問題 2. 概括法 1)概括法不只關注事件發生的結果,它還關注事件發生的具體過程,它認可事件發生過程當中的規律性,並以此爲基礎來研究事件發生過程當中的規律性 2)概括法主要適用於少變量因果關係的簡單事件所決定的問題
特殊化思想是將研究對象或問題從通常狀態轉化爲特殊狀態進行考察和研究的一種思想方法。特殊化思想方法的哲學基礎是矛盾的廣泛性寓於特殊性之中。
而數理統計思想方法是經過對樣本的研究來把握整體內在規律的一種研究方法,換句話說,統計是經過對特殊事物的認識來把握通常規律,所以它也是一種特殊思想方法
特殊化方法主要處理肯定性問題,更側重過程和對具體方法的把握;而統計法則主要研究隨機對象,它更強調對結果和總體的把握。
數量統計思想並不侷限在具體的方法層次,它主要是從思想層面來把握問題,是一種真正意義上的特殊化方法
Relevant Link:
http://www.doc88.com/p-2985317492201.html https://max.book118.com/html/2014/0104/5473598.shtm http://www.docin.com/p-355028594.html https://baike.baidu.com/item/概括推理思想/8335575?fr=aladdin http://www.360doc.com/content/12/0312/15/7266134_193751535.shtml
來自於微博的一張圖:
1. 機率論是統計推斷的基礎,在給定數據生成過程下觀測、研究數據生成的性質; 2. 而統計推斷則根據觀測的數據,反向思考其數據生成過程。預測、分類、聚類、估計等,都是統計推斷的特殊形式,強調對於數據生成過程的研究。
例如:在醫院會對過去有糖尿病的全部病人進行概括總結(創建模型,即統計概括);當有一個新的病人入院時,就能夠用以前的概括總結來判斷該病人是否患糖尿病,而後就能夠對症下藥了。統計裏常說的「分類」就是這個過程(即根據已知條件進行預測將來)。
統計=樣本(回顧過去的數據)概括出整體(總結)
機率率=整體(給定條件)對樣本進行預測
統計和機率是方法論上的區別,機率是演繹(分析),統計是概括(總結)
1. 機率論研究的是一個白箱子,你知道這個箱子的構造(裏面有幾個紅球、幾個白球,也就是所謂的聯合機率分佈函數),而後計算下一個摸出來的球是紅球的機率(求具體條件機率) 2. 而統計學面對的是一個黑箱子,你只看獲得每次摸出來的是紅球仍是白球,而後須要猜想這個黑箱子的內部結構,例如紅球和白球的比例是多少?(參數估計)能不能認爲紅球40%,白球60%?(假設檢驗)
若是統計數據不夠大,就什麼也說明不了
小數定律裏的「跟它的指望值一點關係都沒有」,這裏的指望值就是接下來要討論的「大數定律」。大數定律是咱們從統計數字中推測(概括)真相的理論基礎。
大數定律說若是統計數據足夠大,那麼事物出現的頻率(統計)就能無限接近他的指望值(機率)
所謂指望,在咱們的生活中,指望是你但願一件事情預期達到什麼樣的效果。例如,你去面試,指望的薪水是1萬5。
在統計機率裏,指望也是同樣的含義,表示的也是事件將來的預期值,只不過是用更科學的方式來計算出這個數值。某個事件的指望值,也就是收益,其實是全部不一樣結果的和,其中每一個結果都是由各自的機率和收益相乘而來。
1/6*1元+1/6*2元+1/6*3美圓)+1/6*4元+1/6*5元+1/6*6元 =3.5元
這個指望3.5元表明什麼意思呢?
可能你某一次拋篩子贏了1元,某一次拋篩子贏了6元,可是長期來看(假設玩了無數盤),你平均下來每次的收益會是3.5元。
1. 咱們發現當拋篩子次數少數,指望波動很大。這就是小數定律,若是統計數據不多,那麼事件就表現爲各類極端狀況,而這些狀況都是偶然事件,跟它的指望值一點關係都沒有。 2. 可是當你拋篩子次數大於60次後,就會愈來愈接近它的指望值3.5。
在必定條件下,大量獨立隨機變量的平均數是以正態分佈爲極限的。根據中心極限定理,咱們經過大量獨立隨機變量的統計概括,能夠獲得機率分佈密度函數的近似值
Relevant Link:
https://www.zhihu.com/question/19911209 https://baike.baidu.com/item/大數定律/410082?fr=aladdin https://www.zhihu.com/question/20269390 https://www.zhihu.com/question/20269390 http://blog.csdn.net/linear_luo/article/details/52760309 https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/
前面兩個章節討論了統計概括能夠推導出機率密度,以及背後的數學理論支撐基礎。因此接下來的問題就是另外一個問題了,how?咱們如何根據一個實驗結果進行統計概括計算,獲得一個機率密度的估計?根據實驗結果概括統計獲得的這個計算獲得的是一個惟一肯定值嗎?
首先給出一個等式:
等式左邊表示給定聯合樣本值條件下關於未知參數
的函數;等式右邊的
是一個密度函數,它表示給定參數
下關於聯合樣本值
的聯合密度函數
從數學定義上,似然函數和密度函數是徹底不一樣的兩個數學對象:是關於
的函數,
是關於
的函數,可是神奇地地方就在於它們的函數值形式相等,實際上也能夠理解爲有因就有果,有果就有因
這個等式表示的是對於事件發生的兩種角度的見解,本質上等式兩邊都是表示的這個事件發生的機率或者說可能性
1. 似然函數 L(θ|x):再給定一個樣本x後,咱們去想這個樣本出現的可能性究竟是多大。統計學的觀點始終是認爲樣本的出現是基於一個分佈的。那麼咱們去假設這個分佈爲 f,裏面有參數theta。對於不一樣的theta,樣本的分佈不同,全部的theta對應的樣本分佈就組成了似然函數 2. 機率密度函數 f(x|θ):表示的就是在給定參數theta的狀況下,x出現的可能性多大。
因此其實這個等式要表示的核心意思都是在給一個theta和一個樣本x的時候,整個事件發生的可能性多大。
以伯努利分佈(Bernoulli distribution,又叫作兩點分佈或0-1分佈)爲例:
也能夠寫成如下形式:
對於任意的參數 pp 咱們均可以畫出伯努利分佈的機率圖,當 p = 0.5 時:f(x) = 0.5。這代表參數 p = 0.5時,觀測結果的不肯定性是對半開的
咱們能夠獲得下面的機率密度圖:
能夠看到,參數 p 的取值越偏離0.5,則意味着觀測結果的不肯定性越低
從似然的角度出發,假設咱們觀測到的結果是 x = 0.5(即某一面朝上的機率是50%,這個結果多是經過幾千次幾萬次的試驗獲得的),能夠獲得如下的似然函數:
注意:這裏的 π 描述的是伯努利實驗的性能而非事件發生的機率(例如 π = 0.5 描述的一枚兩面均勻的硬幣)
對應的似然函數圖是這樣的:
咱們很容易看出似然函數的極值(也是最大值)在 p = 0.5 處獲得,一般不須要作圖來觀察極值,令似然函數的偏導數爲零便可求得極值條件。偏導數求極值是最最大似然函數的經常使用方法
似然函數的最大值意味着什麼?讓咱們回到機率和似然的定義,機率描述的是在必定條件下某個事件發生的可能性,機率越大說明這件事情越可能會發生;而似然描述的是結果已知的狀況下,該事件在不一樣條件下發生的可能性,似然函數的值越大說明該事件在對應的條件下發生的可能性越大。
如今再來看看以前提到的拋硬幣的例子:
上面的 π (硬幣的性質)就是咱們說的事件發生的條件,描述的是性質不一樣的硬幣,任意一面向上機率爲50% 的可能性有多大,
在不少實際問題中,好比機器學習領域,咱們更關注的是似然函數的最大值,咱們須要根據已知事件來找出產生這種結果最有可能的條件,目的固然是根據這個最有可能的條件去推測未知事件的機率。在這個拋硬幣的事件中,π 能夠取 [0, 1] 內的全部值,這是由硬幣的性質所決定的,顯而易見的是 π = 0.5 這種硬幣最有可能產生咱們觀測到的結果。
對數似然函數並非一個新的概念,它只是一個具體實現上的優化作法,由於實際問題每每要比拋一次硬幣複雜得多,會涉及到多個獨立事件,在似然函數的表達式中一般都會出現連乘:
對多項乘積的求導每每很是複雜,可是對於多項求和的求導卻要簡單的多,對數函數不改變原函數的單調性和極值位置,並且根據對數函數的性質能夠將乘積轉換爲加減式,這能夠大大簡化求導的過程:
在機器學習的公式推導中,常常能看到相似的轉化。
考慮投擲一枚硬幣的實驗。一般來講,已知投出的硬幣正面朝上和反面朝上的機率各自是,即可以知道投擲若干次後出現各類結果的可能性
好比說,投兩次都是正面朝上的機率是0.25。用條件機率表示,就是:
,其中H表示正面朝上。
在統計學中的大多數場景中,咱們關心的是在已知一系列投擲的結果時,關於硬幣投擲時正面朝上的可能性的信息。咱們能夠創建一個統計模型:假設硬幣投出時會有 的機率正面朝上,而有
的機率反面朝上。
這時,條件機率能夠改寫成似然函數:
也就是說,對於取定的似然函數,在觀測到兩次投擲都是正面朝上時, 的似然性是0.25(這並不表示當觀測到兩次正面朝上時
的機率是0.25)。
若是考慮,那麼似然函數的值也會改變。
這說明,若是參數 的取值變成0.6的話,結果觀測到連續兩次正面朝上的機率要比假設
時更大。也就是說,參數
取成0.6 要比取成0.5 更有說服力,更爲「合理」
仔細思考,咱們就會發現,L 是關於 PH的單調遞增函數,以下圖:
怎麼理解這張圖?即在實驗結果已知的 HH 狀況下,最大似然估計認爲最有可能的狀況是PH的機率爲1,即這個硬幣100%都是正面(雖然咱們知道這不合理,可是反映了實驗樣本對似然估計合理性的影響)
總之, 似然函數的重要性不是它的具體取值,而是當參數變化時函數到底變小仍是變大。對同一個似然函數,若是存在一個參數值,使得它的函數值達到最大的話,那麼這個值就是最爲「合理」的參數值。Relevant Link:
https://en.wikipedia.org/wiki/Maximum_likelihood_estimation https://www.zhihu.com/question/54082000 http://fangs.in/post/thinkstats/likelihood/ https://zhuanlan.zhihu.com/p/22092462 http://blog.csdn.net/sunlylorn/article/details/19610589 https://www.cnblogs.com/zhsuiy/p/4822020.html https://zhuanlan.zhihu.com/p/26614750 https://www.zhihu.com/question/48230067 https://zhuanlan.zhihu.com/p/22092462 http://fangs.in/post/thinkstats/likelihood/
極大似然估計是一種估計數據參數的常見統計方法,它遵循的準則是極大似然準則。極大似然準則和經驗風險最小化準則同樣,都是一種計算模型機率分佈參數的準則,咱們後面會討論它們的區別。
筆者觀點:最大似然估計是利用已知的樣本的結果,在使用某個模型的基礎上,反推最有可能致使這樣結果的模型參數值。
假設一個袋子裝有白球與紅球,比例未知,如今抽取10次(每次抽完都放回,保證事件獨立性)。
假設抽到了7次白球和3次紅球,在此數據樣本條件下,能夠採用最大似然估計法求解袋子中白球的比例(最大似然估計是一種「模型已定,參數未知」的方法)。
咱們知道,一些複雜的問題,是很難經過直觀的方式得到答案的,這時候理論分析就尤其重要了,咱們能夠找到一個"逼近模型"來無限地逼近咱們要處理的問題的本質
咱們能夠定義2次實驗中從袋子中抽取白球和紅球的機率以下
x1爲第一次採樣,x2爲第二次採樣,f爲模型, theta爲模型參數,X1,X2是獨立同分布的
其中theta是未知的,所以,咱們定義似然L爲:
L爲似然的符號
由於目標是求最大似然函數,所以咱們能夠兩邊取ln,取ln是爲了將右邊的乘號變爲加號,方便求導(不影響極大值的推導)
兩邊取ln的結果,左邊的一般稱之爲對數似然
最大似然估計的過程,就是找一個合適的theta,使得平均對數似然的值爲最大。所以,能夠獲得如下公式:
最大似然估計的公式
咱們寫出拓展到n次採樣的狀況
最大似然估計的公式(n次採樣)
咱們定義M爲模型(也就是以前公式中的f),表示抽到白球的機率爲theta,而抽到紅球的機率爲(1-theta),所以10次抽取抽到白球7次的機率能夠表示爲:
10次抽取抽到白球7次的機率
將其描述爲平均似然可得:
那麼最大似然就是找到一個合適的theta,得到最大的平均似然(求最大極值問題)。所以咱們能夠對平均似然的公式對theta求導,並另導數爲0
求導過程
由此可得,當抽取白球的機率爲0.7時,最可能產生10次抽取抽到白球7次的事件。
筆者思考:
若是咱們的實驗結果是:前10次抽到的球都是白球,則對對數似然函數進行求導,並另導數爲0,得出theta爲1,即當取白球的機率是100%時,最有可能10次都抽到白球。 顯然,這種"推測結果"很容易"偏離真實狀況",由於極可能是由於10次都抽到白球這種小几率事件致使咱們基於觀測值的最大似然推測失真,即產生了過擬合,可是形成這種現象的本質是由於"咱們的訓練樣本未能真實地反映待推測問題的本質",在一個很差的樣本集下,要作出正確的預測也就變得十分困難。
咱們前面說了,事物的原本規律是很複雜的,咱們很難用一個百分百準確的模型去描述事物的本質,可是咱們能夠用一些相似的通用模型去"儘量逼近"事物的本質。
高斯分佈(正態分佈)一種很是合理的描述隨機事件的機率模型。
假若有一組採樣值(x1,...,xn),咱們知道其服從正態分佈,且標準差已知。當這個正態分佈的指望和方差爲多少時,產生這個採樣數據的機率爲最大?
繼續上個小節的例子:
基於n次實驗觀測值對參數theta預測的的似然函數
正態分佈的公式,當第一參數(指望)爲0,第二參數(方差)爲1時,分佈爲標準正態分佈
把高斯分佈函數帶入n次獨立實驗的似然函數中
對上式求導可得,在高斯分佈下,參數theta的似然函數的值取決於實驗觀測結果,這和咱們上例中抽球實驗是一致的
筆者思考:根據機率原理咱們知道,若是咱們的實驗次數不斷增長,甚至接近無限次,則實驗的觀測結果會無限逼近於真實的機率分佈狀況,這個時候最大似然函數的估計就會逐漸接近真實的機率分佈,也能夠這麼理解,樣本觀測量的增長,會下降似然函數過擬合帶來的偏差。
極大似然估計準則和經驗風險最小化準則(ERM),是具備必定的類似性的。
在經驗風險最小化原則中,有一個假設集,利用訓練集進行學習,選取假設
,實現使得經驗風險最小化。實際上,極大似然估計是對於特定的損失函數的經驗風險最小化,也就說,極大似然估計是一種特殊形式的經驗風險最小化。
對於給定的參數和觀測樣本 x,定義損失函數爲:
也就是說,假設觀測樣本 X 服從分佈,損失函數
與 x 的對數似然函數相差一個負號。該損失函數一般被稱爲對數損失。
在基礎上,能夠驗證,極大似然準則等價於上式定義的對數損失函數的經驗風險最小化(僅限於對數損失函數)
這裏咱們能夠這麼理解:經驗風險最小化是一種泛化的模型求參法則,它的核心是求極值。而極大似然是一種特殊的形態,即便用對數這種形式來進行極值求導。
數據服從的潛在分佈爲 P(沒必要知足參數化形式),參數的真實風險爲:
其中, 稱爲相對熵,H 稱爲熵函數。
相對熵是描述兩個機率分佈的差別的一種度量。對於離散分佈,相對熵老是非負的,而且等於 0 當且僅當兩個分佈是相同的。
因而可知,當時,真實風險達到極小值。
同時,上式還刻畫了生成式的假設對於密度估計的影響,即便是在無窮多樣本的極限狀況下,該影響依然存在。若是潛在分佈具備參數化的形式,那麼能夠經過選擇合適的參數,使風險降爲潛在分佈的熵。
然而,若是潛在分佈不知足假設的參數化形式,那麼即便由最優參數所肯定的模型也多是較差的,模型的優劣是用熵刻畫的。
上面的討論總結一下本質就是估計風險和逼近風險的概念:
1. 估計風險:咱們的生成式假設是否足夠逼近真實的潛在分佈? 2. 逼近風險:咱們的訓練樣本可否支持模型獲得合適的模型參數?
線性迴歸中的最小二乘(OLSE)的策略思想是使擬合出的目標函數和全部已知樣本點儘可能靠近,本質上咱們能夠將擬合線(linear function)當作是一種對樣本機率密度分佈的表示,這樣有利於咱們去思考最大似然和最小二乘法在本質上的聯繫。
1. 最大似然估計:
如今已經拿到了不少個樣本(數據集中包含全部因變量),這些樣本值已經實現,最大似然估計就是去找到那個(組)參數估計值,使得前面已經實現的樣本值發生機率最大。
由於你手頭上的樣本已經實現了,其發生機率最大才符合邏輯。這時是求樣本全部觀測的聯合機率最大化,是個連乘積,只要取對數,就變成了線性加總。
此時經過對參數求導數,並令一階導數爲零,就能夠經過解方程(組),獲得最大似然估計值。
2. 最小二乘:
找到一個(組)估計值,使得實際值與估計值的距離最小。
這裏評估實際值和估計值之間距離的函數就叫「損失函數」,一個經常使用的損失函數是平方和損失,找一個(組)估計值,使得實際值與估計值之差的平方加總以後的值最小,稱爲最小二乘。
這時,將這個差的平方的和式對參數求導數,並取一階導數爲零,就是OLSE。
論及本質,其實二者只是用不一樣的度量空間來進行的投影:
最小二乘(OLS)的度量是L2 norm distance;
而極大似然的度量是Kullback-Leibler divergence(KL散度);
設想一個例子,教育程度和工資之間的關係。咱們能夠觀察到的數據是:教育程度對應着一個工資的樣本數據
咱們的目標是找到二者之間的規律,若是樣本集中只有2個點,則計算是很是簡單的,既不須要OLS也不須要最大似然估計,直接兩點連成一條線便可。可是咱們知道OLS和最大似然都是一種數學工具,它要解決的狀況就是大量樣本集時的數學計算問題。
若是咱們的學歷-工資樣本集大數量到達3個點,且這3個點不共線,那顯然咱們就沒法經過肉眼和直覺判斷直接獲得linear regression function了。以下圖:
若是這三個點不在一條線上,咱們就須要做出取捨了,若是咱們取任意兩個點,那麼就沒有好好的利用第三個點帶來的新信息,而且由於這三個點在數據中的地位相同,咱們如何來判定應該選用哪兩個點來做爲咱們的基準呢?這就都是問題了。
這個時候咱們最直觀的想法就是『折衷』一下,在這三個數據,三條線中間取得某種平衡做爲咱們的最終結果,相似於上圖中的紅線這樣。
那接下來的問題就是,怎麼取這個平衡了?
咱們須要引入一個數學量化的值:偏差,也就是咱們要認可觀測到的數據中有一些因素是不可知的,不能徹底的被學歷所解釋。而這個不能解釋的程度天然就是每一個點到紅線在Y軸的距離。
有了偏差這個度量的手段,即咱們認可了有不能解釋的因素,可是咱們依然想盡量的讓這種『不被解釋』的程度最小,因而咱們就想最小化這種不被解釋的程度。由於點可能在線的上面或者下面,故而距離有正有負,取絕對值又太麻煩,因而咱們就直接把每一個距離都取一個平方變成正的,而後試圖找出一個距離全部點的距離的平方最小的這條線,這就是最小二乘法了。
極大似然的估計則更加抽象一些,咱們觀察到了這3個點,說明這3個點是其背後「真實規律模型對應的數據集」中選出的最優表明性的3個,因此咱們但願找到一個特定的底薪和教育增量薪水的組合,讓咱們觀察到這三個點的機率最大,這個找的過程就是極大似然估計。
極大似然估計是尋找一個機率函數分佈,使之最符合現有觀測到的樣本數據。
筆者思考:在神經元感知機算法中,求損失函數最小值(經驗風險最小)尋找分界面的本質和極大似然求解是同樣的,都是在尋找一個有最大機率產生當前觀察樣本的模型。
Relevant Link:
https://zhuanlan.zhihu.com/p/24602462 https://www.zhihu.com/question/26201440 https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence https://www.zhihu.com/question/20447622 http://blog.csdn.net/feilong_csdn/article/details/61633180 https://www.cnblogs.com/ChengQH/p/e5dd604ee211533e50187c6fd37787bd.html
最大似然估計存在必定的缺陷
1. 最大似然估計屬於點估計,只能獲得待估計參數的一個值。可是在有的時候咱們不只僅但願知道,咱們還但願知道取其它值得機率,即咱們但願知道整個在得到觀察數據後的分佈狀況 2. 最大似然估計僅僅根據(有限的)觀察數據對整體分佈進行估計,在數據量不大的狀況下,可能不許確。
例如咱們要估計人的平均體重,可是抽樣的人都是小孩,這樣咱們獲得的平均體重就不能反映整體的分佈,而咱們應該把「小孩之佔總人口20%」的先驗考慮進去。這時咱們能夠用貝葉斯方法。
貝葉斯估計和最大似然估計最大的區別我認爲在於:
貝葉斯估計對假設空間的機率分佈有一個預先的假設(先驗),而不是徹底無腦地信任觀測樣本數據,它至關於先創建一個初始基線值,而後根據觀測樣本值去不斷修正它,這樣修正後的結果具備很好的穩定性,不會隨着觀測樣本的波動而波動。
貝葉斯法則又被稱爲貝葉斯定理、貝葉斯規則,是指機率統計中的應用所觀察到的現象對有關機率分佈的主觀判斷(即先驗機率)進行修正(訓練過程當中不斷修正)的標準方法。當分析樣本大到接近整體數時,樣本中事件發生的機率將接近於整體中事件發生的機率。
貝葉斯統計中的兩個基本概念是先驗分佈和後驗分佈:
1. 先驗分佈:
整體分佈參數θ的一個機率分佈。貝葉斯學派的根本觀點,是認爲在關於整體分佈參數θ的任何統計推斷問題中,除了使用樣本所提供的信息外,還必須規定一個先驗分佈,它是在進行統計推斷時不可缺乏的一個要素。
他們認爲先驗分佈沒必要有客觀的依據,能夠部分地或徹底地基於主觀信念。
2. 後驗分佈:
根據樣本分佈和未知參數的先驗分佈,用機率論中求條件機率分佈的方法,求出的在樣本已知下,未知參數的條件分佈。由於這個分佈是在抽樣之後才獲得的,故稱爲後驗分佈。
貝葉斯估計,是在給定訓練數據D時,肯定假設空間 H 中的最佳假設,通常定義爲:
在給定數據 D 以及假設空間 H 中,不一樣的先驗機率下,最可能存在的後驗假設分佈。
貝葉斯估計的公式以下:
p(h|D) = P(D|H) * P(H) / P(D)
先驗機率用 P(h) 表示,它表示了在沒有訓練數據前假設 h 擁有的初始機率(訓練前的一個初始的先驗假設)。先驗機率反映了咱們關於 h 分佈的主觀認知,若是咱們沒有這一先驗知識,能夠簡單地將每一候選假設賦予相同的先驗機率(平均機率也是一種合理的先驗假設);
P(D)表示訓練數據D的先驗機率;
P( D | H )表示假設h成立時D的機率;
機器學習中,咱們關心的是P( H | D ),即給定D時 H 的成立的機率,稱爲 H 的後驗機率。
貝葉斯公式提供了從先驗機率P(h)、P(D)和P( D | H)計算後驗機率P(H|D)的方法,即提供了一種從現象回溯規律本質的方法。
對貝葉斯估計的公式,能夠這麼來理解:
咱們的目標P(H|D),隨着P(h)和P(D|H)的增加而增加,隨着P(D)的增加而減小。
即若是D獨立於H時被觀察到的可能性越大,那麼D對h的支持度越小,或者說D中包含的對推測出h的有效信息熵越小,即這是一份對咱們的推測基本沒有幫助的數據。
Relevant Link:
http://www.cnblogs.com/jiangxinyang/p/9378535.html
對於最大後驗估計MAP,首先要說明的一點的是,最大後驗估計和咱們上一章節討論的貝葉斯估計在數學公式上很是相似,在統計思想上也很相似,都是以最大化後驗機率爲目的。區別在於:
1. 極大似然估計和極大後驗估計MAP只須要返回預估值,貝葉斯估計要計算整個後驗機率的機率分佈; 2. 極大後驗估計在計算後驗機率的時候,把分母p(D)給忽略了,在進行貝葉斯估計的時候則不能忽略;
假設 x 爲獨立同分布的採樣,θ爲模型參數,f 爲咱們所使用的模型。那麼最大似然估計能夠表示爲:
如今,假設θ的先驗分佈爲g。經過貝葉斯理論,對於θ的後驗分佈以下式所示:
後驗分佈的目標爲:
,分母並不影響極大值的求導,所以能夠忽略。
最大後驗估計能夠看作貝葉斯估計的一種特定形式。
假設有五個袋子,各袋中都有無限量的餅乾(櫻桃口味或檸檬口味),已知五個袋子中兩種口味的比例分別是
櫻桃 100%
櫻桃 75% + 檸檬 25%
櫻桃 50% + 檸檬 50%
櫻桃 25% + 檸檬 75%
檸檬 100%
若是隻有如上所述條件,那問從同一個袋子中連續拿到2個檸檬餅乾,那麼這個袋子最有多是上述五個的哪個?
咱們知道,最大後驗機率MAP是正則化的最大似然機率,咱們首先採用最大似然估計來解這個問題,寫出似然函數。
假設從袋子中能拿出檸檬餅乾的機率爲p,則似然函數能夠寫做:
因爲p的取值是一個離散值,即上面描述中的0,25%,50%,75%,1。咱們只須要評估一下這五個值哪一個值使得似然函數最大便可,根據最大似然的計算,確定獲得爲袋子5。
上述最大似然估計有一個問題,就是沒有考慮到模型自己的機率分佈(即沒有考慮模型自己的複雜度)(結構化風險),下面咱們擴展這個餅乾的問題。對模型自身的複雜度進行先驗估計
拿到袋子1的機率是0.1 拿到袋子2的機率是0.2 拿到袋子3的機率是0.4 拿到袋子4的機率是0.2 拿到袋子5的機率是0.1 # 類高斯分佈
那一樣上述問題的答案呢?這個時候就變MAP了。咱們根據公式
寫出咱們的MAP函數
根據題意的描述可知,p的取值分別爲0,25%,50%,75%,1,g的取值分別爲0.1,0.2,0.4,0.2,0.1。分別計算出MAP函數的結果爲:
0 * 0 * 0.1 = 0 0.25 * 0.25 * 0.2 = 0.0125 0.5 * 0.5 * 0.4 = 0.1 0.75 * 0.75 * 0.2 = 0.1125 1 * 1 * 0.1 = 0.1
由上可知,經過MAP估計可得結果是從第四個袋子中取得的最高。
能夠看到,雖然觀測結果代表最大似然應該是第5個袋子,可是在加入正則化(模型複雜度)先驗後,獲得的結果被修正了。
Relevant Link:
https://lagunita.stanford.edu/c4x/Engineering/CS-224N/asset/slp4.pdf https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/ https://en.wikipedia.org/wiki/N-gram http://www.jianshu.com/p/f1d3906e4a3e http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html http://www.cnblogs.com/xueliangliu/archive/2012/08/02/2962161.html http://www.cnblogs.com/stevenbush/articles/3357803.html http://blog.csdn.net/guohecang/article/details/52313046 http://www.cnblogs.com/burellow/archive/2013/03/19/2969538.html
Copyright (c) 2018 LittleHann All rights reserved