數據挖掘中所需的機率論與數理統計知識

http://blog.csdn.net/v_july_v/article/details/8308762html

數據挖掘中所需的機率論與數理統計知識

  (關鍵詞:微積分、機率分佈、指望、方差、協方差、數理統計簡史、大數定律、中心極限定理、正態分佈)程序員

 

導言:本文從微積分相關概念,梳理到機率論與數理統計中的相關知識,但本文之壓軸戲在本文第4節(完全顛覆之前讀書時大學課本灌輸給你的觀念,一探正態分佈之神祕芳蹤,知曉其先後發明歷史由來),相信,每個學過幾率論與數理統計的朋友都有必要了解數理統計學簡史,由於,只有瞭解各個定理.公式的發明歷史,演進歷程.相關聯繫,才能更好的理解你眼前所見到的知識,才能更好的運用之。web

 

 

前言

    一個月餘前,在微博上感慨道,不知往後是否有無機會搞DM,微博上的朋友只看不發的圍脖評論道:算法研究領域,那裏要的是數學,你能夠深刻學習數學,將算法普及當興趣。想一想,甚合我意。自此,便從rickjin寫的「正態分佈的前世此生」開始研習數學。算法

    如以前微博上所說,「今年5月接觸DM,循序學習決策樹.貝葉斯,SVM.KNN,感數學功底不足,遂補數學,從‘正態分佈的先後此生’中感到數學史有趣,故買本微積分概念發展史讀,在歎服前人偉大的創造之餘,感微積分概念模糊,複習高等數學上冊,完後學機率論與數理統計,感概道:微積分是概數統計基礎,概數統計則是DM&ML之必修課。」包括讀者相信也已經感受到,我在寫這個Top 10 Algorithms in Data Mining系列的時候,其中涉及到諸多的數學概念與基礎知識(例如此篇SVM文章內諸多max.s.t.對偶.KKT條件.拉格朗日.鬆弛因子等問題則皆屬於數學內一分支:最優化理論與算法範疇內),特別是機率論與數理統計部分。更進一步,在寫上一篇文章的時候,看到機器學習中那麼多距離度量的表示法,發現連最起碼的指望,方差,標準差等基本概念都甚感模糊,於此,便深感數學之重要性。編程

    很快,我便買了一本高等教育出版社出版的機率論與數理統計一書,此書「從0-1分佈、到二項分佈、正態分佈,機率密度函數,從指望到方差、標準差、協方差,中心極限定理,樣本和抽樣,從最大似然估計量到各類置信區間,從方差分析到迴歸分析,bootstrap方法,最後到馬爾可夫鏈,之前在學校沒開機率論與數理統計這門課,如今有的學有的看了」。且人類發明計算機,是爲了輔助人類解決現實生活中遇到的問題,然計算機科學畢竟只發展了數十年,可在數學.統計學中,諸多現實生活問題已經思考了數百年甚至上千年,故,計算機若想更好的服務人類解決問題,須有效借鑑或參考數學.統計學。世間萬事萬物,究其本質乃數學,於變化莫測中尋其規律謂之統計學。bootstrap

    話休絮煩。本文結合高等數學上下冊、微積分概念發展史,機率論與數理統計、數理統計學簡史等書,及rickjin寫的「正態分佈的前世此生」系列(此文亦可看做讀書筆記或讀後感)與wikipedia整理而成,對數據挖掘中所需的機率論與數理統計相關知識概念做個總結梳理,方便你我隨時查看複習相關概念,而欲深刻學習研究的課後還需參看相關專業書籍.資料。同時,本文篇幅會比較長,簡單來講:網絡

  1. 第一節、介紹微積分中極限、導數,微分、積分等相關概念;
  2. 第二節、介紹隨機變量及其分佈;
  3. 第三節、介紹數學指望.方差.協方差.相關係數.中心極限定理等概念;
  4. 第四節、依據數理統計學簡史介紹正態分佈的先後由來;
  5. 第五節、論道正態,介紹正態分佈的4大數學推導。

    5部分起承轉合,彼此依託,層層遞進。且在本文中,會出現諸多並不友好的大量各類公式,但基本的概念.定理是任何複雜問題的根基,因此,你我都有必要硬着頭皮好好細細閱讀。最後,本文如有任何問題或錯誤,懇請廣大讀者朋友們不吝批評指正,謝謝。框架

 

第一節、微積分的基本概念

    開頭前言說,微積分是概數統計基礎,概數統計則是DM&ML之必修課」,是有必定根據的,包括後續數理統計當中,如正態分佈的機率密度函數中用到了相關定積分的知識,包括最小二乘法問題的相關探討求證都用到了求偏導數的等概念,這些都是跟微積分相關的知識。故我們第一節先複習下微積分的相關基本概念。機器學習

    事實上,古代數學中,單單無窮小、無窮大的概念就討論了近200年,然後才由無限發展到極限的概念。編輯器

1.一、極限

    極限又分爲兩部分:數列的極限和函數的極限。

1.1.一、數列的極限

 

    定義  若是數列{xn}與常a 有下列關係:對於任意給定的正數e (不論它多麼小), 總存在正整數N , 使得對於n >N 時的一切xn, 不等式 |xn-a |<e都成立, 則稱常數a 是數列{xn}的極限, 或者稱數列{xn}收斂於a , 記爲

    也就是說,

1.1.二、函數的極限

 

    設函數f(x)在點x0的某一去心鄰域內有定義. 若是存在常數A, 對於任意給定的正數e (不論它多麼小), 總存在正數d, 使得當x知足不等式0<|x-x0|<d 時, 對應的函數值f(x)都知足不等式     |f(x)-A|<e , 那麼常數A就叫作函數f(x)時的極限, 記爲

    也就是說,

    幾乎沒有一門新的數學分支是某我的單獨的成果,如笛卡兒和費馬的解析幾何不只僅是他們兩人研究的成果,而是若干數學思潮在16世紀和17世紀匯合的產物,是由許許多多的學者共同努力而成。

    甚至微積分的發展也不是牛頓與萊布尼茨兩人之功。在17世紀下半葉,數學史上出現了無窮小的概念,然後才發展到極限,到後來的微積分的提出。然就算牛頓和萊布尼茨提出了微積分,但微積分的概念尚模糊不清,在牛頓和萊布尼茨以後,後續通過一個多世紀的發展,諸多學者的努力,才真正清晰了微積分的概念。

    也就是說,從無窮小到極限,再到微積分定義的真正確立,經歷了幾代人幾個世紀的努力,而課本上所呈現的永遠只是冰山一角。

1.二、導數

 

    設有定義域和取值都在實數域中的函數 。若 在點 的某個鄰域內有定義,則當自變量 處取得增量 (點 仍在該鄰域內)時,相應地函數 取得增量 ;若是 之比當 時的極限存在,則稱函數 在點 處可導,並稱這個極限爲函數 在點 處的導數,記爲
    即:

    也可記爲:

1.三、微分

 

    設函數 在某區間 內有定義。對於 內一點 ,當 變更到附近的 也在此區間內)時。若是函數的增量 可表示爲 (其中 是不依賴於 的常數),而 是比 高階的無窮小,那麼稱函數 在點 是可微的,且 稱做函數在點 相應於自變量增量 的微分,記做 ,即 的線性主部。一般把自變量 的增量 稱爲自變量的微分,記做 ,即 。 
    實際上,前面講了導數,而微積分則是在導數 的基礎上加個後綴 ,即爲:

 

1.四、積分 

 

    積分是微積分學與數學分析裏的一個核心概念。一般分爲定積分和不定積分兩種。
不定積分的定義
    一個函數 的不定積分,也稱爲原函數或反導數,是一個導數等於 的函數 ,即
    不定積分的有換元積分法,分部積分法等求法。
定積分的定義
    直觀地說,對於一個給定的正實值函數 ,在一個實數區間 上的定積分
    定積分與不定積分區別在於不定積分即是不給定區間,也就是說,上式子中,積分符號沒有a、b。下面,介紹定積分中值定理。
    若是函數f(x)在閉區間[a,b]上連續, 則在積分區間[a,b]上至少存在一個點, 使下式成立:
    這個公式便叫積分中值公式。
牛頓-萊布尼茨公式
    接下來,我們講介紹微積分學中最重要的一個公式:牛頓-萊布尼茨公式。
     若是函數F (x)是連續函數f(x)在區間[a, b]上的一個原函數, 則
    此公式稱爲牛頓-萊布尼茨公式, 也稱爲微積分基本公式。這個公式由此便打通了原函數與定積分之間的聯繫,它代表:一個連續函數在區間[a, b]上的定積分等於它的任一個原函數在區間[a, b]上的增量,如此,便給定積分提供了一個有效而極爲簡單的計算方法,大大簡化了定積分的計算手續。
    下面,舉個例子說明如何經過原函數求取定積分。
    如要計算 ,因爲 的一個原函數,因此

1.五、偏導數

    對於二元函數z = f(x,y) 若是隻有自變量x 變化,而自變量y固定 這時它就是x的一元函數,這函數對x的導數,就稱爲二元函數z = f(x,y)對於x的偏導數。
    定義  設函數z = f(x,y)在點(x0,y0)的某一鄰域內有定義,當y固定在y0而x在x0處有增量 時,相應地函數有增量
    若是極限
    存在,則稱此極限爲函數z = f(x,y)在點(x0,y0)處對 x 的偏導數,記做:
    例如 。相似的,二元函數對y求偏導,則把x當作常量。
    此外,上述內容只講了一階偏導,而有一階偏導就有二階偏導,這裏只作個簡要介紹,具體應用具體分析,或參看高等數學上下冊相關內容。接下來,進入本文的主題,從第二節開始。
 
 

第二節、離散.連續.多維隨機變量及其分佈

2.一、幾個基本概念點

(一)樣本空間

         定義:隨機試驗E的全部結果構成的集合稱爲E的 樣本空間,記爲S={e},
        稱S中的元素e爲樣本點,一個元素的單點集稱爲基本事件.

(二)條件機率

  1. 條件機率就是事件A在另一個事件B已經發生條件下的發生機率。條件機率表示爲P(A|B),讀做「在B條件下A的機率」。
  2. 聯合機率表示兩個事件共同發生的機率。A與B的聯合機率表示爲或者
  3. 邊緣機率是某個事件發生的機率。邊緣機率是這樣獲得的:在聯合機率中,把最終結果中不須要的那些事件合併成其事件的全機率而消失(對離散隨機變量用求和得全機率,對連續隨機變量用積分得全機率)。這稱爲邊緣化(marginalization)。A的邊緣機率表示爲P(A),B的邊緣機率表示爲P(B)。 
 在同一個樣本空間Ω中的事件或者子集A與B,若是隨機從Ω中選出的一個元素屬於B,那麼這個隨機選擇的元素還屬於A的機率就定義爲在B的前提下A的條件機率。從這個定義中,咱們能夠得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|獲得
    有時候也稱爲後驗機率。
    同時,P(A|B)與P(B|A)的關係以下所示:
    。 

(三)全機率公式和貝葉斯公式

     一、全機率公式
    假設{ Bn : n = 1, 2, 3, ... } 是一個機率空間的有限或者可數無限的分割,且每一個集合Bn是一個可測集合,則對任意事件A有全機率公式:

 

    又由於

 

    因此,此處Pr(A | B)是B發生後A的條件機率,因此全機率公式又可寫做:

 

     在離散狀況下,上述公式等於下面這個公式: 。但後者在連續狀況下仍然成立:此處N是任意隨機變量。這個公式還能夠表達爲:"A的先驗機率等於A的後驗機率的先驗指望值。 
     二、貝葉斯公式
    貝葉斯定理(Bayes' theorem),是機率論中的一個結果,它跟隨機變量的條件機率以及邊緣機率分佈有關。在有些關於機率的解說中,貝葉斯定理(貝葉斯更新)可以告知咱們如何利用新證據修改已有的見解。
    一般,事件A在事件B(發生)的條件下的機率,與事件B在事件A的條件下的機率是不同的;然而,這二者是有肯定的關係,貝葉斯定理就是這種關係的陳述。
    如 此篇blog第二部分所述「據維基百科上的介紹,貝葉斯定理其實是關於隨機事件A和B的條件機率和邊緣機率的一則定理。
   如上所示,其中P(A|B)是在B發生的狀況下A發生的可能性。在貝葉斯定理中,每一個名詞都有約定俗成的名稱:
  • P(A)是A的先驗機率或邊緣機率。之因此稱爲"先驗"是因為它不考慮任何B方面的因素。
  • P(A|B)是已知B發生後A的條件機率(直白來說,就是先有B然後=>纔有A),也因爲得自B的取值而被稱做A的後驗機率。
  • P(B|A)是已知A發生後B的條件機率(直白來說,就是先有A然後=>纔有B),也因爲得自A的取值而被稱做B的後驗機率。
  • P(B)是B的先驗機率或邊緣機率,也做標準化常量(normalized constant)。
    按這些術語,Bayes定理可表述爲:後驗機率 = (類似度*先驗機率)/標準化常量,也就是說,後驗機率與先驗機率和類似度的乘積成正比。另外,比例P(B|A)/P(B)也有時被稱做標準類似度(standardised likelihood),Bayes定理可表述爲:後驗機率 = 標準類似度*先驗機率。」
    綜上,自此便有了一個問題,如何從從條件機率推導貝葉斯定理呢?

     根據條件機率的定義,在事件B發生的條件下事件A發生的機率是

 

    一樣地,在事件A發生的條件下事件B發生的機率

 

     整理與合併這兩個方程式,咱們能夠找到

 

     這個引理有時稱做機率乘法規則。上式兩邊同除以P(B),若P(B)是非零的,咱們能夠獲得貝葉斯定理

2.二、隨機變量及其分佈

2.2.一、何謂隨機變量

    何謂隨機變量?即給定樣本空間,其上的實值函數稱爲(實值)隨機變量。

 

    若是隨機變量 的取值是有限的或者是可數無窮盡的值 ,則稱 爲離散隨機變量(用白話說,此類隨機變量是間斷的)。

 

    若是 由所有實數或者由一部分區間組成,則稱 爲連續隨機變量,連續隨機變量的值是不可數及無窮盡的(用白話說,此類隨機變量是連續的,不間斷的):

 

    也就是說,隨機變量分爲離散型隨機變量,和連續型隨機變量,當要求隨機變量的機率分佈的時候,要分別處理之,如:

  • 針對離散型隨機變量而言,通常以加法的形式處理其機率和;
  • 而針對連續型隨機變量而言,通常以積分形式求其機率和。

    再換言之,對離散隨機變量用求和得全機率,對連續隨機變量用積分得全機率。這點包括在第4節中相關指望.方差.協方差等概念會反覆用到,望讀者注意之。

2.2.二、離散型隨機變量的定義

    定義:取值至多可數的隨機變量爲離散型的隨機變量。機率分佈(分佈律)爲
    且

(一)(0-1)分佈

     若X的分佈律爲:
     同時,p+q=1,p>0,q>0,則則稱X服從參數爲p的0-1分佈,或兩點分佈。
    此外,(0-1)分佈的分佈律還可表示爲:
    或
    
    咱們常說的拋硬幣實驗便符合此(0-1)分佈。

(二)、二項分佈

    二項分佈是n個獨立的是/非試驗中成功的次數的離散機率分佈,其中每次試驗的成功機率爲p。這樣的單次成功/失敗試驗又稱爲伯努利試驗。舉個例子就是,獨立重複地拋n次硬幣,每次只有兩個可能的結果:正面,反面,機率各佔1/2。
    設A在n重貝努利試驗中發生X次,則
    並稱X服從參數爲p的二項分佈,記爲:
    與此同時,

(三)、泊松分佈(Poisson分佈)

        Poisson分佈(法語:loi de Poisson,英語:Poisson distribution),即泊松分佈,是一種統計與機率學裏常見到的離散機率分佈,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。
    若隨機變量X的機率分佈律爲
    稱X服從參數爲λ的泊松分佈,記爲:
    有一點提早說一下,泊松分佈中,其數學指望與方差相等,都爲參數λ。 
泊松分佈的來源
    在二項分佈的伯努力試驗中,若是試驗次數n很大,二項分佈的機率p很小,且乘積λ= n p比較適中,則事件出現的次數的機率能夠用泊松分佈來逼近。事實上,二項分佈能夠看做泊松分佈在離散時間上的對應物。證實以下。
    首先,回顧e的定義:
    二項分佈的定義:
    若是令 趨於無窮時 的極限:
    上述過程代表:Poisson(λ) 分佈能夠當作是二項分佈 B(n,p) 在 np=λ,n→∞ 條件下的極限分佈。
最大似然估計
    給定n個樣本值ki,但願獲得從中推測出整體的泊松分佈參數λ的估計。爲計算最大似然估計值, 列出對數似然函數:
     對函數L取相對於λ的導數並令其等於零:
    解得λ從而獲得一個駐點(stationary point):
    檢查函數L的二階導數,發現對全部的λ 與ki大於零的狀況二階導數都爲負。所以求得的駐點是對數似然函數L的極大值點:
    證畢。OK,上面內容都是針對的離散型隨機變量,那如何求連續型隨機變量的分佈律呢?請接着看如下內容。
 

2.2.三、隨機變量分佈函數定義的引出

    實際中,如上2.2.2節所述,
  • 對於離散型隨機變量而言,其全部可能的取值能夠一一列舉出來,
  • 可對於非離散型隨機變量,即連續型隨機變量X而言,其全部可能的值則沒法一一列舉出來,
    故連續型隨機變量也就不能像離散型隨機變量那般能夠用分佈律來描述它,那怎麼辦呢(事實上,只有由於連續,因此纔可導,因此纔可積分,這些東西都是相通的。固然了,連續不必定可導,但可導必定連續)?
    既然沒法研究其所有,那麼咱們能夠轉而去研究連續型隨機變量所取的值在一個區間(x1,x2] 的機率:P{x1 < X <=x2 },同時注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1},故要求P{x1 < X <=x2 } ,咱們只需求出P{X <=x2} 和 P{X <=x1} 便可。
    針對隨機變量X,對應變量x,則P(X<=x) 應爲x的函數。如此,便引出了分佈函數的定義。
    定義:隨機變量X,對任意實數x,稱函數F(x) = P(X <=x ) 爲X 的機率分佈函數,簡稱分佈函數。
    F(x)的幾何意義以下圖所示:
    且對於任意實數x1,x2(x1<x2),有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。
    同時,F(X)有如下幾點性質:
 

2.2.四、連續型隨機變量及其機率密度

    定義:對於隨機變量X的分佈函數F(x),若存在非負的函數f(x),使對於任意實數x,有:
     則稱X爲連續型隨機變量,其中f(x)稱爲X的機率密度函數,簡稱機率密度。連續型隨機變量的機率密度f(x)有以下性質:
(針對上述第3點性質,我重點說明下:
  1. 在上文第1.4節中,有此牛頓-萊布尼茨公式:若是函數F (x)是連續函數f(x)在區間[a, b]上的一個原函數, 則
  2. 在上文2.2.3節,連續隨機變量X 而言,對於任意實數a,b(a<b),有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a);
故結合上述兩點,即可得出上述性質3)
 
    且若是機率密度函數 在一點 上連續,那麼累積分佈函數可導,而且它的導數: 。以下圖所示:
    接下來,介紹三種連續型隨機變量的分佈,因爲均勻分佈及指數分佈比較簡單,因此,一圖以概之,下文會重點介紹正態分佈。
(一)、均勻分佈
    若連續型隨機變量X具備機率密度
    則稱X 在區間(a,b)上服從均勻分佈,記爲X~U(a,b)。
    易知,f(x) >= 0,且其指望值爲(a + b)/ 2。
(二)、指數分佈
    若連續型隨機變量X 的機率密度爲
  
    其中λ>0爲常數,則稱X服從參數爲λ的指數分佈。記爲
(三)、正態分佈
     在各類公式紛至沓來以前,我先說一句:正態分佈沒有你想的那麼神祕,它無非是研究偏差分佈的一個理論,由於實踐過程當中,測量值和真實值老是存在必定的差別,這個不可避免的差別即偏差,而偏差的出現或者分佈是有規律的,而正態分佈不過就是研究偏差的分佈規律的一個理論。
    OK,若隨機變量 服從一個位置參數爲 、尺度參數爲 的機率分佈,記爲: 
    則其機率密度函數爲
    咱們便稱這樣的分佈爲正態分佈或高斯分佈,記爲:
    正態分佈的數學指望值或指望值等於位置參數 ,決定了分佈的位置;其方差 的開平方,即標準差 等於尺度參數,決定了分佈的幅度。正態分佈的機率密度函數曲線呈鐘形,所以人們又常常稱之爲鐘形曲線。它有如下幾點性質,以下圖所示:
    正態分佈的機率密度曲線則以下圖所示:
 
    當固定尺度參數 ,改變位置參數 的大小時,f(x)圖形的形狀不變,只是沿着x軸做平移變換,以下圖所示:
    而當固定位置參數 ,改變尺度參數 的大小時,f(x)圖形的對稱軸不變,形狀在改變,越小,圖形越高越瘦,越大,圖形越矮越胖。以下圖所示:
    故有我們上面的結論,在正態分佈中,稱μ爲位置參數(決定對稱軸位置),而 σ爲尺度參數(決定曲線分散性)。同時,在天然現象和社會現象中,大量隨機變量服從或近似服從正態分佈。
    而咱們一般所說的標準正態分佈是位置參數 , 尺度參數 的正態分佈,記爲:
 
    相關內容以下兩圖總結所示(來源:大嘴巴漫談數據挖掘):

2.2.五、各類分佈的比較

    上文中,從離散型隨機變量的分佈:(0-1)分佈、泊松分佈、二項分佈,講到了連續型隨機變量的分佈:均勻分佈、指數分佈、正態分佈,那這麼多分佈,其各自的指望.方差(指望方差的概念下文將予以介紹)都是多少呢?雖然說,還有很多分佈上文還沒有介紹,不過在此,提早總結下,以下兩圖所示(摘自盛驟版的機率論與數理統計一書後的附錄中):
 
    本文中,二維.多維隨機變量及其分佈再也不論述。
 
 
 

第三節、從數學指望、方差、協方差到中心極限定理

3.一、數學指望、方差、協方差

3.1.一、數學指望

     若是X是在機率空間(Ω, P)中的一個隨機變量,那麼它的指望值E[X]的定義是:
     並非每個隨機變量都有指望值的,由於有的時候這個積分不存在。若是兩個隨機變量的分佈相同,則它們的指望值也相同。
    在機率論和統計學中,數學指望分兩種(依照上文第二節相關內容也能夠得出),一種爲離散型隨機變量的指望值,一種爲連續型隨機變量的指望值。
  • 一個離散性隨機變量的指望值(或數學指望、或均值,亦簡稱指望)是試驗中每次可能結果的機率乘以其結果的總和。換句話說,指望值是隨機試驗在一樣的機會下重複屢次的結果計算出的等同「指望」的平均值。
    例如,擲一枚六面骰子,獲得每一面的機率都爲1/6,故其的指望值是3.5,計算以下:
    承上,若是X 是一個離散的隨機變量,輸出值爲x1, x2, ..., 和輸出值相應的機率爲p1, p2, ...(機率和爲1),若級數 絕對收斂,那麼指望值E[X]是一個無限數列的和:
    上面擲骰子的例子就是用這種方法求出指望值的。 
  • 而對於一個連續型隨機變量來講,若是X的機率分佈存在一個相應的機率密度函數f(x),若積分絕對收斂,那麼X 的指望值能夠計算爲: 
    
    實際上,此連續隨機型變量的指望值的求法與離散隨機變量的指望值的算法同出一轍,因爲輸出值是連續的,只不過是把求和改爲了積分。

3.1.二、方差與標準差

方差    
    在機率論和統計學中,一個隨機變量的方差(Variance)描述的是它的離散程度,也就是該變量離其指望值的距離。一個實隨機變量的方差也稱爲它的二階矩或二階中心動差,恰巧也是它的二階累積量。方差的算術平方根稱爲該隨機變量的標準差。
    其定義爲:若是 是隨機變量X的指望值(平均數) 設 爲服從分佈 的隨機變量,則稱 爲隨機變量 或者分佈 的方差:
    其中, μ爲平均數,N爲樣本總數。 
    分別針對離散型隨機變量和連續型隨機變量而言,方差的分佈律和機率密度以下圖所示:
標準差
    標準差(Standard Deviation),在機率統計中最常使用做爲統計分佈程度(statistical dispersion)上的測量。標準差定義爲方差的算術平方根,反映組內個體間的離散程度。
    簡單來講,標準差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標準差,表明大部分的數值和其平均值之間差別較大;一個較小的標準差,表明這些數值較接近平均值。例如,兩組數的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二個集合具備較小的標準差。
    前面說過,方差的算術平方根稱爲該隨機變量的標準差,故一隨機變量的標準差定義爲:
    須注意並不是全部隨機變量都具備標準差,由於有些隨機變量不存在指望值。 若是隨機變量 具備相同機率,則可用上述公式計算標準差。 
    上述方差.標準差等相關內容,可用下圖總結之:
樣本標準差
    在真實世界中,除非在某些特殊狀況下,找到一個整體的真實的標準差是不現實的。大多數狀況下,整體標準差是經過隨機抽取必定量的樣本並計算樣本標準差估計的。說白了,就是數據海量,想計算整體海量數據的標準差無異於大海撈針,那咋辦呢?抽取其中一些樣本做爲抽樣表明唄。
    而從一大組數值 當中取出同樣本數值組合 ,進而,咱們能夠定義其樣本標準差爲:
    樣本方差 是對整體方差 的無偏估計。    中分母爲 n-1 是由於 的自由度爲n-1(且慢,何謂自由度?簡單說來,即指樣本中的n個數都是相互獨立的,從其中抽出任何一個數都不影響其餘數據,因此自由度就是估計整體參數時獨立數據的數目,而平均數是根據n個獨立數據來估計的,所以自由度爲n),這是因爲存在約束條件 。 

3.1.三、協方差與相關係數

協方差
    下圖便可說明何謂協方差,同時,引出相關係數的定義:
 
相關係數 

    如上篇kd樹blog所述相關係數 ( Correlation coefficient )的定義是:

(其中,E爲數學指望或均值,D爲方差,D開根號爲標準差,E{ [X-E(X)] [Y-E(Y)]}稱爲隨機變量X與Y的協方差,記爲Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},而兩個變量之間的協方差和標準差的商則稱爲隨機變量X與Y的相關係數,記爲)
    相關係數衡量隨機變量X與Y相關程度的一種方法,相關係數的取值範圍是[-1,1]。相關係數的絕對值越大,則代表X與Y相關度越高。當X與Y線性相關時,相關係數取值爲1(正線性相關)或-1(負線性相關)。
    具體的,若是有兩個變量:X、Y,最終計算出的相關係數的含義能夠有以下理解:

  1. 當相關係數爲0時,X和Y兩變量無關係。
  2. 當X的值增大(減少),Y值增大(減少),兩個變量爲正相關,相關係數在0.00與1.00之間。
  3. 當X的值增大(減少),Y值減少(增大),兩個變量爲負相關,相關係數在-1.00與0.00之間。
   根據相關係數,相關距離能夠定義爲:

 

    這裏只對相關係數作個簡要介紹,欲瞭解機器學習中更多類似性距離度量表示法,能夠參看上篇 kd樹blog第一部份內容。
    自此,已經介紹完指望方差協方差等基本概念,但一會兒要讀者接受那麼多概念,怕是有難爲讀者之嫌,不如再上幾幅圖鞏固下上述相關概念吧(來源:大嘴巴滿談數據挖掘):

3.1.四、協方差矩陣與主成成分分析

協方差矩陣

    由上,咱們已經知道:協方差是衡量兩個隨機變量的相關程度。且隨機變量 之間的協方差能夠表示爲

                                                         

     故根據已知的樣本值能夠獲得協方差的估計值以下:

                                               

    能夠進一步地簡化爲:

                                                             

    如此,便引出了所謂的協方差矩陣: 

主成成分分析

    儘管從上面看來,協方差矩陣貌似很簡單,可它倒是不少領域裏的很是有力的工具。它能導出一個變換矩陣,這個矩陣能使數據徹底去相關(decorrelation)。從不一樣的角度看,也就是說可以找出一組最佳的基以緊湊的方式來表達數據。這個方法在統計學中被稱爲主成分分析(principal components analysis,簡稱PCA),在圖像處理中稱爲Karhunen-Loève 變換(KL-變換)。

    根據wikipedia上的介紹,主成分分析PCA由卡爾·皮爾遜於1901年發明,用於分析數據及創建數理模型。其方法主要是經過對協方差矩陣進行特徵分解,以得出數據的主成分(即特徵矢量)與它們的權值(即特徵值)。PCA是最簡單的以特徵量分析多元統計分佈的方法。其結果能夠理解爲對原數據中的方差作出解釋:哪個方向上的數據值對方差的影響最大。

    然爲什麼要使得變換後的數據有着最大的方差呢?咱們知道,方差的大小描述的是一個變量的信息量,咱們在講一個東西的穩定性的時候,每每說要減少方差,若是一個模型的方差很大,那就說明模型不穩定了。可是對於咱們用於機器學習的數據(主要是訓練數據),方差大才有意義,否則輸入的數據都是同一個點,那方差就爲0了,這樣輸入的多個數據就等同於一個數據了。

    簡而言之,主成分分析PCA,留下主成分,剔除噪音,是一種降維方法,限高斯分佈,n維眏射到k維,

  1. 減均值,
  2. 求特徵協方差矩陣,
  3. 求協方差的特徵值和特徵向量,
  4. 取最大的k個特徵值所對應的特徵向量組成特徵向量矩陣,
  5. 投影數據=原始樣本矩陣x特徵向量矩陣。其依據爲最大方差,最小平方偏差或座標軸相關度理論,及矩陣奇異值分解SVD(即SVD給PCA提供了另外一種解釋)。

    也就是說,高斯是0均值,其方差定義了信噪比,因此PCA是在對角化低維表示的協方差矩陣,故某一個角度而言,只須要理解方差、均值和協方差的物理意義,PCA就很清晰了。

 

    再換言之,PCA提供了一種下降數據維度的有效辦法;若是分析者在原數據中除掉最小的特徵值所對應的成分,那麼所得的低維度數據一定是最優化的(也即,這樣下降維度一定是失去訊息最少的方法)。主成分分析在分析複雜數據時尤其有用,好比人臉識別。

3.二、中心極限定理

    本節先給出如今通常的機率論與數理統計教材上所介紹的2個定理,而後簡要介紹下中心極限定理的相關歷史。

3.2.一、獨立同分布的中心極限定理

    獨立中心極限定理以下兩圖所示:

3.2.二、棣莫弗-拉普拉斯中心極限定理

 

    此外,據wikipedia上的介紹,包括上面介紹的棣莫弗-拉普拉斯定理在內,歷史上先後發展了三個相關的中心極限定理,它們得出的結論及內容分別是:

  • 棣莫弗-拉普拉斯(de Movire - Laplace)定理是中心極限定理的最第一版本,討論了服從二項分佈的隨機變量序列。
 其內容爲:若 是n次伯努利實驗中事件A出現的次數, ,則對任意有限區間
(i)當 時,一致地有

(ii)當 時,一致地有 , 
,其中
         它指出,參數爲n, p的二項分佈以np爲均值、np(1-p)爲方差的正態分佈爲極限。    
  • 林德伯格-列維(Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的擴展,討論獨立同分布隨機變量序列的中心極限定理。
 其內容爲:設隨機變量 獨立同分布, 且具備有限的數學指望和方差
,則 其中 是標準正態分佈的分佈函數。 
    它代表,獨立同分布、且數學指望和方差有限的隨機變量序列的標準化和以標準正態分佈爲極限。
  • 林德伯格-費勒定理,是中心極限定理的高級形式,是對林德伯格-列維定理的擴展,討論獨立,但不一樣分佈的狀況下的隨機變量和。
    其內容爲:記隨機變量序列 獨立但不必定同分布, 且有有限方差)部分和爲
    記
    若是對每一個 ,序列知足
    則稱它知足林德伯格(Lindeberg)條件。
    知足此條件的序列趨向於正態分佈,即
    與之相關的是李雅普諾夫(Lyapunov)條件:
     知足李雅普諾夫條件的序列必知足林德伯格條件。 

    它代表,知足必定條件時,獨立,但不一樣分佈的隨機變量序列的標準化和依然以標準正態分佈爲極限。

3.2.三、歷史

    1776年,拉普拉斯開始考慮一個天文學中的彗星軌道的傾角的計算問題,最終的問題涉及獨立隨機變量求和的機率計算,也就是計算以下的機率值
    令 Sn=X1+X2+⋯+Xn, 那麼
    在這個問題的處理上,拉普拉斯充分展現了其深厚的數學分析功底和高超的機率計算技巧,他首次引入了特徵函數(也就是對機率密度函數作傅立葉變換)來處理機率分佈的神妙方法,而這一方法通過幾代機率學家的發展,在現代機率論裏面佔有極其重要的位置。基於這一分析方法,拉普拉斯經過近似計算,在他的1812年的名著《機率分析理論》中給出了中心極限定理的通常描述:
    [定理Laplace,1812]設 ei(i=1,⋯n)爲獨立同分布的測量偏差,具備均值μ和方差σ2。若是λ1,⋯,λn爲常數,a>0,則有
    這已是比棣莫弗-拉普拉斯中心極限定理更加深入的一個結論了,在如今大學本科的教材上,包括包括本文主要參考之一盛驟版的機率論與數理統計上,一般給出的是中心極限定理的通常形式: 
    [Lindeberg-Levy中心極限定理] 設X1,⋯,Xn獨立同分布,且具備有限的均值μ和方差σ2,則在n→∞時,有

    多麼奇妙的性質,隨意的一個機率分佈中生成的隨機變量,在序列和(或者等價的求算術平均)的操做之下,表現出如此一致的行爲,統一的規約到正態分佈。
    機率學家們進一步的研究結果更加使人驚訝,序列求和最終要導出正態分佈的條件並不須要這麼苛刻,即使X1,⋯,Xn並不獨立,也不具備相同的機率分佈形式,不少時候他們求和的最終歸宿仍然是正態分佈。
    在正態分佈、中心極限定理的確立之下,20世紀以後,統計學三大分佈χ2分佈、t分佈、F分佈也逐步登上歷史舞臺:

    如上所述,中心極限定理的歷史可大體歸納爲:

  1. 中心極限定理理的初版被法國數學家棣莫弗發現,他在1733年發表的卓越論文中使用正態分佈去估計大量拋擲硬幣出現正面次數的分佈;
  2. 1812年,法國數學家拉普拉斯在其鉅著 Théorie Analytique des Probabilités中擴展了棣莫弗的理論,指出二項分佈可用正態分佈逼近;
  3. 1901年,俄國數學家李雅普諾夫用更普通的隨機變量定義中心極限定理並在數學上進行了精確的證實。

    現在,中心極限定理被認爲是(非正式地)機率論中的首席定理。

 

 

第四節、從數理統計簡史中看正態分佈的歷史由來

 

    本節將結合《數理統計學簡史》一書,從早期機率論的發展、棣莫弗的二項機率逼近講到貝葉斯方法、最小二乘法、偏差與正態分佈等問題,有詳有略,其中,重點闡述正態分佈的歷史由來。

 

    相信,你我能夠想象獲得,咱們如今眼前所看到的正態分佈曲線雖然看上去很美,但數學史上任何一個定理的發明幾乎都不可能一蹴而就,不少每每經歷了幾代人的持續努力。由於在科研上諸多觀念的革新和突破是有着不少的不易的,或許某個定理在某個時期由某我的點破了,如今的咱們看來一切都是理所固然,但在一切沒有發現以前,可能許許多多的頂級學者畢其功於一役,耗盡一輩子,努力了幾十年最終也是無功而返。
     如上文前三節所見,如今機率論與數理統計的教材上,一上來介紹正態分佈,而後便給出其機率密度分佈函數,卻歷來沒有說明這個分佈函數是經過什麼原理推導出來的。如此,可能會致使你我在內的不少人一直搞不明白數學家當年是怎麼找到這個機率分佈曲線的,又是怎麼發現隨機偏差服從這個奇妙的分佈的。咱們在實踐中大量的使用正態分佈,卻對這個分佈的前因後果知之甚少。
    本文接下來的第四節將結合陳希儒院士的《數理統計學簡史》及「正態分佈的前世此生」爲你揭開正態分佈的神祕面紗。

 

4.一、正態分佈的定義

    上文中已經給出了正態分佈的相關定義,我們先再來回顧下。以下兩圖所示(來源:大嘴巴漫談數據挖掘):
    相信,通過上文諸多繁雜公式的轟炸,讀者或有些許不耐其煩,我們接下來說點有趣的內容:歷史。下面,我們來結合數理統計簡史一書,及正態分佈的前世此生系列,從古至今論述正態分佈的歷史由來。
 

4.二、早期機率論:從萌芽到推測術

4.2.一、惠更新的三個關於指望的定理

(一)惠更新的論賭博的計算
    所謂機率,即指一個事件發生,一種狀況出現的可能性大小的數量指標,介於0和1之間,這個概念最初造成於16世紀,說來可能令你意想不到,凡事無絕對,早期不少機率論中的探討卻與擲骰子等當今看來是違法犯罪的賭博活動有着不可分割的聯繫,能夠說,這些賭博活動反而推進了機率論的早期發展。
    歷史是紛繁多雜的,我們從惠更斯的機遇的規律一書入手,此人指導過微積分的奠定者之一的萊布尼茲學習數學,與牛頓等人也有交往,終生未婚。如諸多歷史上有名的人物通常,他們之因此被後世的人們記住,是由於他們在某一個領域的傑出貢獻,這個貢獻多是提出了某一個定理或者公式,換句話來講,就是現今人們口中所說的表明做,一個意思。
    而惠更新爲當代人們所熟知的應該是他在《擺式時鐘或用於時鐘上的擺的運動的幾何證實》、《擺鐘》等論文中提出了物理學史上鐘擺擺動週期的公式: 。 
(二)創立數學指望
    與此同時,惠更斯1657年發表了《論賭博中的計算》,被認爲是機率論誕生的標誌。同時對二次曲線、複雜曲線、懸鏈線、曳物線、對數螺線等平面曲線都有所研究。
    《論賭博中的計算》中,惠更斯先從關於公平賭博值的一條公理出發,推導出有關數學指望的三個基本定理,以下述內容所示:
  • 公理:每一個公平博弈的參與者願意拿出通過計算的公平賭注冒險而不肯拿出更多的數量。即賭徒願意押的賭注不大於其得到賭金的數學指望數。
    對這一公理至今仍有爭議。所謂公平賭注的數額並不清楚,它受許多因素的影響。但惠更斯由此所得關於數學指望的3 個命題具備重要意義。這是數學指望第一次被提出,因爲當時機率的概念還不明確,後被拉普拉斯( Laplace ,1749 —1827) 用數學指望來定義古典機率。在機率論的現表明述中,機率是基本概念,數學指望則是二級概念,但在歷史發展過程當中卻順序相反。
關於數學指望的三個命題爲:
  • 命題1  若某人在賭博中以等機率1/2得到賭金a元、b元,則其數學指望值爲:a*1/2+b*1/2,即爲( a + b)/2;
  • 命題2  若某人在賭博中以等機率1/3得到賭金a 、b 元和c元 ,則其數學指望值爲( a + b + c)/3元;
  • 命題3  若某人在賭博中以機率p 和q ( p ≥0 , q ≥0 , p + q = 1) 得到賭金a元、b元 ,則得到賭金的數學指望值爲p*a + q*b 元。
    這些今天看來均可做爲數學指望定義,不許確的說,數學指望來源於取平均值。同時,根據上述惠更斯的3個命題不難證實:若某人在賭博中分別以機率p1...,pk(p1+..+pk=1)分別贏得a1,..ak元,那麼其指望爲p1*a1+...+pk*ak,這與本文第一節中關於離散型隨機變量的指望的定義徹底一致( 各值與各值機率乘積之和)。
    但惠更新關於機率論的討論侷限於賭博中,而把機率論由侷限於對賭博機遇的討論擴展出去的則得益於伯努利,他在惠更新的論賭博中的計算一書出版的56年,即1733年出版了劃時代的著做:推測術。伯努利在此書中,不只對惠更斯的關於擲骰子等賭博活動中出現的額各類狀況的機率進行了計算,並且還提出了著名的「大數定律」,這個定律在歷史上甚至到今天,影響深遠,後續諸多的統計方法和理論都是創建在大數定律的基礎上。
(三) 伯努利的大數定律及其如何而來
    一樣,我們在讀中學的時候,之因此記住了伯努利這我的,恐怕是由於物理課上,老師所講的伯努利方程 C,(C爲常量)。
    固然,伯努利的貢獻不只在此,而在於他的大數定律。那何謂伯努利大數定律呢?
    設在n次獨立重複試驗中,事件X發生的次數爲 。事件X在每次試驗中發生的機率爲P。則對任意正數 ,下式成立:
    定理代表事件發生的頻率依機率收斂於事件的機率。定理以嚴格的數學形式表達了頻率的穩定性。就是說當n很大時,事件發生的頻率於機率有較大誤差的可能性很小。 
    這個定理如何而來的呢?
    我們來看一個簡單的袋中抽球的模型,袋中有a個白球,b個黑球,則從袋中取出白球的機率爲p=a/(a+b),有放回的充袋中 抽球N次(每次抽取時保證袋中a+b個球的每個都有同等機會被抽出),記得 抽到的白球的次數爲X而後以X/N 這個值去估計p,這個估計方法至今還是數理統計學中最基本的方法之一。
    伯努利試圖證實的是:用X/N 估計p 能夠達到事實上的肯定性,即:任意給定兩個數ε>0和η>0,取足夠大的抽取次數N,使得事件 的機率不超過η,這意思是 ,表面估計偏差未達到制定的接近程度η。
    換句話說,咱們須要證實的是當N充分無限大時,X/N 無限逼近於p,用公式表達即爲:
     (N趨於無窮大)
    儘管如今咱們看來,上述這個結論毫無疑問是理所固然的,但直到1909年纔有波萊爾證實。此外,此伯努利大數定律是咱們今天所熟知的契比雪夫不等式的簡單推論,但須注意的是在伯努利那個時代,並沒有「方差」這個概念,更不用說從這個不等式而推論出伯努利大數定律了。
    此外,經常使用的大數定律除了伯努利大數定律以外,還有辛欽大數定律、柯爾莫哥洛夫強大數定律和重對數定律等定律。這裏稍微提下辛欽大數定律,以下圖所示。
    在1733年,棣莫弗發展了用正態分佈逼近二項分佈的方法,這對於當時而言,是一實質性的深遠改進。
 

4.三、棣莫弗的二項機率逼近

    同上文中的惠更新,伯努利同樣,人們熟悉棣莫弗,想必是由於著名的棣莫弗公式,以下:
    據數理統計學簡史一書上的說明,棣莫弗之因此投身到二項機率的研究,非因伯努利之故,而又是賭博問題(賭博貢獻很大丫哈)。有一天一個哥們,也許是個賭徒,向棣莫弗提了一個和賭博相關的一個問題:A,B兩人在賭場裏賭博,A,B各自的獲勝機率是p和q=1−p,賭n局,若A贏的局數X>np,則A付給賭場X−np元,不然B付給賭場np−X元。問賭場掙錢的指望值是多少?按定義可知,此指望值爲:
    上式的b(N,平,i)爲二項機率,棣莫弗最終在Np爲整數的條件下獲得:
    
    當m=N/2時,N趨於無窮,
    也就是說上述問題的本質上是上文第一節中所講的一個二項分佈。雖然從上述公式能夠集結此問題,但在N很大時, 計算不易,故棣莫弗想找到一個更方便於計算的近似公式。
    棣莫弗後來雖然作了一些計算並獲得了一些近似結果,可是還不夠,隨後有人講棣莫弗的研究工做告訴給了斯特林,因而,便直接催生了在數學分析中必學的一個重要公式斯特林公式(斯特林公式最初發表於1730年,然後棣莫弗改進了斯特林公式):
(其中,m= N/2)
    1733年,棣莫弗有了一個決定性意義的舉動,他證實了當N趨於去窮時,有下列式子成立:
    不要小瞧了這個公式。當它與上面給出的這個公式 結合後,便有了:
    根據上面式子,近似地以定積分代替和,獲得下式:
    不知道,當讀者讀到這裏的時候,是否從上式看出了些許端倪,此式可隱藏了一個咱們習覺得常卻極其重要的概念。OK,或許其形式不夠明朗,借用rickjin的式子轉化下:
  
    沒錯, 正態分佈的機率密度(函數)在上述的積分公式中出現了!於此,咱們獲得了一個結論,原來二項分佈的極限分佈即是正態分佈。與此同時,還引出了統計學史上佔據重要地位的中心極限定理。
    「棣莫弗-拉普拉斯定理」:設隨機變量Xn(n=1,2...)服從參數爲p的二項分佈,則對任意的x,恆有下式成立:
    咱們便稱此定理爲中心極限定理。並且還透露着一個極爲重要的信息:1730年,棣莫弗用二項分佈逼近居然獲得了正太密度函數,並首次提出了中心極限定理。
    還沒完,隨後,在1744年,拉普拉斯證實了:
    最終,1780年,拉普拉斯創建了中心極限定理的通常形式(也就是上文3.2節中所講的中心極限定理的通常形式):
   「Lindeberg-Levy中心極限定理」設X1,⋯,Xn獨立同分布,且具備有限的均值μ和方差σ2,則在n→∞時,有

    棣莫弗的工做對數理統計學有着很大的影響,棣莫弗40年以後,拉普拉斯創建中心極限定理的通常形式,20世紀30年代最終完成獨立和中心極限定理最通常的形式,在中心極限定理的基礎之上,統計學家們發現當樣本量趨於無窮時,一系列重要統計量的極限分佈如二項分佈,都有正態分佈的形式,也就是說,這也構成了數理統計學中大樣本方法的基礎。
    此外,從上面的棣莫弗-拉普拉斯定理,你或許尚未看出什麼蹊蹺。但咱們能夠這樣理解:若取c充分大,則對足夠大的N,事件 |的機率可任意接近於1,因爲 ,故對於任意給定的ε>0, 有下式成立:
    而這就是上文中所講的伯努利大數定律(注:上面討論的是對稱狀況,即p=1/2的狀況)。
    我之因此不厭其煩的要論述這個棣莫弗的二項機率逼近的相關過程,是想說明一點:各個定理.公式彼此以前是有着緊密聯繫的,要善於發現其中的各類聯繫。
    同時,還有一個問題,相信讀者已經意識到了,如本文第一節內容所述,我們的機率論與數理統計教材講正態分佈的時候,一上來便給出正態分佈的機率密度(函數),而後告訴咱們說,符合這個機率密度(函數)的稱爲正態分佈,緊接着闡述和證實相關性質,最後說了一句:」在天然現象和社會現象中,大量隨機變量都服從或近似服從正態分佈,如人的身高,某零件長度的偏差,海洋波浪的高度「,而後呢?而後什麼也沒說了。連正態分佈中最基本的兩個參數爲 、和 的的意義都不告訴咱們(位置參數 即爲數學指望,尺度參數爲 即爲方差,換句話說,有了指望 和方差 ,便可肯定正態分佈)。
    隨後,教材上便開始講數學指望,方差等概念,最後纔講到中心極限定理。或許在讀者閱讀本文以後,這些定理的前後發明順序才得以知曉。卻不知:正態分佈的機率密度(函數)形式首次發現於棣莫弗-拉普拉斯中心極限定理中,即先有中心極限定理,然後纔有正態分佈(經過閱讀下文4.6節你將知道,高斯引入正太偏差理論,才成就了正態分佈,反過來,拉普拉斯在高斯的工做之上用中心極限定理論證了正態分佈)。
    如rickjin所言:’‘學家研究數學問題的進程不多是按照咱們數學課本的安排順序推動的,現代的數學課本都是按照數學內在的邏輯進行組織編排的,雖然邏輯結構上嚴謹優美,卻把數學問題研究的歷史痕跡抹得一乾二淨。DNA雙螺旋結構的發現者之一James Waston在他的名著《DNA雙螺旋》序言中說:‘科學的發現不多會像門外漢所想象的同樣,按照直接了當合乎邏輯的方式進行的。’ ’‘
 

4.四、貝葉斯方法

    前面,介紹了惠更斯、伯努利和棣莫弗等人的重大成果,無疑在這些重要發明中,二項分佈都佔據着舉重輕重的地位。這在早期的機率統計史當中,也是惟一一個研究程度很深的分佈。但除了伯努利的大數定律及棣莫弗的二項逼近的研究成果外,在18世紀中葉,爲了解決二項分佈機率的估計問題,出現了一個影響極爲普遍的貝葉斯方法,貝葉斯方法通過長足的發展,現在已經成爲數理統計學中的兩個主要學派之一:貝葉斯學派,緊緊佔據數理統計學領域的半壁江山。
    據數理統計學簡史一書,托馬斯.貝葉斯,此人在18世紀上半葉的歐洲學術界,並不算得上很知名,在提出貝葉斯定理以前,也未發表過片紙隻字的科學論著,套用當今的話來講,他即是活生生一個民間學術屌絲。
    未發表過任何科學著做,但一我的若是熱愛研究,喜愛學術的話,必找人交流。於此,諸多重大發明定理都出如今學者之間的一些書信交流中。奇怪的是,貝葉斯這方面的書信材料也很少。或許讀者讀到此處,已知我意,會說這一切在他提出貝葉斯定理以後有了改變,但讀者朋友只猜對了一半。
    貝葉斯的確發表了一篇題爲An essay towards solving a problem in the doctrine of chances(機遇理論中一個問題的解)的遺做,此文在他發表後很長一段時間起,在學術界沒有引發什麼反響,直到20世紀以來,忽然受到人們的重視,此文也所以成爲貝葉斯學派最初的奠定石(又一個梵高式的人物)。
    有人說貝葉斯發表此文的動機是爲了解決伯努利和棣莫弗未能解決的二項分佈機率P的「逆機率」問題。所謂逆機率,顧名思義,就是求機率問題的逆問題:已知時間的機率爲P,可由之計算某種觀察結果的機率如何;反過來,給定了觀察結果,問由之能夠對機率P做何推斷。也就是說,正機率是由緣由推結果,稱之爲機率論;而逆機率是結果推緣由,稱之爲數理統計。
    因爲本文中,重點不在貝葉斯定理,而本文第一節之 2.1小節已對其作簡要介紹,再者,此文 從決策樹學習談到貝葉斯分類算法、EM、HMM第二部分也詳細介紹過了貝葉斯方法,故爲本文篇幅所限,再也不作過多描述。
 

4.五、最小二乘法,數據分析的瑞士軍刀

    事實上,在成百上千的各式各樣的攻擊方法中,取算術平均恐怕是最廣爲人知使用也最爲普遍的方法,由於可能一個小學生都知道使用算術平均來計算本身天天平均花了多少零花錢而以此做爲向爸媽討要零花錢的依據。而咱們大多數成年人也常常把「平均說來」掛在嘴邊。故此節要講的最小二乘法其實並不高深,它的本質思想便是來源於此算術平均的方法。
    不太精確的說,一部數理統計學的歷史,就是從縱橫兩個方向對算術平均進行不斷深刻研究的歷史,
  • 縱的方面指平均值自己,諸如伯努利及其後衆多的大數定律,棣莫弗-拉普拉斯中心極限定理,高斯的正太偏差理論,這些在很大程度上均可以視爲對算術平均的研究成果,甚至到方差,標準差等概念也是由平均值發展而來;
  • 橫的方面中最爲典型的就是此最小二乘法。
    而算術平均也是解釋最小二乘法的最簡單的例子。使偏差平方和達到最小以尋求估計值的方法,則稱爲最小二乘估計(固然,取平方和做爲目標函數知識衆多可取的方法之一,例如也能夠取偏差4次方或絕對值和,取平方和是人類千百年實踐中被證明行之有效的方法,所以被廣泛採用)。
     何謂最小二乘法?實踐中,常需尋找兩變量之間的函數關係,好比測定一個刀具的磨損速度,也就是說,隨着使用刀具的次數越多,刀具自己的厚度會逐漸減小,故刀具厚度與使用時間將成線性關係,假設符合f(t)=at + b(t表明時間,f(t)表明刀具自己厚度),a,b是待肯定的常數,那麼a、b如何肯定呢?
    最理想的情形就是選取這樣的a、b,能使直線y = at + b 所獲得的值與實際中測量到的刀具厚度徹底符合,但實際上這是不可能的,由於偏差老是存在難以免的。故因偏差的存在,使得理論值與真實值存在誤差,爲使誤差最小經過誤差的平方和最小肯定係數a、b,從而肯定兩變量之間的函數關係f(t)= at + b。
    這種經過誤差的平方和爲最小的條件來肯定常數a、b的方法,即爲最小二乘法。最小二乘法的通常形式可表述爲:
    在此,說點後話,最小二乘法是與統計學有着密切聯繫的,由於觀測值有隨機偏差,因此它同正態分佈同樣與偏差論有着密切聯繫(說實話,最小二乘法試圖解決的是偏差最小的問題,而正態分佈則是試圖尋找偏差分佈規律的問題,不管是最小二乘法,仍是正態分佈的研究工做,至始至終都圍繞着偏差進行)。
    那麼,最小二乘法是如何發明的呢?據史料記載,最小二乘法最初是由法國數學家勒讓德於1805年發明的。那勒讓德發明它的動機來源於哪呢?
    18世紀中葉,包括勒讓德、歐拉、拉普拉斯、高斯在內的許多天文學家和數學家都對天文學上諸多問題的研究產生了濃厚的興趣。好比如下問題:
  • 土星和木星是太陽系中的大行星,因爲相互吸引對各自的運動軌道產生了影響,許多大數學家,包括歐拉和拉普拉斯都在基於長期積累的天文觀測數據計算土星和木星的運行軌道。
  • 勒讓德承擔了一個政府給的重要任務,測量經過巴黎的子午線的長度。
  • 海上航行經緯度的定位。主要是經過對恆星和月面上的一些定點的觀測來肯定經緯度。
    這些問題均可以用以下數學模型描述:咱們想估計的量是β0,⋯,βp,另有若干個能夠測量的量x1,⋯,xp,y,這些量之間有線性關係
    如何經過多組觀測數據求解出參數β0,⋯,βp呢?歐拉和拉普拉斯採用的都是求解線性方程組的方法。
    可是面臨的一個問題是,有n組觀測數據,p+1個變量,若是n>p+1,則獲得的線性矛盾方程組,沒法直接求解。因此歐拉和拉普拉斯採用的方法都是經過必定的對數據的觀察,把n個線性方程分爲p+1組,而後把每一個組內的方程線性求和後歸併爲一個方程,從而就把n個方程的方程組化爲p+1個方程的方程組,進一步解方程求解參數。這些方法初看有一些道理,可是都過於經驗化,沒法造成統一處理這一類問題的一個通用解決框架。
    以上求解線性矛盾方程的問題在如今的本科生看來都不困難,就是統計學中的線性迴歸問題,直接用最小二乘法就解決了,但是即使如歐拉、拉普拉斯這些數學大牛,當時也未能對這些問題提出有效的解決方案。可見在科學研究中,要想在觀念上有所突破並不容易。有效的最小二乘法是勒讓德在1805年發表的,基本思想就是認爲 測量中有偏差,因此全部方程的累積偏差爲:
    咱們求解出致使累積偏差最小的參數便可。
    上面咱們已經看到,是勒讓德最初發明的最小二乘法,那爲什麼歷史上人們經常把最小二乘法的發明與高斯的名字聯繫起來呢?( :勒讓德時期的最小二乘法還只是做爲一個處理測量數據的代數方法來討論的,實際上與統計學並沒有多大關聯,只有創建在了測量偏差分佈的機率理論以後,這個方法才足以成爲一個統計學方法。儘管拉普拉斯用他的中心極限定理定理也能夠推導出最小二乘法,但不管是以前的棣莫弗,仍是當時的勒讓德,仍是拉普拉斯, 此時他們這些研究成果都還只是一個數學表達式而非機率分佈)。
    由於1829年,高斯提供了最小二乘法的優化效果強於其餘方法的證實,即爲高斯-馬爾可夫定理。也就是說勒讓德最初提出了最小二乘法,而倒是高斯讓最小二乘法得以鞏固而影響至今。且高斯對最小二乘法的最大貢獻在於他是創建在正太偏差分佈的理論基礎之上的(後續更是導出了偏差服從正態分佈的結論),最後,1837年,統計學家們正式確立偏差服從正態分佈,自此,人們方纔真正確信:觀測值與理論值的偏差服從正態分佈。
 

4.六、偏差分佈曲線的創建

    十八世紀,天文學的發展積累了大量的天文學數據須要分析計算,應該如何來處理數據中的觀測偏差成爲一個很棘手的問題。咱們在數據處理中常用平均的常識性法則,千百年來的數據使用經驗說明算術平均可以消除偏差,提升精度。平均有如此的魅力,道理何在,以前沒有人作過理論上的證實。算術平均的合理性問題在天文學的數據分析工做中被提出來討論:測量中的隨機偏差應該服從怎樣的機率分佈?算術平均的優良性和偏差的分佈有怎樣的密切聯繫?
    伽利略在他著名的《關於兩個主要世界系統的對話》中,對偏差的分佈作過一些定性的描述,主要包括:
  • 偏差是對稱分佈的分佈在0的兩側;
  • 大的偏差出現頻率低,小的偏差出現頻率高。
    用數學的語言描述,也就是說偏差分佈函數f(x)關於0對稱分佈,機率密度隨|x|增長而減少,這兩個定性的描述都很符合常識。

4.6.一、辛普森的工做

    許多天文學家和數學家開始了尋找偏差分佈曲線的嘗試。托馬斯•辛普森(Thomas Simpson,1710-1761)先走出了有意義的一步。
  • 設真值爲θ,而爲n次測量值,如今用測量值去估計真值,那麼每次測量的偏差爲
  • 但若用算術平均去估計θ呢,則其偏差爲
    Simpson證實了,對於以下的一個機率分佈,
Simpson的偏差態分佈曲線
    有這樣的估計:
    也就是說, 相比於 取小值的機會更大。辛普森的這個工做很粗糙,可是這是第一次在一個特定狀況下,從機率論的角度嚴格證實了算術平均的優良性。

4.6.二、拉普拉斯的工做

    在1772-1774年間,拉普拉斯也加入到了尋找偏差分佈函數的隊伍中。與辛普森不一樣,拉普拉斯不是先假定一種偏差分後去設法證實平均值的優良性,而是直接射向應該去怎麼的分佈爲偏差分佈,以及在肯定了偏差分佈以後,如何根據觀測值 去估計真值
    拉普拉斯假定偏差密度函數f(x)知足以下性質:
    m>0,且爲常數,上述方程解出 ,C>0且爲常數,因爲 ,得 。故當x<0,結合機率密度的性質之一(參看上文2.2.4節): ,解得c=m/2。
    由此,最終1772年,拉普拉斯求得的分佈密度函數爲:
    這個機率密度函數如今被稱爲拉普拉斯分佈:
    以這個函數做爲偏差密度,拉普拉斯開始考慮如何基於測量的結果去估計未知參數的值,即用什麼方法經過觀測值 去估計真值 呢?要知道我們現今所熟知的所謂點估計方法、矩估計方法,包括所謂的極大似然估計法之類的,當時但是都尚未發明。
    拉普拉斯能夠算是一個貝葉斯主義者,他的參數估計的原則和現代貝葉斯方法很是類似:假設先驗分佈是均勻的,計算出參數的後驗分佈後,取後驗分佈的中值點,即1/2分位點,做爲參數估計值。但是基於這個偏差分佈函數作了一些計算以後,拉普拉斯發現計算過於複雜,最終沒能給出什麼有用的結果,故拉普拉斯最終仍是沒能搞定偏差分佈的問題。
    至此,整個18世紀,能夠說,尋找偏差分佈的問題,依舊進展甚微,下面,便將輪到高斯出場了,歷史老是出人意料,高斯以及其簡單的手法,給了這個偏差分佈的問題一個圓滿的解決,其結果也就成爲了數理統計發展史上的一塊重要的里程碑。

4.6.三、高斯導出偏差正態分佈

    事實上,棣莫弗早在1730年~1733年間便已從二項分佈逼近的途徑獲得了正態密度函數的形式,到了1780年後,拉普拉斯也推出了中心極限定理的通常形式,但不管是棣莫弗,仍是拉普拉斯,此時他們這些研究成果都還只是一個數學表達式而非機率分佈,也就是壓根就還沒往偏差機率分佈的角度上去思索,而只有到了1809年,高斯提出「正太偏差」的理論以後,它正太理論才得以「機率分佈「的身份進入科學殿堂,從而引發人們的重視。
   追本溯源,正態分佈理論這條大河的源頭歸根結底是測量偏差理論。那高斯到底在正態分佈的確立作了哪些貢獻呢?請看下文。
    1801年1月,天文學家Giuseppe Piazzi發現了一顆從未見過的光度8等的星在移動,這顆如今被稱做穀神星(Ceres)的小行星在夜空中出現6個星期,掃過八度角後在就在太陽的光芒下沒了蹤跡,沒法觀測。而留下的觀測數據有限,難以計算出他的軌道,天文學家也所以沒法肯定這顆新星是彗星仍是行星,這個問題很快成了學術界關注的焦點。高斯當時已是頗有名望的年輕數學家了,這個問題也引發了他的興趣。高斯一個小時以內就計算出了行星的軌道,並預言了它在夜空中出現的時間和位置。1801年12月31日夜,德國天文愛好者奧伯斯(Heinrich Olbers)在高斯預言的時間裏,用望遠鏡對準了這片天空。果真不出所料,穀神星出現了!
    高斯爲此名聲大震,可是高斯當時拒絕透露計算軌道的方法直到1809年高斯系統地完善了相關的數學理論後,纔將他的方法公佈於衆,而其中使用的數據分析方法,就是以正態偏差分佈爲基礎的最小二乘法。那高斯是如何推導出偏差分佈爲正態分佈的呢?請看下文。
    跟上面同樣,仍是設真值爲 ,而 爲n次獨立測量值,每次測量的偏差爲 ,假設偏差ei的密度函數爲f(e),則測量值的聯合機率爲n個偏差的聯合機率,記爲
    到此爲止,高斯的做法實際上與拉普拉斯相同,但在繼續往下進行時,高斯提出了兩個創新的想法。
     第一個創新的想法即是:高斯並無像前面的拉普拉斯那樣採用貝葉斯的推理方式,而是直接取L(θ)達到最小值的 做爲 的估計值,這也偏偏是他解決此問題採用的創新方法,即
     如今咱們把L(θ)稱爲樣本的似然函數,而獲得的估計值θˆ稱爲極大似然估計。高斯首次給出了極大似然的思想,這個思想後來被統計學家R.A.Fisher系統地發展成爲參數估計中的極大似然估計理論。
    高斯的 第二點創新的想法是:他把整個問題的思考模式倒過來,既然千百年來你們都認爲算術平均是一個好的估計,那麼就直接先認可算術平均就是極大似然估計(換言之,極大似然估計導出的就應該是算術平均),因此高斯猜想:
    而後高斯再去尋找相應的偏差密度函數 以迎合這一點。即尋找這樣的機率分佈函數 ,使得極大似然估計正好是算術平均 。經過應用數學技巧求解這個函數f,高斯證實了全部的機率密度函數中,惟一知足這個性質的就是(記爲 (11)式):
   
    而這恰巧是咱們所熟知的正態分佈的密度函數 ,就這樣,偏差的正態分佈就被高斯給推導出來了!
    但,高斯是如何證實的呢?也就是說,高斯是如何一會兒就把上面(11)式所述的機率密度函數給找出來的呢?以下圖所示(摘自數理統計學簡史第127頁注2,圖中開頭所說的高斯的第2原則就是上面所講的高斯的第二點創新的想法,而下圖最後所說的(11)式就是上面推導出來的機率密度函數):
    進一步,高斯基於這個偏差分佈函數對最小二乘法給出了一個很漂亮的解釋。對於最小二乘公式中涉及的每一個偏差ei,有 ,則結合高斯的第一個創新方法:極大似然估計及上述的機率密度,(e1,⋯,en)的聯合機率分佈爲
    要使得這個機率最大,必須使得 取最小值,這正好就是最小二乘法的要求。
    高斯的這項工做對後世的影響極大,它使正態分佈同時有了」高斯分佈「的名稱,不止如此,後世甚至也把最小二乘法的發明權也歸功於他,因爲他的這一系列突出貢獻,人們    採起了各類形式記念他,如現今德國10馬克的鈔票上便印有這高斯頭像及正態分佈的密度曲線 ,藉此代表在高斯的一切科學貢獻中,尤以此」正太分佈「的確立對人類文明的進程影響最大。
    至此,我們來總結下:
  1. 如你所見,相比于勒讓德1805給出的最小二乘法描述,高斯基於偏差正態分佈的最小二乘理論顯然更高一籌,高斯的工做中既提出了極大似然估計的思想,又解決了偏差的機率密度分佈的問題,由此咱們能夠對偏差大小的影響進行統計度量了。
  2. 但事情就完了麼?沒有。高斯設定了準則「最大似然估計應該導出優良的算術平均」,並導出了偏差服從正態分佈,推導的形式上很是簡潔優美。可是高斯給的準則在邏輯上並不足以讓人徹底信服,由於算術平均的優良性當時更多的是一個經驗直覺,缺少嚴格的理論支持。高斯的推導存在循環論證的味道:由於算術平均是優良的,推出偏差必須服從正態分佈;反過來,又基於正態分佈推導出最小二乘和算術平均,來講明最小二乘法和算術平均的優良性,故其中不管正反論點都必須藉助另外一方論點做爲其出發點,但是算術平均到並無自行成立的理由。
    也就是上面說到的高斯的 第二點創新的想法「他把整個問題的思考模式倒過來:既然千百年來你們都認爲算術平均是一個好的估計,那麼就直接先認可算術平均就是極大似然估計(換言之,極大似然估計導出的就應該是算術平均)」存在着隱患,而這一隱患的消除又還得靠我們的老朋友拉普拉斯解決了。
    受高斯啓發,拉普拉斯將偏差的正態分佈理論和中心極限定理聯繫起來,提出了元偏差解釋。他指出若是偏差能夠當作許多微小量的疊加,則根據他的中心極限定理,隨機偏差理應當有高斯分佈(換言之,按中心極限定理來講,正態分佈是由大量的但每個做用較小的因素的做用致使而成)。而20世紀中心極限定理的進一步發展,也給這個解釋提供了更多的理論支持。
    至此,偏差分佈曲線的尋找塵埃落定,正態分佈在偏差分析中確立了本身的地位。在整個正態分佈被發現與應用的歷史中,棣莫弗、拉普拉斯、高斯各有貢獻,拉普拉斯從中心極限定理的角度解釋它,高斯把它應用在偏差分析中,異曲同工。不過由於高斯在數學家中的名氣實在是太大,正態分佈的桂冠仍是更多的被戴在了高斯的腦門上,目前數學界通行的用語是正態分佈、高斯分佈,二者並用。

4.6.四、正態分佈的時間簡史

    至此,正態分佈從首次出現到最終確立,其時間簡史爲:
  1. 1705年,伯努力的著做推測術問世,提出伯努利大數定律;
  2. 1730-1733年,棣莫弗從二項分佈逼近獲得正態密度函數,首次提出中心極限定理;
  3. 1780年,拉普拉斯創建中心極限定理的通常造成;
  4. 1805年,勒讓德發明最小二乘法;
  5. 1809年,高斯引入正態偏差理論,不但補充了最小二乘法,並且首次導出正態分佈;
  6. 1811年,拉普拉斯利用中心極限定理論證正態分佈;
  7. 1837年,海根提出元偏差學說,自此以後,逐步正式確立偏差服從正態分佈。
    如上所見,是先有的中心極限定理,然後纔有的正態分佈(固然,最後拉普拉斯用中心極限定理論證了正態分佈),能瞭解這些歷史,想一想,都以爲是一件無比激動的事情。因此,咱們切勿覺得機率論與數理統計的教材上是先講的正態分佈,然後纔講的中心極限定理,而顛倒原有歷史的發明演進過程。
 
 

第五節、論道正態,正態分佈的4大數學推導

    如本blog內以前所說:凡是涉及到要證實的東西.理論,便通常不是怎麼好惹的東西。絕大部分時候,看懂一個東西不難,但證實一個東西則須要點數學功底,進一步,證實一個東西也不是特別難,難的是從零開始發明創造這個東西的時候,則更顯艱難(由於任什麼時候代,大部分人的研究所得都不過是基於前人的研究成果,前人所作的是開創性工做,而這每每是最艱難最有價值的,他們被稱爲真正的先驅。牛頓也曾說過,他不過是站在巨人的肩上。你,我則更是如此)。
     上述第4節已經介紹了正態分佈的歷史由來,但還沒有涉及數學推導或證實,下面,參考機率論沉思錄,引用「正態分佈的前世此生」等相關內容,介紹推導正太分佈的4種方法,曲徑通幽,4條小徑,異曲同工,進一步領略正態分佈的美妙。
    「注:本節主要整編自rickjin寫的"正態分佈的先後此生"系列」

5.一、 高斯的推導(1809)

    第一條小徑是高斯找到的,高斯以以下準則做爲小徑的出發點
偏差分佈導出的極大似然估計 = 算術平均值
    設真值爲 ,而 次獨立測量值,每次測量的偏差爲 ,假設偏差 的密度函數爲 ,則測量值的聯合機率爲n個偏差的聯合機率,記爲
    爲求極大似然估計,令
    整理後能夠獲得
    令 ,由上式能夠獲得
    因爲高斯假設極大似然估計的解就是算術平均 ,把解帶入上式,能夠獲得
    在上式中取 ,有
    因爲此時有 ,而且 是任意的,由此獲得: .再在(6)式中取 ,而且要求 ,且 ,則有 ,而且
    因此獲得 而知足上式的惟一的連續函數就是 ,從而進一步能夠求解出
    因爲 是機率分佈函數,把 正規化一下就獲得正態分佈密度函數

5.二、Herschel(1850)和麥克斯韋(1860)的推導

    第二條小徑是天文學家John Hershcel和物理學家麥克斯韋(Maxwell)發現的。1850年,天文學家Herschel在對星星的位置進行測量的時候,須要考慮二維的偏差分佈,爲了推導這個偏差的機率密度分佈f(x,y),Herschel設置了兩個準則:
  1. x軸和y軸的偏差是相互獨立的,即偏差的機率在正交的方向上相互獨立;
  2. 偏差的機率分佈在空間上具備旋轉對稱性,即偏差的機率分佈和角度沒有關係。
    這兩個準則對於Herschel考慮的實際測量問題看起來都很合理。由準則1,能夠獲得 應該具備以下形式
    把這個函數轉換爲極座標,在極座標下的機率密度函數設爲 ,有
    由準則2, 具備旋轉對稱性,也就是應該和 無關,因此 ,綜合以上,咱們能夠獲得
    取 ,獲得 ,因此上式能夠轉換爲
    令 ,則有
    從這個函數方程中能夠解出 ,從而能夠獲得 的通常形式以下
    而 就是正態分佈 ,而 就是標準二維正態分佈函數。
 
    1860年,咱們偉大的物理學家麥克斯韋在考慮氣體分子的運動速度分佈的時候,在三維空間中基於相似的準則推導出了氣體分子運動的分佈是正態分佈 。這就是著名的麥克斯韋分子速率分佈定律。你們還記得咱們在普通物理中學過的麥克斯韋-波爾茲曼氣體速率分佈定律嗎?
    因此這個分佈實際上是三個正態分佈的乘積。你的物理老師是否告訴過你其實這個分佈就是三維正態分佈?反正我是一直不知道,直到今年才明白。
    Herschel-Maxwell推導的神妙之處在於,沒有利用任何機率論的知識,只是基於空間幾何的不變性,就推導出了正態分佈。美國諾貝爾物理學獎得主費曼(Feymann)每次看到一個有 的數學公式的時候,就會問:圓在哪裏?這個推導中使用到了 ,也就是告訴咱們正態分佈密度公式中有個 ,其根源來在於二維正態分佈中的等高線剛好是個圓。

5.三、Landon的推導(1941)

    第三條道是一位電氣工程師,Vernon D. Landon 給出的。1941年,Landon 研究通訊電路中的噪聲電壓,經過分析經驗數據他發現噪聲電壓的分佈模式很類似,不一樣的是分佈的層級,而這個層級能夠使用方差 來刻畫。所以他推理認爲噪聲電壓的分佈函數形式是 。如今假設有一個相對於 而言很微小的偏差擾動 ,且 的分佈函數是 ,那麼新的噪聲電壓是 。Landon提出了以下的準則
  1. 隨機噪聲具備穩定的分佈模式
  2. 累加一個微小的隨機噪聲,不改變其穩定的分佈模式,只改變分佈的層級(用方差度量)
    用數學的語言描述:若是
    則有 .如今咱們來推導函數 應該長成啥樣。按照兩個隨機變量和的分佈的計算方式, 的分佈函數將是 的分佈函數和 的分佈函數的卷積,即有
    把 在x′處作泰勒級數展開(爲了方便,展開後把自變量由x′替換爲x),上式能夠展開爲
,則有
    對於微小的隨機擾動 ,咱們認爲他取正值或者負值是對稱的,因此 。因此有
(8)
    對於新的噪聲電壓是x′=x+e,方差由 增長爲 ,因此按照Landon的分佈函數模式不變的假設,新的噪聲電壓的分佈函數應該爲。把 處作泰勒級數展開,獲得
(9)
    比較(8)和(9)這兩個式子,能夠獲得以下偏微分方程
    而這個方程就是物理上著名的擴散方程(diffusion equation),求解該方程就獲得
 
    又一次,咱們推導出了正態分佈!
    機率論沉思錄做者E.T.Jaynes對於這個推導的評價很高,認爲Landon的推導本質上給出了天然界的噪音造成的過程。他指出這個推導基本上就是中心極限定理的增量式版本,相比於中心極限定理來講,是一次性累加全部的因素,Landon的推導是每次在原有的分佈上去累加一個微小的擾動。而在這個推導中,咱們看到,正態分佈具備至關好的穩定性;只要數據中正態的模式已經造成,他就容易繼續保持正態分佈,不管外部累加的隨機噪聲 是什麼分佈,正態分佈就像一個黑洞同樣把這個累加噪聲吃掉。

5.四、正態分佈和最大熵

    還有一條小徑是基於最大熵原理的,物理學家E.T.Jaynes在最大熵原理上有很是重要的貢獻,他在《機率論沉思錄》裏面對這個方法有描述和證實,沒有提到發現者,不過難以確認這條道的發現者是不是Jaynes本人。
    熵在物理學中由來已久,信息論的創始人香農(Claude Elwood Shannon)把這個概念引入了信息論,讀者中不少人可能都知道目前機器學習中有一個很是好用的分類算法叫最大熵分類器。要想把熵和最大熵的前因後果說清楚可不容易,不過這條道的風景是至關獨特的,E.T.Jaynes對這條道也是偏心有加。
    對於一個機率分佈 ,咱們定義它的熵爲
    若是給定一個分佈函數 的均值 和方差 (給定均值和方差這個條件,也能夠描述爲給定一階原點矩和二階原點矩,這兩個條件是等價的)則在全部知足這兩個限制的機率分佈中,熵最大的機率分佈 就是正態分佈
    這個結論的推導數學上稍微有點複雜,不過若是已經猜到了給定限制條件下最大熵的分佈是正態分佈,要證實這個猜想倒是很簡單的,證實的思路以下。
    考慮兩個機率分佈 ,使用不等式 ,得
    因而

      (讀者注意:經好友白石指正,上述等式,右邊的第一項p(x)以後,1/p(x) 以前少畫了個log符號)

    因此
 
    熟悉信息論的讀者都知道,這個式子是信息論中的很著名的結論:一個機率分佈的熵老是小於相對熵。上式要取等號只有取
    對於 ,在給定的均值 和方差 下,咱們取 ,則能夠獲得
    因爲 的均值方差有以下限制: ,因而
    而當 的時候,上式能夠取到等號,這就證實告終論。

    E.T.Jaynes顯然對正態分佈具備這樣的性質極爲讚揚,由於這從信息論的角度證實了正態分佈的優良性。而咱們能夠看到,正態分佈熵的大小,取決於方差的大小。這也容易理解,由於正態分佈的均值和密度函數的形狀無關,正態分佈的形狀是由其方差決定的,而熵的大小反應機率分佈中的信息量,顯然和密度函數的形狀相關。
   所謂橫當作嶺側成峯,遠近高低各不一樣,正態分佈給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數學家龐加萊對正態分佈說過一段有意思的話,引用來做爲這個小節的結束:
    Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré

    OK,雖然上文已經花了如此多的篇幅講了那麼多的概念,然事實上,在機率論與數理統計中,上文所講的概念尚不到1/3,限於篇幅,還有諸多概念沒有闡述完畢,以下圖所示:


    So,如上,以前微博上http://weibo.com/1580904460/z9htU9VzT 說要寫的機率論與數理統計的科普blog已經初步整理完成(固然,後續一個星期以內會繼續修補完善)。從前天晚上開始,連續寫了兩天,花了半身力氣,文章如有任何問題,歡迎指正,尤能給出批評修訂意見,則倍感榮幸,謝謝。.同時,但全部以上這些絕大部分都只是機率論與數理統計的基礎知識,所以本文只能做個科普之效,若要深刻學習,仍是煩請讀者朋友們閱讀相關書籍,或加以動手實踐。

 

參考文獻及推薦閱讀

  1. 高等數學第六版上下冊,同濟大學數學系編;
  2. 微積分概念發展史,[美] 卡爾·B·波耶 著,唐生 譯;
  3. 機率論與數理統計,高教版,盛驟等編;
  4. 浙大版機率論與數理統計電子PPT課件;
  5. 數理統計學簡史,陳希孺院士著;
    (極力推薦上書,相信每個學機率統計的朋友都有必要看一看,同時,此書也是正態分佈的先後此生這一系列的主要參考)
  6. rickjin,正態分佈的先後此生:http://t.cn/zlH3Ygc 
  7. 正態分佈的先後此生系列集成版上:http://t.cn/zjJStYq,下:http://t.cn/zjoAtUQ
  8. 大嘴巴漫談數據挖掘:http://vdisk.weibo.com/s/bUbzJ
  9. 偏差論與最小平方法 & 數學傳播,蔡聰明;
  10. 正態分佈進入統計學的歷史演化,吳江霞;
  11. Probability Theory & The Logic of Science (機率論沉思錄),E.T. Jaynes 著; 
  12. 手寫數學公式編輯器:http://webdemo.visionobjects.com/equation.html?locale=zh_CN
  13. wikipedia上標準差:http://zh.wikipedia.org/wiki/%E6%A0%87%E5%87%86%E5%B7%AE
  14. 泊松分佈與機率分佈:http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88
  15. wikipedia上一堆概念;
  16. ....
 

後記

    本文以後,待寫的幾篇文章羅列以下,具體完成時間所有待定:
  1. 機器學習中相關的降維方法,如PCA/LDA等等;
  2. 神經網絡入門學習導論;
  3. 程序員編程藝術第二十八章~第二十九章  (2013年3月已經寫好,點擊左邊連接查看);
  4. ..
    在寫完 數據挖掘十大算法系列以後,還將寫一系列機器學習的相關筆記。此外,這是本文的微博地址: http://weibo.com/1580904460/zarZW2Jye,歡迎你們推薦轉發。最後,有一點必須說明的是,本文大部內容或參考或引用自上文所列的相關參考文獻中,本身只是作了個總結和梳理,附帶本身的一些理解,如有任何問題,歡迎讀者隨時交流 & 批評指正,謝謝你們。July、二零一二年十二月十九日。
相關文章
相關標籤/搜索