轉載自:https://cos.name/2013/01/story-of-normal-distribution-1/web
神說,要有正態分佈,就有了正態分佈。
神看正態分佈是好的,就讓隨機偏差服從了正態分佈。
創世紀—數理統計算法
1. 正態分佈,熟悉的陌生人框架
學過基礎統計學的同窗大都對正態分佈很是熟悉。這個鐘形的分佈曲線不但形狀優雅,它對應的密度函數寫成數學表達式dom
也很是具備數學的美感。其標準化後的機率密度函數機器學習
更加的簡潔漂亮,兩個最重要的數學常量 ππ、ee 都出如今這公式之中。在我我的的審美之中,它也屬於 top-N 的最美麗的數學公式之一,若是有人問我數理統計領域哪一個公式最能讓人感受到上帝的存在,那我必定投正態分佈的票。由於這個分佈戴着神祕的面紗,在天然界中無處不在,讓你在紛繁蕪雜的數據背後看到隱隱的秩序。ide
正態分佈又一般被稱爲高斯分佈,在科學領域,冠名權那是一個很高的榮譽。2002年之前去過德國的兄弟們還會發現,德國1991年至2001年間發行的的一款10馬克的紙幣上印着高斯(Carl Friedrich Gauss, 1777-1855)的頭像和正態密度曲線,而1977年東德發行的20馬克的可流通記念鋼鏰上,也印着正態分佈曲線和高斯的名字。正態分佈被冠名高斯分佈,咱們也容易認爲是高斯發現了正態分佈,其實否則,不太高斯對於正態分佈的歷史地位的確立是起到了決定性的做用。學習
正態曲線雖然看上去很美,卻不是一拍腦殼就能想到的。咱們在本科學習數理統計的時候,課本一上來介紹正態分佈就給出分佈密度函數,卻歷來不說明這個密度函數是經過什麼原理推導出來的。因此我一直搞不明白數學家當年是怎麼找到這個機率分佈曲線的,又是怎麼發現隨機偏差服從這個奇妙的分佈的。咱們在實踐中大量的使用正態分佈,卻對這個分佈的前因後果知之甚少,正態分佈真是讓人感受既熟悉又陌生。直到我讀研究生的時候,個人導師給我介紹了陳希儒院士的《數理統計學簡史》這本書,看了以後才瞭解了正態分佈曲線從發現到被人們重視進而普遍應用,也是通過了幾百年的歷史。spa
正態分佈的這段歷史是很精彩的,咱們經過講一系列的故事來揭開她的神祕面紗。
2. 邂逅,正態曲線的首次發現
第一個故事和機率論的發展密切相關,主角是棣莫弗(Abraham de Moivre, 1667-1754) 和拉普拉斯 (Pierre-Simon Laplace 1749-1827)。拉普拉斯是個大科學家,被稱爲法國的牛頓;棣莫弗名氣可能不算很大,不過你們應該都應該很熟悉這個名字,由於咱們在高中數學學複數的時候都學過棣莫弗公式
而棣莫弗所寫的《機遇論》(The doctrine of chances)是機率論發展歷史中很重要的一本書。牛頓對棣莫弗十分欣賞,遇到學生向他請教機率方面的問題時,他就說:「這樣的問題應該去找棣莫弗,他對這些問題的研究比我深刻得多。」
古典機率論發源於賭博,惠更斯(Christiaan Huygens, 1629-1695)、帕斯卡(Blaise Pascal, 1623-1662)、費馬(Pierre de Fermat, 1601-1665)、雅可比·貝努利(Jacob Bernoulli, 1654-1705)都是古典機率的奠定人,他們那會研究的機率問題大都來自賭桌上,最先的機率論問題是賭徒梅累在1654年向帕斯卡提出的如何分賭金的問題。統計學中的整體均值之因此被稱爲指望 (Expectation), 就是源自惠更斯、帕斯卡這些人研究平均狀況下一個賭徒在賭桌上能夠指望本身贏得多少錢。
有一天一個哥們,也許是個賭徒,向棣莫弗提了一個和賭博相關的問題:A、B 兩人在賭場裏賭博,A、B各自的獲勝機率是p,q=1−pp,q=1−p, 賭 nn 局。兩人約定:若 A 贏的局數 X>npX>np, 則 A 付給賭場 X−npX−np 元;若 X<npX<np,則B 付給賭場 np−Xnp−X元。 問賭場掙錢的指望值是多少。
問題並不複雜, 本質上是一個二項分佈,若 npnp 爲整數,棣莫弗求出最後的理論結果是
其中 b(n,p,i)=(ni)piqn−ib(n,p,i)=(ni)piqn−i 是常見的二項機率。 可是對具體的 nn, 由於其中的二項公式中有組合數,要把這個理論結果實際計算出數值結果可不是件容易的事, 這就驅動棣莫弗尋找近似計算的方法。
與此相關聯的另外一個問題,是聽從二項分佈的隨機變量 X∼B(n,p)X∼B(n,p), 求X 落在二項分佈中心點必定範圍的機率 Pd=P(|X–np|≤d)Pd=P(|X–np|≤d)。
對於 p=1/2p=1/2 的情形, 棣莫弗作了一些計算並獲得了一些近似結果,可是還不夠漂亮,幸運的是棣莫弗和斯特林(James Stirling, 1692-1770)處在同一個時代, 並且二人之間有聯繫,斯特林公式是在數學分析中必學的一個重要公式
事實上斯特林公式的雛形是棣莫弗最早獲得的,但斯特林改進了這個公式,改進的結果爲棣莫弗所用。1733 年,棣莫弗很快利用斯特林公式進行計算並取得了重要的進展。考慮 nn 是偶數的情形,二項機率爲
如下把b(n,12,i)b(n,12,i)簡記爲b(i)b(i), 經過斯特林公式作一些簡單的計算容易獲得,
因而有
使用上式的結果,並在二項機率累加求和的過程當中近似的使用定積分代替求和,很容易就能獲得
看,正態分佈的密度函數的形式在積分公式中出現了!這也就是咱們在數理統計課本上學到的一個重要結論:二項分佈的極限分佈是正態分佈。
以上只是討論了 p=1/2p=1/2 的情形, 棣莫弗也對 p≠1/2p≠1/2作了一些計算,後來拉普拉斯對 p≠1/2p≠1/2 的狀況作了更多的分析,並把二項分佈的正態近似推廣到了任意 pp的狀況。 這是第一次正態密度函數被數學家刻畫出來,並且是以二項分佈的極限分佈的形式被推導出來的。 熟悉基礎機率統計的同窗們都知道這個結果其實叫棣莫弗-拉普拉斯中心極限定理。
[棣莫弗-拉普拉斯中心極限定理]設隨機變量 Xn(n=1,2,⋯)Xn(n=1,2,⋯) 服從參數爲 n,pn,p 的二項分佈,則對任意的 xx, 恆有
咱們在大學學習數理統計的時候,學習的過程都是先學習正態分佈,而後才學習中心極限定理。而學習到正態分佈的時候,直接就描述了其機率密度的數學形式,雖然數學上很漂亮,可是容易困惑數學家們是如何憑空就找到這個分佈的。讀了陳希孺的《數理統計學簡史》以後,我才明白正態分佈的密度形式首次發現是在棣莫弗-拉普拉斯的中心極限定理中。數學家研究數學問題的進程不多是按照咱們數學課本編排的順序推動的,現代的數學課本都是按照數學內在的邏輯進行組織編排的,雖然邏輯結構上嚴謹優美,卻把數學問題研究的歷史痕跡抹得一乾二淨。DNA 雙螺旋結構的發現者之一詹姆斯·沃森(James D. Watson, 1928-) 在他的名著《DNA 雙螺旋》序言中說:「 Science seldom proceeds in the straightforward logical manner imagined by outsiders. (科學的發現不多會像門外漢所想象的同樣,按照直接了當合乎邏輯的方式進行的。)」
棣莫弗給出他的發現後40年(大約是1770年), 拉普拉斯創建了中心極限定理較通常的形式,中心極限定理隨後又被其餘數學家們推廣到了其它任意分佈的情形,而不限於二項分佈。後續的統計學家發現,一系列的重要統計量,在樣本量 NN 趨於無窮的時候, 其極限分佈都有正態的形式, 這構成了數理統計學中大樣本理論的基礎。
棣莫弗在二項分佈的計算中瞥見了正態曲線的模樣,不過他並無能展示這個曲線的美妙之處。棣莫弗的這個工做當時並無引發人們足夠的重視,緣由在於棣莫弗 不是個統計學家,從未從統計學的角度去考慮其工做的意義。 正態分佈(當時也沒有被命名爲正態分佈) 在當時也只是以極限分佈的形式出現,並無在統計學,尤爲是偏差分析中發揮做用。這也就是正態分佈最終沒有被冠名 棣莫弗分佈的重要緣由。 那高斯作了啥工做致使統計學家把正態分佈的這頂桂冠戴在了他的頭上呢?這先得從最小二乘法的發展提及。
3. 最小二乘法,數據分析的瑞士軍刀
第二個故事的主角是歐拉(Leonhard Euler, 1707-1783)、拉普拉斯、勒讓德 (Adrien-Marie Legendre, 1752–1833) 和高斯, 故事發生的時間是18世紀中到19世紀初。1七、18 世紀是科學發展的黃金年代,微積分的發展和牛頓萬有引力定律的創建,直接的推進了天文學和測地學的迅猛發展。當時的大科學家們都在考慮許多天文學上的問題,幾個典型的問題以下:
這些天文學和測地學的問題,無不涉及到數據的屢次測量、分析與計算;1七、18世紀的天文觀測,也積累了大量的數據須要進行分析和計算。不少年之前,學者們就已經經驗性的認爲,對於有偏差的測量數據,屢次測量取算術平均是比較好的處理方法。雖然缺少理論上的論證,也不斷的受到一些人的質疑,取算術平均做爲一種異常直觀的方式,已經被使用了千百年, 在多年積累的數據的處理經驗中也獲得至關程度的驗證,被認爲是一種良好的數據處理方法。
以上涉及的問題,咱們直接關心的目標量每每沒法直接觀測,可是一些相關的量是能夠觀測到的,而經過創建數學模型,最終能夠解出咱們關心的量。這些問題均可以用以下數學模型描述:咱們想估計的量是 β0,⋯,βpβ0,⋯,βp, 另有若干個能夠測量的量 x1,⋯,xp,yx1,⋯,xp,y, 這些量之間有線性關係
如何經過多組觀測數據求解出參數β0,⋯,βpβ0,⋯,βp呢? 歐拉和拉普拉斯採用的的方法都是求解以下線性方程組
可是面臨的一個問題是,有 nn 組觀測數據,p+1p+1 個變量, 若是 n>p+1n>p+1, 則獲得的線性矛盾方程組,沒法直接求解。 因此歐拉和拉普拉斯採用的方法都是經過對數據的必定的觀察,把nn個線性方程分爲 p+1p+1組,而後把每一個組內的方程線性求和後歸併爲一個方程,從而就把nn個方程的方程組化爲p+1p+1個方程的方程組,進一步解方程求解參數。這些方法初看有一些道理,可是都過於經驗化, 沒法造成統一處理這一類問題的通用解決框架。
以上求解線性矛盾方程的問題在如今的本科生看來都不困難,這就是統計學中的線性迴歸問題,直接用最小二乘法就解決了。但是即使如歐拉、拉普拉斯這些數學大牛,當時也未能對這些問題提出有效的解決方案。可見在科學研究中,要想在觀念上有所突破並不容易。有效的最小二乘法是勒讓德在 1805 年發表的,基本思想就是認爲測量中有偏差,因此全部方程的累積偏差爲
累積偏差 = ∑(∑( 觀測值 – 理論值 )2)2
咱們求解出致使累積偏差最小的參數
勒讓德在論文中對最小二乘法的優良性作了幾點說明:
對於最後一點,推理以下:假設真值爲 θθ, x1,⋯,xnx1,⋯,xn爲nn次測量值, 每次測量的偏差爲ei=xi–θei=xi–θ,按最小二乘法,偏差累積爲
求解θθ 使得 L(θ)L(θ)達到最小,正好是算術平均 x¯¯¯=∑ni=1xinx¯=∑i=1nxin。
因爲算術平均是一個歷經考驗的方法,而以上的推理說明,算術平均是最小二乘法的一個特例,因此從另外一個角度說明了最小二乘法的優良性,使咱們對最小二乘法更加有信心。
最小二乘法發表以後很快獲得了你們的承認接受,並迅速的在數據分析實踐中被普遍使用。不過歷史上又有人把最小二乘法的發明歸功於高斯,這又是怎麼一回事呢。高斯在1809 年也發表了最小二乘法,而且聲稱本身已經使用這個方法多年。高斯發明了小行星定位的數學方法,並在數據分析中使用最小二乘法進行計算,準確的預測了穀神星的位置。
扯了半天最小二乘法,沒看出和正態分佈有任何關係啊,離題了吧?單就最小二乘法自己,雖然很實用,不過看上去更多的算是一個代數方法,雖然能夠推導出最優解,對於解的偏差有多大,沒法給出有效的分析,而這個就是正態分佈粉墨登場發揮做用的地方。勒讓德提出的最小二乘法,確實是一把在數據分析領域披荊斬棘的好刀,可是刀刃仍是不夠鋒利;而這把刀的打造後來至少一半功勞被歸到高斯,是由於高斯不但獨自的給出了造刀的方法,並且把最小二乘這把刀的刀刃磨得無比鋒利,把最小二乘法打形成了一把瑞士軍刀。高斯拓展了最小二乘法,把正態分佈和最小二乘法聯繫在一塊兒,並使得正態分佈在統計偏差分析中確立了本身的地位,不然正態分佈就不會被稱爲高斯分佈了。 那高斯這位神人是如何把正態分佈引入到偏差分析之中,打造最小二乘法這把瑞士軍刀的呢?
4. 衆裏尋她千百度,偏差分佈曲線的確立
第三個故事有點長,主角是高斯和拉普拉斯,故事的主要內容是尋找隨機偏差分佈的規律。
天文學是第一個被測量偏差困擾的學科,從古代至18世紀天文學一直是應用數學最發達的領域,到18世紀,天文學的發展積累了大量的天文學數據須要分析計算,應該如何來處理數據中的觀測偏差成爲一個很棘手的問題。咱們在數據處理中常用平均的常識性法則,千百來來的數據使用經驗說明算術平均可以消除偏差,提升精度。算術平均有如此的魅力,道理何在,以前沒有人作過理論上的證實。算術平均的合理性問題在天文學的數據分析工做中被提出來討論:測量中的隨機偏差應該服從怎樣的機率分佈?算術平均的優良性和偏差的分佈有怎樣的密切聯繫?
伽利略在他著名的《關於兩個主要世界系統的對話》中,對偏差的分佈作過一些定性的描述,主要包括:
用數學的語言描述,也就是說偏差分佈的密度函數 f(x)f(x) 關於0對稱分佈,機率密度隨|x||x| 增長而減少,這兩個定性的描述都很符合常識。
許多天文學家和數學家開始了尋找偏差分佈曲線的嘗試。 天文學家辛普森(Thomas Simpson, 1710-1761) 先走出了有意義的一步。設真值爲 θθ, x1,⋯,xnx1,⋯,xn 爲n次測量值, 每次測量的偏差爲ei=xi–θei=xi–θ,若用算術平均 x¯¯¯=∑ni=1xinx¯=∑i=1nxin去估計θθ, 其偏差爲 e¯¯¯=∑ni=1eine¯=∑i=1nein。 辛普森證實了, 對於以下的一個機率分佈,
有以下結論
也就是說,|e¯¯¯||e¯| 相比於|ei||ei|取小值的機會更大。 辛普森的這個工做很粗糙,可是這是第一次在一個特定狀況下,從機率論的角度嚴格證實了算術平均的優良性。
從 1772-1774 年, 拉普拉斯也加入到了尋找偏差分佈密度函數的隊伍中。拉普拉斯假定偏差分佈密度函數f(x)f(x)對稱且知足
由此可求得分佈密度函數爲
這個機率密度函數如今被稱爲拉普拉斯分佈。
拉普拉斯的偏差分佈曲線
以該函數做爲偏差分佈,拉普拉斯開始考慮如何基於測量的結果去估計未知參數的值。拉普拉斯能夠算是一個貝葉斯主義者,他的參數估計的原則和現代貝葉斯方法很是類似:假設先驗分佈是均勻的,計算出參數的後驗分佈後,取後驗分佈的中值點,即1/21/2分位點,做爲參數估計值。但是基於這個偏差分佈密度函數作了一些計算以後,拉普拉斯發現計算過於複雜,最終沒能給出什麼有用的結果。
拉普拉斯但是機率論的大牛,寫過在機率發展歷史中極有影響力的《分析機率論》,不過以個人數學審美,實在沒法理解拉普拉斯這樣的牛人怎麼找了一個零點不可導的函數做爲偏差的分佈密度函數,拉普拉斯最終仍是沒能搞定偏差分佈的問題。
如今輪到高斯登場了,高斯在數學史中的地位極高,年輕的時候號稱數學王子,後來被稱爲數學家中的老狐狸,數學家阿貝爾 (Niels Henrik Abel, 1802-1829) 對他的評論是 :「高斯像一隻狐狸,用尾巴將沙地上的足跡抹去(He is like the fox, who effaces his tracks in the sand with his tail) 。」 咱們的數學大師陳省身把黎曼(Georg Friedrich Bernhard Riemann,1826-1866) 和龐加萊(Jules Henri Poincaré, 1854-1912)稱爲數學家中的菩薩,而稱本身爲羅漢;高斯是黎曼的導師,數學圈裏有些教授把高斯稱爲數學家中的佛。 在數學家中既能仰望理論數學的星空,又能腳踏應用數學的實地的可很少見,高斯是數學家中少有的頂」天「立」地「的人物,它既對純理論數學有深入的洞察力,又極其重視數學在實踐中的應用。 在偏差分佈的處理中,高斯以極其簡單的手法確立了隨機偏差的機率分佈,其結果成爲數理統計發展史上的一塊里程碑。
高斯的介入首先要從天文學界的一個事件提及。1801年1月,天文學家朱塞普·皮亞齊 (Giuseppe Piazzi, 1746-1826)發現了一顆從未見過的光度8等的星在移動,這顆如今被稱做穀神星(Ceres)的小行星在夜空中出現6個星期,掃過八度角後就在太陽的光芒下沒了蹤跡,沒法觀測。而留下的觀測數據有限,難以計算出他的軌道,天文學家也所以沒法肯定這顆新星是彗星仍是行星,這個問題很快成了學術界關注的焦點。高斯當時已是頗有名望的年輕數學家了,這個問題引發了他的興趣。高斯以其卓越的數學才能創立了一種嶄新的行星軌道的計算方法,一個小時以內就計算出了穀神星的軌道,並預言了他在夜空中出現的時間和位置。 1801年12月31 日夜,德國天文愛好者奧伯斯(Heinrich Olbers, 1758-1840),在高斯預言的時間裏,用望遠鏡對準了這片天空。果真不出所料,穀神星出現了!
高斯爲此名聲大震,可是高斯當時拒絕透露計算軌道的方法,緣由多是高斯認爲本身的方法的理論基礎還不夠成熟,而高斯一貫治學嚴謹、精益求精,不輕易發表沒有思考成熟的理論。直到1809年高斯系統地完善了相關的數學理論後,纔將他的方法公佈於衆,而其中使用的數據分析方法,就是以正態偏差分佈爲基礎的最小二乘法。那高斯是如何推導出偏差分佈爲正態分佈的?讓咱們看看高斯是如何猜想上帝的意圖的。
設真值爲 θθ, x1,⋯,xnx1,⋯,xn爲nn次獨立測量值, 每次測量的偏差爲ei=xi–θei=xi–θ,假設偏差eiei的密度函數爲 f(e)f(e), 則測量值的聯合機率爲nn個偏差的聯合機率,記爲
可是高斯不採用貝葉斯的推理方式,而是直接取使L(θ)L(θ)達到最大值的 θ^=θ^(x1,⋯,xn)θ^=θ^(x1,⋯,xn) 做爲θθ的估計值,即
如今咱們把L(θ)L(θ) 稱爲樣本的似然函數,而獲得的估計值θ^θ^ 稱爲極大似然估計。高斯首次給出了極大似然的思想,這個思想後來被統計學家費希爾系統的發展成爲參數估計中的極大似然估計理論。
數學家波利亞(George Pólya, 1887-1985)說過:「要成爲一個好的數學家,……,你必須首先是一個好的猜測家(To be a good mathematician,…, you must be a good guesser)。」歷史上一流的數學家都是偉大的猜測家。高斯接下來的想法特別牛,他開始揣度上帝的意圖,而這充分體現了高斯的數學天才。高斯把整個問題的思考模式倒過來:既然千百年來你們都認爲算術平均是一個好的估計,那我就認爲極大似然估計導出的就應該是算術平均!因此高斯猜想上帝在創世紀中的旨意就是:
偏差分佈導出的極大似然估計 = 算術平均值
而後高斯去找偏差密度函數 ff 以迎合這一點。即尋找這樣的機率分佈密度函數 ff, 使得極大似然估計正好是算術平均 θ^=x¯¯¯θ^=x¯。而高斯應用數學技巧求解這個函數ff, 高斯證實(證實不難,後續給出),全部的機率密度函數中,惟一知足這個性質的就是
瞧,正態分佈的密度函數 N(0,σ2)N(0,σ2) 被高斯他老人家給解出來了!
進一步,高斯基於這個偏差分佈的密度函數對最小二乘法給出了一個很漂亮的解釋。對於最小二乘公式中涉及的每一個偏差 eiei, 因爲偏差服從機率分佈 N(0,σ2)N(0,σ2), 則(e1,⋯,en)(e1,⋯,en) 的機率爲
要使得這個機率最大,必須使得∑ni=1e2i∑i=1nei2 取最小值,這正好就是最小二乘法的要求。
高斯所拓展的最小二乘法成爲了19世紀統計學的最重要成就,它在19世紀統計學的重要性就至關於18世紀的微積分之於數學。而勒讓德和高斯的關於最小二乘法的發明權之爭,成了數學史上僅次於牛頓、萊布尼茨微積分發明權的爭端。相比于勒讓德1805年給出的最小二乘法描述,高斯基於偏差正態分佈的最小二乘理論顯然更高一籌,高斯的工做中既提出了極大似然估計的思想,又解決了偏差的機率密度分佈的問題,由此咱們能夠對偏差大小的影響進行統計度量了。高斯的這項工做對後世的影響極大,而正態分佈也所以被冠名高斯分佈。估計高斯本人當時是徹底沒有意識到他的這個工做給現代數理統計學帶來的深入影響。高斯在數學上的貢獻特多,去世前他是要求給本身的墓碑上雕刻上正十七邊形,以說明他在正十七邊形尺規做圖上的傑出工做。然後世的德國鈔票和鋼鏰上是以正態密度曲線來記念高斯,這足以說明高斯的這項工做在當代科學發展中的份量。
1七、18世紀科學界流行的作法,是儘量從某種簡單明瞭的準則(first principle)出發進行邏輯推導。高斯設定了準則「最大似然估計應該導出優良的算術平均」,並導出了偏差服從正態分佈,推導的形式上很是簡潔優美。可是高斯給的準則在邏輯上並不足以讓人徹底信服,由於算術平均的優良性當時更多的是一個經驗直覺,缺少嚴格的理論支持。高斯的推導存在循環論證的味道:由於算術平均是優良的,推出偏差必須服從正態分佈;反過來,又基於正態分佈推導出最小二乘法和算術平均,來講明最小二乘法和算術平均的優良性。這陷入了一個雞生蛋蛋生雞的怪圈,邏輯上算術平均的優良性到底有沒有自行成立的理由呢?
高斯的文章發表以後,拉普拉斯很快得知了高斯的工做。拉普拉斯看到,正態分佈既能夠從拋鋼鏰產生的序列和中生成出來,又能夠被優雅的做爲偏差分佈定律,這難道是偶然現象?拉普拉斯不愧爲機率論的大牛,他立刻將偏差的正態分佈理論和中心極限定理聯繫起來,提出了元偏差解釋。他指出若是偏差能夠當作許多微小量的疊加,則根據他的中心極限定理,隨機偏差理所應當是高斯分佈。而20世紀中心極限定理的進一步發展,也給這個解釋提供了更多的理論支持。所以以這個解釋爲出發點,高斯的循環論證的圈子就能夠打破。 估計拉普拉斯悟出這個結論以後必定想撞牆,本身辛辛苦苦尋尋覓覓了這麼久的偏差分佈曲線就在本身的眼皮底下,本身卻終年視而不見,被高斯佔了先機。
至此,偏差分佈曲線的尋找塵埃落定,正態分佈在偏差分析中確立了本身的地位,並在整個19世紀不斷的開疆擴土,直至在統計學中鶴立雞羣,傲世其它一切機率分佈;而高斯和拉普拉斯的工做,爲現代統計學的發展開啓了一扇大門。
在整個正態分佈被發現與應用的歷史中,棣莫弗、拉普拉斯、高斯各有貢獻,拉普拉斯從中心極限定理的角度解釋它,高斯把它應用在偏差分析中,異曲同工。正態分佈被人們發現有這麼好的性質,各國人民都爭搶它的冠名權。由於拉普拉斯是法國人,因此當時在法國被稱爲拉普拉斯分佈;而高斯是德國人, 因此在德國叫作高斯分佈;第三中立國的人民稱他爲拉普拉斯-高斯分佈。後來法國的大數學家龐加萊建議改用正態分佈這一中立名稱, 而隨後統計學家卡爾·皮爾森使得這個名稱被普遍接受:
Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another 「abnormal」.
—Karl Pearson (1920)
不過由於高斯在數學家中的名氣實在是太大, 正態分佈的桂冠仍是更多地被戴在了高斯的腦門上,目前數學界通行的用語是正態分佈、高斯分佈, 二者並用。
正態分佈在高斯的推進下,迅速在測量偏差分析中被普遍使用,然而早期也僅限於測量偏差的分析中,其重要性遠沒有被天然科學和社會科學領域中的學者們所認識,那正態分佈是如何從測量偏差分析的小溪,衝向天然科學和社會科學的汪洋大海的呢?
5. 曲徑通幽處,禪房花木深
在介紹正態分佈的後續發展以前,咱們來多講一點數學,也許有些人會以爲枯燥,不太高斯曾經說過:「數學是上帝的語言」;因此要想更加深刻的理解正態分佈的美,惟有藉助於上帝的語言。
造物主造物的準則每每是簡單明瞭的,只是在紛繁蕪雜的萬物之中,咱們要發現並領會它並不是易事。以前提到過,1七、18世紀科學界流行的作法,是儘量從某種簡單明瞭的準則出發做爲科學探求的起點;然後來的數學家和物理學家們的研究發現,多次從一些給定的簡單的準則出發, 咱們老是被引領到了正態分佈的家門口,這讓人感受到正態分佈的美妙。
達爾文的表弟高爾頓是生物學家兼統計學家,他對正態分佈很是的推崇與讚美:」我幾乎未曾見過像偏差呈正態分佈這麼激發人們無窮想象的宇宙秩序「。當代兩位偉大的機率學家列維(Paul Pierre Lévy, 1886-1971) 和卡克(Mark Kac, 1914-1984) 都曾經說過,正態分佈是他們切入機率論的初戀情人,具備無窮的魅力。若是古希臘人知道正態分佈,想必奧林匹斯山的神殿裏會多出一個正態女神,由她來掌管世間的混沌。
要拉下正態分佈的神祕面紗展示她的美麗,須要高深的機率論知識,本人在數學方面知識淺薄,不能勝任。只能在極爲有限的範圍內嘗試掀開她的面紗的一角。棣莫弗和拉普拉斯以拋鋼鏰的序列求和爲出發點,沿着一條小徑第一次把咱們領到了正態分佈的家門口,這條路叫作中心極限定理。而這條路上風景秀麗,許多機率學家都爲之傾倒。這條路在二十世紀被機率學家們越拓越寬,成爲了通往正態曲線的一條康莊大道。而數學家和物理學家們發現:條條小路通正態。著名的物理學家傑恩斯(Edwin Thompson Jaynes, 1922-1998) 在他的名著《機率論沉思錄(Probability Theory: the Logic of Science)》中,描繪了四條通往正態分佈的小徑;曲徑通幽處,禪房花木深,讓咱們一塊兒來欣賞一下這四條小徑上的風景吧。
5.1 高斯(1809)的推導
第一條小徑是高斯找到的,高斯以以下準則做爲小徑的出發點
偏差分佈導出的極大似然估計 = 算術平均值
設真值爲 θθ, x1,⋯,xnx1,⋯,xn爲n次獨立測量值, 每次測量的偏差爲ei=xi–θei=xi–θ,假設偏差eiei的密度函數爲 f(e)f(e), 則測量值的聯合機率爲nn個偏差的聯合機率,記爲
爲求極大似然估計,令
整理後能夠獲得
令 g(x)=f′(x)f(x)g(x)=f′(x)f(x),
因爲高斯假設極大似然估計的解就是算術平均 x¯x¯,把解代入上式,能夠獲得
(1)式中取 n=2n=2, 有
因爲此時有 x1−x¯=−(x2−x¯)x1−x¯=−(x2−x¯), 而且 x1,x2x1,x2 是任意的,由此獲得
(1)式中再取 n=m+1n=m+1, 而且要求 x1=⋯=xm=−x,xm+1=mxx1=⋯=xm=−x,xm+1=mx, 則有 x¯=0x¯=0, 而且
因此獲得
而知足上式的惟一的連續函數就是 g(x)=cxg(x)=cx, 從而進一步能夠求解出
因爲f(x)f(x)是機率密度函數,把f(x)f(x) 正規化一下就獲得均值爲00的正態分佈密度函數
N(0,σ2)N(0,σ2)。
5.2 赫歇爾(1850)和麥克斯韋(1860) 的推導
第二條小徑是天文學家赫歇爾(John Frederick William Herschel, 1792-1871)和物理學家麥克斯韋(James Clerk Maxwell, 1831-1879) 發現的。 1850年,天文學家赫歇爾在對星星的位置進行測量的時候,須要考慮二維的偏差分佈,爲了推導這個偏差的機率密度分佈
p(x,y)p(x,y),赫歇爾設置了兩個準則:
這兩個準則對於赫歇爾考慮的實際測量問題看起來都很合理。由第一條準則,能夠獲得 p(x,y)p(x,y) 應該具備以下形式
把這個函數轉換爲極座標,在極座標下的機率密度函數設爲 g(r,θ)g(r,θ), 有
由第二條準則, g(r,θ)g(r,θ) 具備旋轉對稱性,也就是應該和 θθ 無關, 因此 g(r,θ)=g(r)g(r,θ)=g(r), 綜上所述,咱們能夠獲得
取 y=0y=0, 獲得 g(x)=f(x)f(0)g(x)=f(x)f(0), 因此上式能夠轉換爲
令 log[f(x)f(0)]=h(x)log[f(x)f(0)]=h(x), 則有
從這個函數方程中能夠解出 h(x)=ax2h(x)=ax2, 從而能夠獲得 f(x)f(x) 的通常形式以下
而 f(x)f(x) 就是正態分佈 N(0,1/2α)−−−√N(0,1/2α), 從而 p(x,y)p(x,y) 就是標準二維正態
分佈的密度函數
1860 年,偉大的物理學家麥克斯韋在考慮氣體分子的運動速度分佈的時候,在三維空間中基於相似的準則推導出了氣體分子運動的分佈是正態分佈 ρ(vx,vy,vz)∝exp{−α(v2x+v2y+v2z)}ρ(vx,vy,vz)∝exp{−α(vx2+vy2+vz2)}。這就是著名的麥克斯韋分子速率分佈定律。你們還記得咱們在普通物理中學過的麥克斯韋-波爾茲曼氣體速率分佈定律嗎?
因此這個分佈實際上是三個正態分佈的乘積, 你的物理老師是否告訴過你其實這個分佈就是三維正態分佈?
赫歇爾-麥克斯韋推導的神妙之處在於,沒有利用任何機率論的知識,只是基於空間幾何的不變性,就推導出了正態分佈。美國諾貝爾獎物理學家費曼(Richard Feymann,1918-1988) 每次看到一個有 ππ的數學公式的時候,就會問:圓在哪裏?這個推導中使用到了 x2+y2x2+y2, 也就是告訴咱們正態分佈密度公式中有個ππ, 其根源在於二維正態分佈中的等高線剛好是個圓。
5.3 蘭登(1941)的推導
第三條道是一位電氣工程師蘭登(Vernon D. Landon)給出的。1941 年, 蘭登研究通訊電路中的噪聲電壓,經過分析經驗數據他發現噪聲電壓的分佈模式很類似,不一樣的是分佈的層級,而這個層級可使用方差 σ2σ2 來刻畫。所以他推理認爲噪聲電壓的分佈密度函數形式是 p(x;σ2)p(x;σ2)。假設原來的電壓爲X, 累加了一個相對其方差 σσ而言很微小的偏差擾動 ϵϵ, ϵϵ 的機率密度是 q(e)q(e), 那麼新的噪聲電壓是 X′=X+ϵX′=X+ϵ。 蘭登提出了以下的準則
用數學的語言描述: 若是
則有
如今咱們來推導函數p(x;σ2)p(x;σ2) 應該長成啥樣。按照兩個隨機變量和的分佈的計算方式, X′X′ 的分佈密度函數將是 XX 的分佈密度函數和 ϵϵ的分佈密度函數的卷積,即有
把 p(x′−e;σ2)p(x′−e;σ2) 在x′x′處作泰勒級數展開(爲了方便,展開後把自變量由 x′x′ 替換爲 xx), 上式能夠展開爲
將p(x;σ2)p(x;σ2)簡記爲pp,則有
對於微小的隨機擾動 ϵϵ, 咱們認爲他取正值或者負值是對稱的,因此 ϵ¯=0ϵ¯=0。因此有
對於新的噪聲電壓 X′=X+ϵX′=X+ϵ, 方差由σ2σ2 增長爲 σ2+var(ϵ)=σ2+ϵ2¯¯¯¯σ2+var(ϵ)=σ2+ϵ2¯,因此按照蘭登的分佈密度函數模式不變的假設, 新的噪聲電壓的分佈密度函數應該爲 f(x)=p(x;σ2+ϵ2¯¯¯¯)f(x)=p(x;σ2+ϵ2¯)。把p(x;σ2+ϵ2¯¯¯¯)p(x;σ2+ϵ2¯) 在 σ2σ2 處作泰勒級數展開,獲得
比較 (2) 和 (3) 這兩個式子,能夠獲得以下偏微分方程
而這個方程就是物理上著名的擴散方程(diffusion equation),求解該方程就獲得
又一次,咱們推導出了正態分佈!
傑恩斯對於這個推導的評價很高,認爲蘭登 的推導本質上給出了天然界的噪音造成過程。他指出這個推導這基本上就是中心極限定理的增量式版本,相比於中心極限定理是一次性累加全部的因素,蘭登 的推導是每次在原有的分佈上去累加一個微小的擾動。而在這個推導中,咱們看到,正態分佈具備至關好的穩定性;只要數據中正態的模式已經造成,他就容易繼續保持正態分佈,不管外部累加的隨機噪聲 q(e)q(e) 是什麼分佈,正態分佈就像一個黑洞同樣把這個累加噪聲吃掉。
5.4 基於最大熵的推導
還有一條小徑是基於最大熵原理的, 物理學家傑恩斯在最大熵原理上有很是重要的貢獻,他在《機率論沉思錄》裏面對這個方法有描述和證實,沒有提到發現者,我不確認這條道的發現者是不是傑恩斯本人。
熵在物理學中由來已久,信息論的創始人香農(Claude Elwood Shannon, 1916-2001)把這個概念引入了信息論,學習機器學習的同窗們都知道目前機器學習中有一個很是好用的分類算法叫最大熵分類器。要想把熵和最大熵的前因後果說清楚可不容易,不過這條道的風景是至關獨特的,傑恩斯對這條道也是偏心有加。
對於一個機率分佈 p(x)p(x), 咱們定義他的熵爲
若是給定一個分佈密度函數 p(x)p(x) 的均值 μμ 和方差 σ2σ2(給定均值和方差這個條件,也能夠描述爲給定一階原點矩和二階原點矩,這兩個條件是等價的), 則在全部知足這兩個限制的機率分佈中,熵最大的機率分佈 p(x|μ,σ2)p(x|μ,σ2) 就是正態分佈 N(μ,σ2)N(μ,σ2)。
這個結論的推導數學上稍微有點複雜,不過若是已經猜到了給定限制條件下最大熵的分佈是正態分佈,要證實這個猜想倒是很簡單的,證實的思路以下。
考慮兩個機率分佈 p(x)p(x)和q(x)q(x),使用不等式 logx≤(x−1)logx≤(x−1), 得
因而
因此
熟悉信息論的同窗都知道,這個式子是信息論中的很著名的結論:一個機率分佈的熵老是小於相對熵。上式要取等號當且僅當q(x)=p(x)q(x)=p(x)。
對於 p(x)p(x), 在給定的均值 μμ 和方差 σ2σ2下, 咱們取q(x)=N(μ,σ2)q(x)=N(μ,σ2), 則能夠獲得
因爲 p(x)p(x) 的均值方差有以下限制
因而
而當p(x)=N(μ,σ2)p(x)=N(μ,σ2)的時候,上式能夠取到等號,這就證實告終論。
傑恩斯顯然對正態分佈具備這樣的性質極爲讚揚,由於這從信息論的角度證實了正態分佈的優良性。而咱們能夠看到,正態分佈熵的大小,取決於方差的大小。 這也容易理解, 由於正態分佈的均值和密度函數的形狀無關,正態分佈的形狀是由其方差決定的,而熵的大小反應機率分佈中的信息量,顯然和密度函數的形狀相關。
好的,風景欣賞暫時告一段落。所謂「橫當作嶺側成峯,遠近高低各不一樣」,正態分佈給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數學家龐加萊對正態分佈說過一段有意思的話,引用來做爲這個小節的結束:
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics. (物理學家認爲高斯分佈已經在數學上獲得證實,而數學家則認爲高斯分佈在物理試驗中得到確認。)
— Henri Poincaré