正態分佈的前世此生(下)(轉載)

轉載自:https://cos.name/2013/01/story-of-normal-distribution-2/web

6. 開疆拓土,正態分佈的進一步發展函數

19世紀初,隨着拉普拉斯中心極限定理的創建與高斯正態偏差理論的問世,正態分佈開始嶄露頭角,逐步在近代機率論和數理統計學中大放異彩。在機率論中,因爲拉普拉斯的推進,中心極限定理髮展成爲現代機率論的一塊基石。而在數理統計學中,在高斯的大力提倡之下,正態分佈開始逐步暢行於天下。工具

6.1 論劍中心極限定理學習

先來講說正態分佈在機率論中的地位,這個主要是因爲中心極限定理的影響。 1776 年,拉普拉斯開始考慮一個天文學中的彗星軌道的傾角的計算問題,最終的問題涉及獨立隨機變量求和的機率計算,也就是計算以下的機率值ui

Sn=X1+X2++Xn Sn=X1+X2+⋯+Xn

 

P(a<Sn<b)=?P(a<Sn<b)=?

 

在這個問題的處理上,拉普拉斯充分展現了其深厚的數學分析功底和高超的機率計算技巧,他首次引入了特徵函數(也就是對機率密度函數作傅立葉變換)來處理機率分佈的神妙方法,而這一方法通過幾代機率學家的發展,在現代機率論裏面佔有極其重要的位置。基於這一分析方法,拉普拉斯經過近似計算,在他的1812年發表的名著《機率分析理論》中給出了中心極限定理的通常描述:atom

定理:[拉普拉斯, 1812]  ei(i=1,n)ei(i=1,⋯n) 爲獨立同分布的測量偏差,具備均值μμ 和方差 σ2σ2。若是 λ1,,λ2λ1,⋯,λ2 爲常數, a>0a>0, 則有
spa

P(∣∣∣i=1nλi(eiμ)∣∣∣ai=1nλ2i−−−−−√)22π−−√σa0ex22σ2dx.P(|∑i=1nλi(ei–μ)|≤a∑i=1nλi2)≈22πσ∫0ae−x22σ2dx.

 

這已是比棣莫弗-拉普拉斯中心極限定理更加深入的一個結論了,理科專業的本科生學習《機率論與數理統計》這門課程的時候,一般學習的中心極限定理的通常形式以下:設計

[林德伯格-列維 中心極限定理] 設X1,,XnX1,⋯,Xn 獨立同分布,且具備有限的均值 μμ 和方差 σ2σ2 ,則在 nn→∞ 時,有
orm

n−−√(X¯¯¯¯μ)σN(0,1).n(X¯–μ)σ→N(0,1).

 

多麼奇妙的性質,隨意的一個機率分佈中生成的隨機變量,在序列和(或者等價的求算術平均)的操做之下,表現出如此一致的行爲,統一的規約到正態分佈。xml

central_limit_theorem中心極限定理

機率學家們進一步的研究結果更加使人驚訝,序列求和最終要導出正態分佈的條件並不須要這麼苛刻,即使 X1,,XnX1,⋯,Xn 並不獨立,也不具備相同的機率分佈形式,不少時候他們求和的最終的歸宿仍然是正態分佈。一切的紛繁蕪雜都在神祕的正態曲線下被消解,這不由使人浮想聯翩。中心極限定理恐怕是機率論中最具備宗教神祕色彩的定理,若是有一位牧師拿着一本聖經向我證實上帝的存在,我是絲絕不會買帳;但是若是他向我展現中心極限定理而且聲稱那是神蹟,我可能會有點猶豫,從而樂意傾聽他的佈道。若是我能坐着時光機穿越到一個原始部落中,我也必定帶上中心極限定理,並勸說部落的酋長把正態分佈做爲他們的圖騰。

中心極限定理雖然表述形式簡潔,可是嚴格證實它卻很是困難。中心極限定理就像一張大蜘蛛網,棣莫弗和拉普拉斯編織了它的雛形,但是這張網上漏洞太多,一個多世紀來,數學家們就像蜘蛛同樣前赴後繼,努力想把全部的漏洞都補上。在19世紀,泊松 (Siméon Denis Poisson, 1781-1840)、狄利克萊(Gustav Lejeune Dirichlet, 1805-1859)、柯西(Augustin-Louis Cauchy, 1789-1857)、貝塞爾(Friedrich Bessel, 1784-1846)這些大蜘蛛都曾經試圖對把這張網上的漏洞補上。從現代機率論的角度來看,整個19世紀的經典機率理論並無能輸出一個通常意義下嚴格的證實。而真正把漏洞補上的是來自俄羅斯的幾位蜘蛛俠:切比雪夫(Pafnuty Chebyshev, 1821-1894)、馬爾可夫(Andrey Andreyevich Markov, 1856-1922)和李雅普諾夫(Aleksandr Mikhailovich Lyapunov, 1857-1918)。俄羅斯是一個具備優秀的數學傳統的民族,產生過幾位頂尖的的數學家,在現代機率論的發展中,俄羅斯的聖彼得堡學派能夠算是頂了半邊天。把漏洞補上的嚴格方案的雛形是從切比雪夫 1887年的工做開始的,不過切比雪夫的證實存在一些漏洞。馬爾可夫和李雅普諾夫都是切比雪夫的學生,馬爾科夫沿着老師的基於矩法的思路在蜘蛛網上辛勤編織,但洞仍是補得不夠嚴實;李雅普諾夫不像馬爾可夫那樣深受老師的影響,他沿着拉普拉斯當年提出的基於特徵函數的思路,於1901年給出了一個補洞的方法,切比雪夫對這個方法大加讚揚,李雅普諾夫的證實被認爲是第一個在通常條件下的嚴格證實;而馬爾科夫也不甘示弱,在 1913年基於矩法也把洞給補嚴實了。

 

clt_proof華山論劍

20世紀初期到中期,中心極限定理的研究幾乎吸引了全部的機率學家,這個定理儼然成爲了機率論的明珠,成爲了各大機率論武林高手華山論劍的場所。不知道你們對中心極限定理中的「中心」一詞如何理解,許多人都認爲「中心」這個詞描述的是這個定理的行爲:以正態分佈爲中心。這個解釋看起來確實合情合理,不過並不符合該定理被冠名的歷史。事實上,20世紀初機率學家大都稱呼該定理爲極限定理(Limit Theorem),因爲該定理在機率論中處於如此重要的中心位置,如此之多的機率學武林高手爲它魂牽夢繞,因而數學家波利亞於1920年在該定理前面冠以「中心」一詞,由此後續人們都稱之爲中心極限定理。

數學家們老是極其嚴謹苛刻的,給定了一個條件下嚴格證實了中心極限定理。數學家就開始探尋中心極限定理成立的各類條件,詢問這個條件是否充分必要條件,而且進一步追問序列和在該條件下以什麼樣的速度收斂到正態分佈。1922年林德伯格(Jarl Waldemar Lindeberg, 1876-1932) 基於一個比較寬泛容易知足的條件,給中心極限定理提出了一個很容易理解的初等證實,這個條件咱們如今稱之爲林德伯格條件。而後機率學家費勒 (William Feller, 1906-1970) 和列維就開始追問林德伯格 條件是充分必要的嗎?基於林德伯格的工做, 費勒和列維都於 1935 年獨立的獲得了中心極限定理成立的充分必要條件,這個條件能夠用直觀的非數學語言描述以下:

[中心極限定理充要條件] 假設獨立隨機變量序列 XiXi 的中值爲0, 要使序列和 S=i=1nXiS=∑i=1nXi 的分佈密度函數逼近正態分佈,如下條件是充分必要的

  • 若是 XiXi相對於序列和SS的散佈(也就是標準差)是不可忽略的,則 XiXi 的分佈必須接近正態分佈
  • 對於全部可忽略的 XiXi, 取絕對值最大的那一項,這個絕對值相對於序列和也是可忽略的

事實上這個充分必要條件發現的優先權,費勒和列維之間還着實出現了一些爭論,固然他們倆都是獨立的幾乎在同一時間解決了這個問題。在列維證實這個充分必要條件的過程當中,列維發現了正態分佈的一個有趣的性質:咱們在數理統計中都學過,若是兩個獨立隨機變量 X,YX,Y 具備正態分佈,則S=X+YS=X+Y 也具備正態分佈;奇妙的是這個定理的逆定理也成立:

[正態分佈的血統] 若是 X,YX,Y 是獨立的隨機變量,且 S=X+YS=X+Y 是正態分佈,那麼X,YX,Y 也是正態分佈。

正態分佈真是很奇妙,就像蚯蚓同樣具備再生的性質,你把它一刀兩斷,它生成兩個正態分佈;或者說正態分佈具備極其高貴的優良血統,正態分佈的組成成分中只能包含正態分佈,而不可能含有其它雜質。一流的數學家都是接近上帝的人,善於猜想上帝的意圖; 1928 年 列維就猜到了這個定理,並在1935年使用這個定理對中心極限定理的充分必要條件做了證實。有意思的是列維卻沒法證實正態分佈的這個看上去極其簡單的再生性質,因此他的證實多少讓人以爲有些瑕疵。不過列維的救星很快就降臨了,1936 年幾率學家克拉美(Harald Cramér, 1893-1985)證實列維的猜測徹底正確。

中心極限定理成爲了現代機率論中數一數二的定理,事實上中心極限定理在現代機率論裏面已經不是指一個定理,而是指一系列相關的定理。統計學家們也基於該定理不斷的完善拉普拉斯提出的元偏差理論,並據此解釋爲什麼世界上正態分佈如此常見。而中心極限定理同時成爲了現代統計學中大樣本理論的基礎。

6.2 進軍近代統計學

花開兩朵,各表一枝。上面說了正態分佈在機率論中的發展,如今來看看正態分佈在數理統計學中發展的故事。這個故事的領銜主演是凱特勒(Adolphe Quetelet, 1796-1874)和高爾頓 (Francis Galton, 1822-1911)。

galton_quetelet凱特勒和高爾頓

因爲高斯的工做,正態分佈在偏差分析中迅速肯定了本身的地位。有了這麼好的工具,咱們可能拍腦殼就認爲,正態分佈很快就被人們用來分析其它的數據,然而事實卻出乎咱們的意料,正態分佈進入社會領域和天然科學領域,但是通過一番周折的。

首先我要告訴你們一個事實:偏差分析和統計學是風馬牛不相及的兩個學科;固然這個事實存在的時間是19世紀初以前。統計學的產生最初是與「編制國情報告」有關,主要服務於政府部門。統計學面對的是統計數據,是對多個不一樣對象的測量;而偏差分析研究的是觀測數據,是對同一個對象的屢次測量。所以觀測數據和統計數據在當時被認爲是兩種不一樣行爲獲取獲得的數據,適用於觀測數據的規律未必適用於統計數據。 19世紀的統計數據分析處於一個很落後的狀態,和機率論沒有多少結合。機率論的產生主要和賭博相關,發展過程當中與偏差分析緊密聯繫,而與當時的統計學交集很是小。將統計學與機率論真正結合起來推進數理統計學發展的即是咱們的統計學巨星凱特勒。

凱特勒這名字或許不如其它數學家那麼響亮,估計不少人不熟悉,因此有必要介紹一下。 凱特勒是比利時人,數學博士畢業,年輕的時候曾追隨拉普拉斯學習過幾率論。此人學識淵博,涉獵普遍,腦門上的桂冠包括統計學家、數學家、天文學家、社會學家、國際統計會議之父、近代統計學之父、數理統計學派創始人。 凱特勒 的最大的貢獻就是將法國的古典機率理論引入統計學,用純數學的方法對社會現象進行研究。

1831年,凱特勒參與主持新建比利時統計總局的工做。他開始從事有關人口問題的統計學研究。在這種研究中,凱特勒發現,以往被人們認爲雜亂無章的、偶然性佔統治地位的社會現象,如同天然現象同樣也具備必定的規律性。 凱特勒 蒐集了大量關於人體生理測量的數據,如體重、身高與胸圍等,並使用機率統計方法來對數據進行數據分析。可是當時的統計分析方法遭到了社會學家的質疑,社會學家們的反對意見主要在於:社會問題與科學實驗不一樣,其數據通常由觀察獲得,沒法控制且常常不瞭解其異質因素,這樣數據的同質性連帶其分析結果每每就有了問題,因而社會統計工做者就面臨一個如何判斷數據同質性的問題。凱特勒大膽地提出:

normal_fitness把一批數據是否能很好地擬合正態分佈,做爲判斷該批數據同質的標準。

凱特勒提出了一個使用正態曲線擬合數據的方法,並普遍的使用正態分佈去擬合各類類型的數據。由此, 凱特勒爲正態分佈的應用拓展了廣闊的舞臺。正態分佈如同一把屠龍刀,在凱特勒 的帶領下,學者們揮舞着這把寶刀在各個領域披荊斬棘,攻陷了人口、領土、政治、農業、工業、商業、道德等社會領域,並進一步攻佔天文學、數學、物理學、生物學、社會統計學及氣象學等天然科學領域。

正態分佈的下一個推進力來自生物學家高爾頓,當正態分佈與生物學聯姻時,近代統計學迎來了一次大發展。高爾頓是生物統計學派的奠定人,他的表哥達爾文的鉅著《物種起源》問世之後,觸動他用統計方法研究遺傳進化問題。受凱特勒的啓發,他對正態分佈懷有濃厚的興趣,開始使用正態分佈去擬合人的身高、胸圍、以致考試成績等各種數據,發現正態分佈擬合得很是好。他所以相信正態曲線是適用於無數狀況的通常法則。

然而,對高爾頓而言,這個無處不在的正態性給他帶來一些困惑。他考察了親子兩代的身高數據,發現聽從同一的正態分佈,遺傳做爲一個顯著因素是如何發揮做用的?1877年,高爾頓設計了一個叫高爾頓釘板(quincunx, 或者Galton board)的裝置,模擬正態分佈的性質,用於解釋遺傳現象。

以下圖中每一點表示釘在板上的一顆釘子,它們彼此的距離均相等。當小圓球向降低落過程當中,碰到釘子後皆以 1/2 的機率向左或向右滾下。若是有n排釘子,則各槽內最終球的個數服從二項分佈 B(n,1/2)B(n,1/2), 當nn 較大的時候,接近正態分佈。

galton_quincunx高爾頓釘板

設想在此裝置的中間某個地方 AB 設一個擋板把小球截住,小球將在AB處聚成正態曲線形狀,若是擋板上有許多閥門,打開一些閥門,則在底部造成多個大小不一的正態分佈,而最終的大正態分佈正是這些小正態分佈的混合。

galton_quincunx3高爾頓釘板解釋遺傳現象

高爾頓利用這個裝置創造性的把正態分佈的性質用於解釋遺傳現象。他解釋說身高受到顯著因素和其它較小因素的影響,每一個因素的影響能夠表達爲一個正態分佈。遺傳做爲一個顯著因素,相似圖中底部大小不一的正態分佈中的比較大的正態分佈,而多個大小不一正態分佈累加以後其結果仍然獲得一個正態分佈。

高爾頓在研究身高的遺傳效應的時候,同時發現一個奇特的現象:高個子父母的子女,其身高有低於其父母身高的趨勢,而矮個子父母的子女,其身高有高於其父母的趨勢,即有「迴歸」到普通人平均身高去的趨勢,這也是「迴歸」一詞最先的含義。高爾頓用二維正態分佈去擬合父代和子代身高的數據,同時引進了迴歸直線、相關係數的概念,從而開創了迴歸分析這門技術。

能夠說,高爾頓是用統計方法研究生物學的第一人,他用實際行動開拓了凱特勒的思想;爲數理統計學的產生奠基了基礎。不管是 凱特勒 仍是高爾頓,他們的統計分析工做都是以正態分佈爲中心的,在他們的影響下,正態分佈得到了廣泛承認和普遍應用,甚至是被濫用,以致有些學者認爲19世紀是正態分佈在統計學中佔統治地位的時代。

6.3 數理統計三劍客

最後,咱們來到了20世紀,正態分佈的命運如何呢?若是說19世紀是正態分佈在統計學中獨領風騷的話,20世紀則是數理統計學蓬勃發展、百花齊放的時代。 1901年,高爾頓和他的學生卡爾.皮爾遜(Karl Pearson, 1857-1936)、韋爾登(Walter Frank Raphael Weldon, 1860-1906) 創辦《生物計量 (Biometrika)》雜誌,成爲生物統計學派的一面旗幟,引導了現代數理統計學的大發展。統計學的重心逐漸由歐洲大陸向英國轉移,使英國在之後幾十年數理統計學發展的黃金時代充當了領頭羊。

在20世紀之前,統計學所處理的數據通常都是大量的、天然採集的,所用的方法以拉普拉斯中心極限定理爲依據,老是歸結到正態。到了19世紀末期,數據與正態擬合很差的狀況也日漸爲人們所注意:進入20世紀以後,人工試驗條件下所得數據的統計分析問題,逐漸被人們所重視。因爲試驗數據量有限,那種依賴於近似正態分佈的傳統方法開始招致質疑,這促令人們研究這種狀況下正確的統計方法問題。

在這個背景之下,統計學三大分佈χ2χ2分佈、tt分佈、FF分佈逐步登上歷史舞臺。這三大分佈如今的理科本科生都很熟悉。在歷史上,這三個分佈和來自英國的現代數理統計學的三大劍客有着密切的關係。

three-swords數理統計三劍客

第一位劍客就是卡爾.皮爾遜,手中的寶劍就是χ2χ2分佈。 χ2χ2 分佈這把寶劍最先的鍛造者實際上是物理學家麥克斯韋,他在推導空氣分子的運動速度的分佈的時候,發現分子速度在三個座標軸上的份量是正態分佈,而分子運動速度的平方v2v2 符合自由度爲3 的χ2χ2分佈。麥克斯韋雖然造出了這把寶劍,可是真正把它揮舞得駕輕就熟、遊刃有餘的是皮爾遜。在分佈曲線和數據的擬合優度檢驗中,χ2χ2分佈但是一個利器,而皮爾遜的這個工做被認爲是假設檢驗的開山之做。皮爾遜繼承了高爾頓的衣鉢,統計功力深厚,在19世紀末20世紀初很長的一段時間裏,一直被數理統計武林人士尊爲德高望重的第一大劍客。

第二位劍客是戈塞特(William Sealy Gosset, 1876-1937),筆名是你們都熟悉的學生氏 (Student),而他手中的寶劍是 tt 分佈。戈塞特是化學、數學雙學位,依靠本身的化學知識進釀酒廠工做,工做期間考慮釀酒配方實驗中的統計學問題,追隨卡爾.皮爾遜學習了一年的統計學,最終依靠本身的數學知識打造出了tt分佈這把利劍而青史留名。 1908年,戈塞特提出了正態樣本中樣本均值和標準差的比值的分佈,並給出了應用上極其重要的第一個分佈表。戈塞特在tt 分佈的工做開創了小樣本統計學的先河。

第三位劍客是費希爾(Ronald Aylmer Fisher, 1890-1962),手持FF分佈這把寶劍,在一片荒蕪中開拓出方差分析的肥沃土地。 FF分佈就是爲了記念費希爾而用他的名字首字母命名的。費希爾劍法飄逸,在三位劍客中當屬費希爾的天賦最高,各類兵器的使用都駕輕就熟。費希爾統計造詣極高,受高斯的啓發,系統的創立了極大似然估計劍法,這套劍法如今被尊爲統計學參數估計中的第一劍法。

費希爾還未出道,皮爾遜已是統計學的武林盟主了,兩人歲數相差了33歲,而戈塞特介於他們中間。三人在統計學擂臺上不免切磋劍術。費希爾天賦極高,年少氣盛;而皮爾遜爲人強勢,佔着本身武林盟主的地位,不免執拗己見,以大欺小;費希爾着實受了皮爾遜很多氣。而戈塞特性格溫和,常常在兩位大俠之間調和。畢竟是長江後浪推前浪,一代新人換舊人,在衆多擂臺比試中,費希爾都技高一籌,而最終取代了皮爾遜成爲數理統計學第一大劍客。

因爲這三大劍客和統計三大分佈的出現,正態分佈在數理統計學中再也不是一枝獨秀,數理統計的領地基本上是被這三大分佈搶走了半壁江山。不過這對正態分佈而言並不是壞事,咱們細看這三大分佈的數學細節: 假設獨立隨機變量 XiN(0,1),YjN(0,1)(i=1n,j=1m)Xi∼N(0,1),Yj∼N(0,1)(i=1⋯n,j=1⋯m),則知足三大分佈的隨機變量能夠以下構造出來

  • χ2n=X21++X2nχn2=X12+⋯+Xn2
  • t=Y1X21++X2nn−−−−−−−−√t=Y1X12+⋯+Xn2n
  • F=X21++X2nnY21++Y2mmF=X12+⋯+Xn2nY12+⋯+Ym2m

你看這三大分佈哪個不是正態分佈的嫡系血脈,χ2χ二、 tt、FF這三大分佈最初都是從正態分佈切入進行研究的。因此正態分佈在19世紀是武則天,進入20世紀就學了慈禧太后,垂簾聽政了。或者,換個角度說,一個好漢三個幫,正態分佈若是是孤家寡人恐怕也難以雄霸天下,有了統計學三大分佈做爲開國先鋒爲它開疆拓土,正態分佈真正成爲傲世羣雄的君王。

20世紀初,統計學這三大劍客成爲了現代數理統計學的奠定人。以哥塞特爲先驅,費希爾爲主將,掀起了小樣本理論的革命,事實上提高了正態分佈在統計學中的地位。在數理統計學中,除了以正態分佈爲基礎的小樣本理論得到了空前的勝利,其它分佈上都沒有成功的案例,這不能不讓人對正態分佈另眼相看。在隨後的發展中,相關回歸分析、多元分析、方差分析、因子分析、布朗運動、高斯過程等等諸多機率統計分析方法陸續登上了歷史舞臺,而這些和正態分佈密切相關的方法,成爲推進現代統計學飛速發展的一個強大動力。

7. 正態魅影

Everyone believes in it: experimentalists believing that it is a mathematical theorem, mathematicians believing that it is an empirical fact. 
— Henri Poincaré

若是說,充斥着偶然性的世界是一個紛亂的世界,那麼,正態分佈爲這個紛亂的世界創建了必定的秩序,使得偶然性現象在數量上被計算和預測成爲可能。傑恩斯在《機率論沉思錄》中提出了兩個問題

  1. 爲何正態分佈被如此普遍的使用?
  2. 爲何正態分佈在實踐使用中很是的成功?

傑恩斯指出,正態分佈在實踐中成功的被普遍應用,主要是由於正態分佈在數學方面的具備多種穩定性質,這些性質包括:

  • 兩個正態分佈密度的乘積仍是正態分佈
  • 兩個正態分佈密度的卷積仍是正態分佈,也就是兩個獨立正態分佈的和仍是正態分佈
  • 正態分佈N(0,σ2)N(0,σ2)的傅立葉變換正規化爲密度分佈後仍是正態分佈
  • 中心極限定理保證了多個隨機變量的求和效應將致使正態分佈
  • 正態分佈和其它具備相同均值、方差的機率分佈相比,具備最大熵

前三個性質說明了正態分佈一旦造成,就容易保持該形態的穩定, 蘭登對於正態分佈的推導也代表了,正態分佈能夠吞噬較小的干擾而繼續保持形態穩定。後兩個性質則說明,其它的機率分佈在各類的操做之下容易愈來愈靠近正態分佈。正態分佈具備最大熵的性質,因此任何一個對指定機率分佈的操做,若是該操做保持方差的大小,卻減小已知的知識,則該操做不可避免的增長几率分佈的信息熵,這將致使機率分佈向正態分佈靠近。

正因爲正態分佈多種的穩定性質,使得它像一個黑洞同樣處於一箇中心的位置,其它的機率分佈形式在各類操做之下都逐漸向正態分佈靠攏,傑恩斯把它描述爲機率分佈中重力現象(gravitating phenomenon)。

咱們在實踐中爲什麼老是選擇使用正態分佈呢,正態分佈在天然界中的頻繁出現只是緣由之一,傑恩斯認爲還有一個重要的緣由是正態分佈的最大熵性質。在不少時候咱們其實沒有任何的知識知道數據的真實分佈是什麼, 可是一個分佈的均值和方差每每是相對穩定的。所以咱們能從數據中獲取到的比較好的知識就是均值和方差,除此以外沒有其它更加有用的信息量。所以按照最大熵的原理,咱們應該在給定的知識的限制下,選擇熵最大的機率分佈,而這就剛好是正態分佈。即使數據的真實分佈不是正態分佈,因爲咱們對真實分佈一無所知,若是數據不能有效提供除了均值和方差以外的更多的知識,按照最大熵的原理,正態分佈就是這時候最佳的選擇。

固然正態分佈還有更多使人着迷的數學性質,咱們能夠欣賞一下:

  • 二項分佈 B(n,p)B(n,p) 在 nn很大逼近正態分佈 N(np,np(1p))N(np,np(1−p))
  • 泊松分佈 Poisson(λ)Poisson(λ) 在 λλ 較大時逼近正態分佈 N(λ,λ)N(λ,λ)
  • χ2(n)χ(n)2在 nn很大的時候逼近正態分佈 N(n,2n)N(n,2n)
  • tt分佈在 nn 很大時逼近標準正態分佈 N(0,1)N(0,1)
  • 正態分佈的共軛分佈仍是正態分佈
  • 幾乎全部的極大似然估計在樣本量nn增大的時候都趨近於正態分佈
  • 克拉美分解定理(以前介紹過):若是 X,YX,Y 是獨立的隨機變量,且 S=X+YS=X+Y是正態分佈,那麼 X,YX,Y 也是正態分佈
  • 若是 X,YX,Y 獨立且知足正態分佈N(μ,σ2)N(μ,σ2), 那麼 X+YX+Y, XYX−Y 獨立且同分布,而正態分佈是惟一知足這一性質的機率分佈
  • 對於兩個正態分佈X,YX,Y, 若是X,YX,Y 不相關則意味着X,YX,Y獨立,而正態分佈是惟一知足這一性質的機率分佈

8. 大道至簡,大美天成

To see a world in a grain of sand
And a heaven in a wild flower, 
Hold infinity in the palm of your hand
And eternity in an hour.

X¯¯¯¯=X1+X2++XnnX¯=X1+X2+⋯+Xnn


算術平均,極其簡單而樸素的一個式子,被人們使用了千百年,在其身後隱藏着一個美麗的世界,而正態分佈正是掌管這個美麗世界的女神。正態分佈的發現與應用的最初歷史,就是數學家們孜孜不倦的從機率論和統計學角度對算術平均不斷深刻研究的歷史。中心極限定理在 1773年棣莫弗的偶然邂逅的時候,它只是一粒普通的沙子,兩百多年來吸引了衆多的數學家,這個渾金璞玉的定理不斷的被機率學家們精雕細琢,逐漸的發展成爲現代機率論的璀璨明珠。而在統計學的偏差分析之中,高斯窺視了造物主對算術平均的厚愛,也發現了正態分佈的美麗身影。異曲同工,那是偶然中的必然。一沙一世界,一花一天國, 算術平均或許只是一粒沙子,正態分佈或許只是一朵花,它們卻包含了一個廣闊而美麗的世界,幾百年來以無窮的魅力吸引着科學家和數學家們。
高爾頓他對正態分佈很是的推崇與讚美,1886 年他在人類學研究所的就任演講中說過一段著名的話:「我幾乎未曾見過像偏差呈正態分佈這麼美妙而激發人們無窮想象的宇宙秩序。若是古希臘人知道這條曲線,想必會給予人格化乃至神格化。它以一種寧靜無形的方式在最野性的混亂中實施嚴厲的統治。暴民越多,無政府狀態越顯現,它就統治得越完美。他是無理性世界中的最高法律。當咱們從混沌中抽取大量的樣本,並按大小加以排列整理時,那麼老是有一個始料不及的美妙規律潛伏在其中。」

 

機率學家卡克在他的自述傳記《機遇之謎》(Enigmas of chance: An autobiography) 中描述他與正態分佈的淵源:「我接觸到正態分佈以後立刻被他深深的吸引,我感到難以相信,這個來自經驗直方圖和賭博遊戲的規律,竟然會成爲咱們平常生活數學的一部分。」另外一位機率學家 Michel Loéve(1907-1979) 說:「若是咱們要抽取列維的機率中心思想,那咱們能夠這樣說,自從 1919 年之後,列維研究的主題曲就是正態分佈,他一而再再而三的以她爲出發點,而且堅定的又回到她…… 他是帶着隨機時鐘沿着隨機過程的樣本路徑做旅行的人。」美國國家標準局的顧問 W. J. Youden 用以下一段排列爲正態曲線形狀的文字給予正態分佈極高的評價,意思是說:偏差的正態分佈規律在人類的經驗中具備「鶴立雞羣」的地位,它在物理、社會科學、醫學、農業、工程等諸多領域都充當了研究的指南,在實驗和觀測數據的解讀中是不可或缺的工具。

 

youden-normal-curve正態偏差態分佈律

幾乎全部的人都或多或少的接觸數學,雖然各自的目的不一樣,對數學的感受也不一樣。工程師、科學家們使用數學是由於他簡潔而實用,數學家們研究數學是由於它的美麗動人。像正態分佈這樣,既吸引着無數的工程師、科學家,在實踐中被如此普遍的應用,又令衆多的數學家爲之魂牽夢繞的數學存在,在數學的世界裏也並很少見。我在讀研究生的時候,常常逛北大未名BBS 的數學板,有一個叫 ukim 的著名 ID 在精華區裏面留下了一個介紹數學家八卦的系列《Heroes in My Heart》,寫得很是的精彩,這些故事在喜歡數學的人羣中也流傳普遍。最後一個八卦是關於菲爾茲獎得主法國數學家託姆(René Thom)的,它曾經令無數人感動,我也借用來做爲我對正態分佈的八卦的結語:

在一次採訪當中,做爲數學家的託姆同兩位古人類學家討論問題。談到遠古的人們爲何要保存火種時,一我的類學家說,由於保存火種能夠取暖禦寒;另一我的類學家說,由於保存火種能夠燒出鮮美的肉食。而託姆說,由於夜幕來臨之際,火光搖曳嫵媚,燦爛多姿,是最美最美的……

fire

9. 推薦閱讀

All knowledge is, in the final analysis, history. 
All sciences are, in the abstract, mathematics. 
All methods of acquiring knowledge are, essentially, through statistics.

在終極的分析中,一切知識都是歷史;
在抽象的意義下,一切科學都是數學; 
在理性的基礎上,全部的判斷都是統計學。

— C. R. Rao

本人並不是統計學專業人士,只是憑我的興趣作一點知識的傳播。對統計學歷史知識的介紹,專業性和系統性都不是個人目的,我更在意的是趣味性,由於沒有趣味就不會有傳播。若是讀完這段歷史會讓你以爲正態分佈更加親切,再也不那麼高不可攀,那個人目的達到了。若是正態分佈是一滴水,我願你們都能看到它折射出的七彩虹。

本文所使用的大可能是二手資料,有些歷史細節並無通過嚴格的考證,對於歷史資料必定程度上按照我的喜愛作了取捨,本文主要基於以下的資料寫成,對於歷史細節感興趣的,推薦閱讀。

  • 陳希孺, 數理統計學簡史,湖南教育出版社,2000
  • 蔡聰明,誤差論與最小平方法,數學傳播 21(3):3-13,1994
  • 吳江霞,正態分佈進入統計學的歷史演化,2008
  • E.T. Jaynes, Probability Theory: The Logic of Science,Cambridge University Press,2003
  • Saul Stahl, The Evolution of the Normal Distribution, Mathematics Magazine, 1996
  • Kiseon Kim, Georgy Shevlyakov, Why Gaussianity, IEEE Signal Processing Magazine, 2008
  • Stephen M. Stigler, The History of Statistics: The Measurement of Uncertainty before, Belknap Press of Harvard University Press, 1990
  • L. Le Cam, The Central Limit Theorem Around 1935, Statistical Science 1(1):78-91, 1986
  • Hans Fischer, A History of the Central Limit Theorem: From Classical to Modern Probability Theory, Springer, 2010
相關文章
相關標籤/搜索