女士品茶 | The Lady Tasting Tea | 統計學史

The Lady Tasting Tea - How Statistics Revolutionized Science in the Twentieth Century 算法

本書只討論了20世紀這100年間的統計大變革。框架

通常的書讀讀就行,惟獨這本書須要慢慢品讀,讓統計的思想深刻骨髓。函數

這本書不適合空讀,而要結合本身對統計學的理解來讀,遇到不懂的時候不要跳過,停下來仔細查閱相關資料,然後一旦理解了書中的總結,就很難忘記了。工具

 

須要作的事:ui

  • 深入揣摩每段歷史中核心的統計學問題;
  • 整理書中的天才們,出現的時間線,表明性的理論;
  • 書中重要理論思想內涵的總結

 

19世紀 - 機械師宇宙觀 - 一切過程都是肯定的google

20世紀 - 統計模型 - 不肯定性在真實世界裏廣泛存在spa

 

天才大師們: 

Jacob Bernoulli (1655 – 1705) 伯努利設計

Pierre-Simon, marquis de Laplace (1749 – 1827) 拉普拉斯事件

Sir Francis Galton (1822 – 1911) 高爾頓ip

Karl Pearson (1857 – 1936) 卡爾·皮爾遜 - C2 - 偏斜分佈

Walter Frank Raphael Weldon (1860 – 1906)  威爾頓

William Sealy Gosset (13 June 1876 – 16 October 1937) 「學生」

Sir Ronald Aylmer Fisher (1890 – 1962) 費歇爾 - C1 - 實驗設計

Emil Julius Gumbel (1891-1966) - C6

Jerzy Neyman (1894 – 1981) 奈曼

Egon Sharpe Pearson (1895 – 1980) 埃貢·皮爾遜 老pearson的兒子

Edwin James George Pitman 1897-1993

William Edwards Deming (1900 – 1993) 戴明

Leonard Henry Caleb Tippett (8 May 1902 – 9 November 1985) - C6

Andrey Nikolaevich Kolmogorov (1903 – 1987) 柯爾莫哥洛夫

Henry Berthold Mann (1905 – 2000)

Wassily Hoeffding (1914 – 1991) - C9 - U統計量

Donald Ransom Whitney (1915-2007)

John Wilder Tukey (1915 – 2000) 約翰·圖

Irving John ("I. J.") Good (1916 – 2009)

George Edward Pelham Box (1919 – 2013)

Persi Warren Diaconis (1945-)

 

1 The Lady Tasting Tea 女士品茶

1.1 做者序

1.2 第一章 女士品茶 

1920年,Fisher就開始聊騷,開展女士品茶試驗。

試驗是檢驗真理的惟一標準,對統計也是如此。好的研究者要時刻對猜測和試驗結果感到興奮!

Fisher論述瞭如何開展科學的實驗設計,引領了一場科學革命。

實驗是人類增加知識的重要手段,這就是爲何咱們這麼多大學和研究所都在不停地作着各類花式實驗。

一流的科學家從數據中發現新知識,二流的只是在積累數據。

Fisher是搞農業化肥數據分析起家的,發現現有的數據分析都是扯淡,裏面包含了沒法分開的confounder。

Fisher的科學實驗設計方法很快席捲了全部科學實驗領域。

注:

做者在輝瑞的經歷和我驚人的吻合,須要處理不少疑難數學問題,還要負責講解,讓外行的合做者明白,同時要給出本身的結論。

做者的領悟:科研工做不可能獨立完成,太容易犯錯,須要多個同行從多方面檢視,模型錯誤,假設錯誤,人爲失誤。學會提出問題,與專家討論,你們一塊兒檢視問題,理解問題。

讀Fisher的實驗設計一書

William Harvey的血液循環路線的實驗

Albert michelson的光速測定實驗 - 須要一個高靈敏度的激光發射和檢測工具,一面鏡子。

Gregor mendel的豌豆雜交實驗

現代高考的出題也是個實驗設計的問題

1.3 第二章 偏斜分佈

Laplace已經發明瞭偏差函數(正態分佈),他假設咱們的觀測值就是一個固定真值加上偏差。但隨着測量精度的提升,咱們發現除去偏差後,測量數據仍然不是固定的,測量的變量存在固有的隨機性。

1890年,karl pearson開始確立了統計模型的本質。

高爾頓熱愛研究親子智商和身高的遺傳規律,這個時候的他就開始想經過親代的性狀來預測子代的性狀了,如今咱們已經可以預測簡單疾病了,但對複雜性狀仍然無能爲力(一個多世紀了)。

向平均迴歸的現象,regression to the mean:在遺傳上,很是高的父親,其孩子每每會比父親矮一些。幾乎全部的科學觀察都在向平均迴歸。

向平均迴歸防止世界走向了極端,維持了世界的穩定。這也是爲何人羣裏沒法出現大象和老鼠大小的人。

高爾頓最早發明了相關係數,但倒是他的學生pearson完整規範的闡述了相關性。(不懂這裏相關性和分佈有什麼關係)

觀念革命:試驗結果不是精準無誤的測定,它包含了太多的不肯定性。咱們測量的數據永遠是散佈的,是有某種分佈的,分佈告訴咱們單次的數值是沒法預測的、隨機的,但統計模型卻能很好的描述這種隨機的性質。

測量值自己,而不是測量偏差,就具備一種正態分佈。pearson提出了偏斜分佈,其有四個參數。後來Neyman發現偏斜分佈並不能包含全部的分佈。

大天然基本上是隨機的,真實性只存在於分佈函數中。

我的想法:

什麼是機率?我得病的機率是多少?萬分之一。小几率事件意味着什麼?

必需要溯源,不然說不清楚,機率來源於分佈,分佈說明了隨機變量的散佈性、不肯定性。定義一個隨機變量X,X能夠取0或1,0爲不得病,1爲得病,收集1萬人的數據,咱們能夠獲得一個伯努利分佈,P(X=1) = 0.0001. 不肯定是指咱們人類沒法瞭解一個事件發生的全部緣由,咱們只能關注開頭和結果。這裏的開頭是「你是人」,結尾是「你得病」。中間過於複雜的過程都被封裝起來了。最終咱們發現結果服從一個分佈。

咱們會說「明天下雨的機率」、「硬幣朝上的機率」、「我生病的機率」,但咱們不會說「宇宙發生大爆炸的機率」,首先,以咱們的認知,宇宙處於一個特例中,沒法重複,也沒有發現的平行宇宙;其次咱們不知道除了大爆炸還有什麼可能的結果。

小几率事件:全部機率小於一個閾值,如0.05,的事件都爲小几率事件。最科學的解釋就是100次試驗裏,該事件只會發生5次。因此在一次試驗裏幾乎就是不可能發生的。

假設檢驗的邏輯也是如此,咱們假設小几率事件在一次實驗裏不會發生,咱們接受了第一類錯誤率爲0.05.

注:

皮爾遜的兩個摯友過早離世,致使老皮爾遜走進了死衚衕。

Charles Darwin是pearson同時代的,提出生物變異是適者生存的理論基礎。

晚年的karl pearson仍然精力十足,可是對科學再也不有重大貢獻。

karl pearson首先讀的是政治學,崇拜karl marx,因此把本身原來的carl改成karl。

pearson的第一部著做,《科學的法則》。

高爾頓發現了指紋現象。

Biometrika雜誌誕生

pearson發明了擬合優度檢驗,goodness of fit test。

1.4 第三章 可愛的戈賽特先生

吉尼斯(世界紀錄的那個)企業有意招聘具備化學背景的高材生,剛好招到了具備數學和化學背景的格賽特。科學問題是如何精準測量瓶中酵母的總量。

確切的數值不存在,存在的是單位液體內酵母數量的機率分佈。格賽特成功的發現了泊松分佈能很好的解決這個問題。

啤酒廠有保密要求,禁止職員泄露公司機密,格賽特開始在朋友皮爾遜底下進修,開始以「學生」身份發表文章。費歇爾是三人中數學造詣最高的。

「學生」的t檢驗,小樣本問題,作生物實驗更是如此,極少狀況下咱們能夠得到大樣本。皮爾遜執着於拿到大樣本,來估計本身偏斜分佈中的四個參數。

格賽特則致力於解決如何衡量小樣本中的隨機偏差,發現了小樣本的均值和標準差之比的規律,偏斜分佈的前兩個參數的比具備必定的規律。

t檢驗對數據沒有假設,數據能夠服從任何分佈。

注:

老皮爾遜和費歇爾之間有着互相的偏見,而格賽特則負責調解。

1.5 第四章 在垃圾堆中尋覓

時間線回到1919年,開始講Fisher的故事,Fisher太nb,不得不從其出生開始講起。

Fisher從小就與人不一樣,孤單多病,卻具備很高的幾何天賦,數理統計的直覺,別人須要證實好久的東西在他眼裏就是直覺。

Fisher雖是劍橋最突出的高材生,但工做也是一波三折,也算經歷了第一次世界大戰。

Fisher和老pearson之間的恩怨情仇。

老pearson屬於典型的自私執拗型的大佬,憑藉本身的學術地位來打壓、壓榨年輕的天才。在每一個單位裏都存在這種大佬,一心爲了本身的名利,可是他們顯然快要燈枯油盡了(年齡和靈感),因此不得不靠榨取年輕的精靈來苟且維生,這也是符合天然界規律的。

Fisher數學功底深厚,他支持和推崇優生學說(有選擇的改變人類的基因庫),因此被指責爲法西斯。(有相關的電影了,諷刺最終人類整體變得低智)

(其實錯了,天然選擇留下的都是最適合生存的人,只能說智商與生存能力有一點的相關性,二者並不等同)

pearson鍾情於社會主義,Fisher則更加關注遺傳學,開始研究mendel的理論和數據。

孟德爾和Fisher這個時代的人已經慢慢意識到,生物體內存在控制生命性質的基因,統計機率理論能夠用於描述生物體內基因與表型互做的不肯定性。

Fisher一大著做:《研究工做者的統計方法》工具書,書中省去了複雜數學理論,着重闡述了統計的應用,因此很快就流行起來了。(名言:文章中每多一個公式,讀者數量就減半,數學門檻仍是很高的)

自此,Fisher帶着全家和小姨子開始了在農業站的練級之旅。。。

1.6 第五章 收成變更研究

Fisher的《studies in crop variation》系列,共6篇,google一下就能找到原稿。數據挖掘的鼻祖,真正地從數據中發現知識。

「開發了用於數據分析的原創性工具,創建了這些工具的數學基礎,並描述瞭如何將他們應用到其餘領域」

variance和variation的區別?前者特指方差,後者詞性更general,表示變更;還有一個variant,特指變異。

<contributions to mathematical statistics> - john wiley

全能的Fisher,不只要作體力的計算工做,還要思考數學問題,整理數據,設計分析框架,修正不可避免的錯誤。

高爾頓迴歸思想的通常化,微積分基礎,機率分佈,多維幾何學。

變異的拆分,時間序列分析的起源。

隨機化控制實驗,沒法控制的肥力梯度效應能夠用隨機化抵消。

方差分析問世:在精心設計的科學實驗中,如何分解各類不一樣處理的效應?

協方差分析問世:因素分解

自由度的引入:調和不一樣做者觀測到的差別結果。幾何洞察力、多維幾何空間。指出了老pearson的一個錯誤。

注:

1. 要深入理解正態分佈,以及其衍生而來卡方分佈(獨立正態分佈的平方和)、t分佈(小樣本的z分佈)、F分佈(兩個卡方發佈之比)。

2. 方差分析的核心,變異分解,總方差=組內方差+組間方差,假設隨機偏差服從正態分佈,由於是多個樣本,因此要檢驗的是兩個卡方分佈之比。

3. 協方差分析的核心,迴歸和方差分析,利用迴歸的方法去掉潛在confounder的影響。

1.7 第六章 百年一遇的大洪水

極值的分佈,如何預測罕見洪災的洪峯的高度?本章的蒂皮特解決了這個難題。

咱們人類喜歡精確,咱們天生厭惡不肯定性,但是咱們必須接受不肯定性,由於咱們是觀察者和改造者,不是締造者。

如何預測紡線的強度?由於是線性的,因此棉線的強度取決於棉線中最脆弱的纖維的強度。

爲了解決這個問題,蒂皮特開始在皮爾遜底下進修。能夠看出蒂皮特高度評價了皮爾遜。(看問題不能只從一個角度)

蒂皮特找到了樣本的數據分佈與極值分佈的關係,殊不知如何解出該方程,因此去請教了Fisher,獲得了「蒂皮特的三條極值漸進線」。

岡貝爾的極值統計學,本文做者高度評價了這本書。

1.8 第七章 fisher 的勝利

Fisher和pearson的統計哲學觀的分歧和較量。

在頂級期刊上發表論文很難,但更難的是受邀去知名大會上作學術彙報,由於你們會預習你的成果,因此在討論時會很是詳盡,且一針見血。

真正精華的科學研究都是在這種討論會中造成和接受檢驗的。

「對他帶給統計學研究的無與倫比的熱忱,對他提出的數學工具的威力」。

老pearson、小pearson、Fisher、奈曼,相互之間的關係。

統計哲學觀的分歧:

老pearson:統計分佈是分析數據的真實描述;

Fisher:真實分佈是抽象的數學公式,收集的數據只能用於估計其參數。我理解的就是pearson就是想收集數據,而後算他的偏斜分佈。而Fisher則認爲真實的分佈是沒法經過觀測數據來直接得知的,必須考慮到數據獲取過程當中的隨機性。因此Fisher更強調「估計」,pearson則沒有,認爲能夠直接計算。

測量值的隨機性是真實存在的,爲了區分開參數的估計值和參數自己,咱們把估計值叫作統計量,統計量具備隨機性。

好的統計量必須具備三個特性:一致性、無偏性和有效性。

Fisher的極大似然法,爲了獲得一致且有效的統計量,Fisher發明了MLE。數學上的完備性。

迭代算法,試位法。EM算法,模擬退火算法。。。

Fisher和奈曼之間的恩怨。

1.9 第八章 致死劑量

生物統計學會,選地、彙報討論、約飯、交友。

一個研究殺蟲劑的基友,遇到了困難,因而去讀Fisher的著做,必須從應用工具和數學原理這兩個角度來研究Fisher的思想。

機率單位分析,殺蟲劑的有趣觀察,如何從數學和統計的角度思考問題,並把平常語言轉化爲數學統計語言,這纔是最難,也是最重要的!!!

probit,殺蟲劑劑量和蟲子死掉的機率,二者之間的關係。半數致死劑量。對一隻蟲子,咱們不可能獲得能殺死它的劑量,對一羣蟲子,咱們也得不到殺死它們所有的劑量。

沒法估計表明咱們作不到,咱們人類永遠只能作咱們能作的,由於受限,就像死亡同樣。

動亂時代下的統計學家,究竟是安穩仍是動亂更能成就偉人?時勢造英雄!


1.10 第九章 鍾型曲線

爲何說英國是統計革命的發源地?

中心極限定理的重要性!

正態分佈所具備的優良特性使得其逐漸成爲了統計分佈的大哥。

如何證實中心極限定理?

林德伯格·利偉條件和U統計量,漸進正態分佈的一組統計量。

運籌學,用數學模型和科學思惟來解決問題。

1.11 第十章 擬合優度檢驗

混沌理論,蝴蝶效應。

皮爾遜的擬合優度檢驗,能夠用於檢驗兩個變量之間有無顯著性關係。

假設檢驗

奈曼的散播分佈

1.12 第十一章 假設檢驗

假設檢驗的效力power的重要性。

機率的現實意義。

1.13 第十二章 置信詭計


1.14 第十三章 貝葉斯異論

 

1.15 第十四章 數學界的莫扎特

 

1.16 第十五章 小人物之看法

 

1.17 第十六章 非參數方法

 

1.18 第十七章 當部分優於整體時 :隨機分佈


1.19 第十八章 吸菸引起肺癌嗎?


1.20 第十九章 若是您須要最佳人選。。。。

 

1.21 第二十章 樸實的德克薩斯農家小夥

 

1.22 第二十一章 家庭中的天才

 

1.23 第二十二章 統計學界的畢加索


1.24 第二十三章 處理有瑕疵的數據 穩健性


1.25 第二十四章 重塑產業的人 : 戴明與質量管理


1.26 第二十五章 黑衣女士的忠告


1.27 第二十六章 鞅的發展


1.28 第二十七章 意向治療法


1.29 第二十八章 電腦爲所欲爲


1.30 第二十九章 泥菩薩


1.31 誤稱定律
1.32 卡爾達諾

 

 

待續~

相關文章
相關標籤/搜索