The Lady Tasting Tea - How Statistics Revolutionized Science in the Twentieth Century 算法
本書只討論了20世紀這100年間的統計大變革。框架
通常的書讀讀就行,惟獨這本書須要慢慢品讀,讓統計的思想深刻骨髓。函數
這本書不適合空讀,而要結合本身對統計學的理解來讀,遇到不懂的時候不要跳過,停下來仔細查閱相關資料,然後一旦理解了書中的總結,就很難忘記了。工具
須要作的事:ui
19世紀 - 機械師宇宙觀 - 一切過程都是肯定的google
20世紀 - 統計模型 - 不肯定性在真實世界裏廣泛存在spa
Jacob Bernoulli (1655 – 1705) 伯努利設計
Pierre-Simon, marquis de Laplace (1749 – 1827) 拉普拉斯事件
Sir Francis Galton (1822 – 1911) 高爾頓ip
Karl Pearson (1857 – 1936) 卡爾·皮爾遜 - C2 - 偏斜分佈
Walter Frank Raphael Weldon (1860 – 1906) 威爾頓
William Sealy Gosset (13 June 1876 – 16 October 1937) 「學生」
Sir Ronald Aylmer Fisher (1890 – 1962) 費歇爾 - C1 - 實驗設計
Emil Julius Gumbel (1891-1966) - C6
Jerzy Neyman (1894 – 1981) 奈曼
Egon Sharpe Pearson (1895 – 1980) 埃貢·皮爾遜 老pearson的兒子
Edwin James George Pitman 1897-1993
William Edwards Deming (1900 – 1993) 戴明
Leonard Henry Caleb Tippett (8 May 1902 – 9 November 1985) - C6
Andrey Nikolaevich Kolmogorov (1903 – 1987) 柯爾莫哥洛夫
Henry Berthold Mann (1905 – 2000)
Wassily Hoeffding (1914 – 1991) - C9 - U統計量
Donald Ransom Whitney (1915-2007)
John Wilder Tukey (1915 – 2000) 約翰·圖
Irving John ("I. J.") Good (1916 – 2009)
George Edward Pelham Box (1919 – 2013)
Persi Warren Diaconis (1945-)
1.1 做者序
1920年,Fisher就開始聊騷,開展女士品茶試驗。
試驗是檢驗真理的惟一標準,對統計也是如此。好的研究者要時刻對猜測和試驗結果感到興奮!
Fisher論述瞭如何開展科學的實驗設計,引領了一場科學革命。
實驗是人類增加知識的重要手段,這就是爲何咱們這麼多大學和研究所都在不停地作着各類花式實驗。
一流的科學家從數據中發現新知識,二流的只是在積累數據。
Fisher是搞農業化肥數據分析起家的,發現現有的數據分析都是扯淡,裏面包含了沒法分開的confounder。
Fisher的科學實驗設計方法很快席捲了全部科學實驗領域。
注:
做者在輝瑞的經歷和我驚人的吻合,須要處理不少疑難數學問題,還要負責講解,讓外行的合做者明白,同時要給出本身的結論。
做者的領悟:科研工做不可能獨立完成,太容易犯錯,須要多個同行從多方面檢視,模型錯誤,假設錯誤,人爲失誤。學會提出問題,與專家討論,你們一塊兒檢視問題,理解問題。
讀Fisher的實驗設計一書
William Harvey的血液循環路線的實驗
Albert michelson的光速測定實驗 - 須要一個高靈敏度的激光發射和檢測工具,一面鏡子。
Gregor mendel的豌豆雜交實驗
現代高考的出題也是個實驗設計的問題
Laplace已經發明瞭偏差函數(正態分佈),他假設咱們的觀測值就是一個固定真值加上偏差。但隨着測量精度的提升,咱們發現除去偏差後,測量數據仍然不是固定的,測量的變量存在固有的隨機性。
1890年,karl pearson開始確立了統計模型的本質。
高爾頓熱愛研究親子智商和身高的遺傳規律,這個時候的他就開始想經過親代的性狀來預測子代的性狀了,如今咱們已經可以預測簡單疾病了,但對複雜性狀仍然無能爲力(一個多世紀了)。
向平均迴歸的現象,regression to the mean:在遺傳上,很是高的父親,其孩子每每會比父親矮一些。幾乎全部的科學觀察都在向平均迴歸。
向平均迴歸防止世界走向了極端,維持了世界的穩定。這也是爲何人羣裏沒法出現大象和老鼠大小的人。
高爾頓最早發明了相關係數,但倒是他的學生pearson完整規範的闡述了相關性。(不懂這裏相關性和分佈有什麼關係)
觀念革命:試驗結果不是精準無誤的測定,它包含了太多的不肯定性。咱們測量的數據永遠是散佈的,是有某種分佈的,分佈告訴咱們單次的數值是沒法預測的、隨機的,但統計模型卻能很好的描述這種隨機的性質。
測量值自己,而不是測量偏差,就具備一種正態分佈。pearson提出了偏斜分佈,其有四個參數。後來Neyman發現偏斜分佈並不能包含全部的分佈。
大天然基本上是隨機的,真實性只存在於分佈函數中。
我的想法:
什麼是機率?我得病的機率是多少?萬分之一。小几率事件意味着什麼?
必需要溯源,不然說不清楚,機率來源於分佈,分佈說明了隨機變量的散佈性、不肯定性。定義一個隨機變量X,X能夠取0或1,0爲不得病,1爲得病,收集1萬人的數據,咱們能夠獲得一個伯努利分佈,P(X=1) = 0.0001. 不肯定是指咱們人類沒法瞭解一個事件發生的全部緣由,咱們只能關注開頭和結果。這裏的開頭是「你是人」,結尾是「你得病」。中間過於複雜的過程都被封裝起來了。最終咱們發現結果服從一個分佈。
咱們會說「明天下雨的機率」、「硬幣朝上的機率」、「我生病的機率」,但咱們不會說「宇宙發生大爆炸的機率」,首先,以咱們的認知,宇宙處於一個特例中,沒法重複,也沒有發現的平行宇宙;其次咱們不知道除了大爆炸還有什麼可能的結果。
小几率事件:全部機率小於一個閾值,如0.05,的事件都爲小几率事件。最科學的解釋就是100次試驗裏,該事件只會發生5次。因此在一次試驗裏幾乎就是不可能發生的。
假設檢驗的邏輯也是如此,咱們假設小几率事件在一次實驗裏不會發生,咱們接受了第一類錯誤率爲0.05.
注:
皮爾遜的兩個摯友過早離世,致使老皮爾遜走進了死衚衕。
Charles Darwin是pearson同時代的,提出生物變異是適者生存的理論基礎。
晚年的karl pearson仍然精力十足,可是對科學再也不有重大貢獻。
karl pearson首先讀的是政治學,崇拜karl marx,因此把本身原來的carl改成karl。
pearson的第一部著做,《科學的法則》。
高爾頓發現了指紋現象。
Biometrika雜誌誕生
pearson發明了擬合優度檢驗,goodness of fit test。
吉尼斯(世界紀錄的那個)企業有意招聘具備化學背景的高材生,剛好招到了具備數學和化學背景的格賽特。科學問題是如何精準測量瓶中酵母的總量。
確切的數值不存在,存在的是單位液體內酵母數量的機率分佈。格賽特成功的發現了泊松分佈能很好的解決這個問題。
啤酒廠有保密要求,禁止職員泄露公司機密,格賽特開始在朋友皮爾遜底下進修,開始以「學生」身份發表文章。費歇爾是三人中數學造詣最高的。
「學生」的t檢驗,小樣本問題,作生物實驗更是如此,極少狀況下咱們能夠得到大樣本。皮爾遜執着於拿到大樣本,來估計本身偏斜分佈中的四個參數。
格賽特則致力於解決如何衡量小樣本中的隨機偏差,發現了小樣本的均值和標準差之比的規律,偏斜分佈的前兩個參數的比具備必定的規律。
t檢驗對數據沒有假設,數據能夠服從任何分佈。
注:
老皮爾遜和費歇爾之間有着互相的偏見,而格賽特則負責調解。
時間線回到1919年,開始講Fisher的故事,Fisher太nb,不得不從其出生開始講起。
Fisher從小就與人不一樣,孤單多病,卻具備很高的幾何天賦,數理統計的直覺,別人須要證實好久的東西在他眼裏就是直覺。
Fisher雖是劍橋最突出的高材生,但工做也是一波三折,也算經歷了第一次世界大戰。
Fisher和老pearson之間的恩怨情仇。
老pearson屬於典型的自私執拗型的大佬,憑藉本身的學術地位來打壓、壓榨年輕的天才。在每一個單位裏都存在這種大佬,一心爲了本身的名利,可是他們顯然快要燈枯油盡了(年齡和靈感),因此不得不靠榨取年輕的精靈來苟且維生,這也是符合天然界規律的。
Fisher數學功底深厚,他支持和推崇優生學說(有選擇的改變人類的基因庫),因此被指責爲法西斯。(有相關的電影了,諷刺最終人類整體變得低智)
(其實錯了,天然選擇留下的都是最適合生存的人,只能說智商與生存能力有一點的相關性,二者並不等同)
pearson鍾情於社會主義,Fisher則更加關注遺傳學,開始研究mendel的理論和數據。
孟德爾和Fisher這個時代的人已經慢慢意識到,生物體內存在控制生命性質的基因,統計機率理論能夠用於描述生物體內基因與表型互做的不肯定性。
Fisher一大著做:《研究工做者的統計方法》工具書,書中省去了複雜數學理論,着重闡述了統計的應用,因此很快就流行起來了。(名言:文章中每多一個公式,讀者數量就減半,數學門檻仍是很高的)
自此,Fisher帶着全家和小姨子開始了在農業站的練級之旅。。。
Fisher的《studies in crop variation》系列,共6篇,google一下就能找到原稿。數據挖掘的鼻祖,真正地從數據中發現知識。
「開發了用於數據分析的原創性工具,創建了這些工具的數學基礎,並描述瞭如何將他們應用到其餘領域」
variance和variation的區別?前者特指方差,後者詞性更general,表示變更;還有一個variant,特指變異。
<contributions to mathematical statistics> - john wiley
全能的Fisher,不只要作體力的計算工做,還要思考數學問題,整理數據,設計分析框架,修正不可避免的錯誤。
高爾頓迴歸思想的通常化,微積分基礎,機率分佈,多維幾何學。
變異的拆分,時間序列分析的起源。
隨機化控制實驗,沒法控制的肥力梯度效應能夠用隨機化抵消。
方差分析問世:在精心設計的科學實驗中,如何分解各類不一樣處理的效應?
協方差分析問世:因素分解
自由度的引入:調和不一樣做者觀測到的差別結果。幾何洞察力、多維幾何空間。指出了老pearson的一個錯誤。
注:
1. 要深入理解正態分佈,以及其衍生而來卡方分佈(獨立正態分佈的平方和)、t分佈(小樣本的z分佈)、F分佈(兩個卡方發佈之比)。
2. 方差分析的核心,變異分解,總方差=組內方差+組間方差,假設隨機偏差服從正態分佈,由於是多個樣本,因此要檢驗的是兩個卡方分佈之比。
3. 協方差分析的核心,迴歸和方差分析,利用迴歸的方法去掉潛在confounder的影響。
極值的分佈,如何預測罕見洪災的洪峯的高度?本章的蒂皮特解決了這個難題。
咱們人類喜歡精確,咱們天生厭惡不肯定性,但是咱們必須接受不肯定性,由於咱們是觀察者和改造者,不是締造者。
如何預測紡線的強度?由於是線性的,因此棉線的強度取決於棉線中最脆弱的纖維的強度。
爲了解決這個問題,蒂皮特開始在皮爾遜底下進修。能夠看出蒂皮特高度評價了皮爾遜。(看問題不能只從一個角度)
蒂皮特找到了樣本的數據分佈與極值分佈的關係,殊不知如何解出該方程,因此去請教了Fisher,獲得了「蒂皮特的三條極值漸進線」。
岡貝爾的極值統計學,本文做者高度評價了這本書。
Fisher和pearson的統計哲學觀的分歧和較量。
在頂級期刊上發表論文很難,但更難的是受邀去知名大會上作學術彙報,由於你們會預習你的成果,因此在討論時會很是詳盡,且一針見血。
真正精華的科學研究都是在這種討論會中造成和接受檢驗的。
「對他帶給統計學研究的無與倫比的熱忱,對他提出的數學工具的威力」。
老pearson、小pearson、Fisher、奈曼,相互之間的關係。
統計哲學觀的分歧:
老pearson:統計分佈是分析數據的真實描述;
Fisher:真實分佈是抽象的數學公式,收集的數據只能用於估計其參數。我理解的就是pearson就是想收集數據,而後算他的偏斜分佈。而Fisher則認爲真實的分佈是沒法經過觀測數據來直接得知的,必須考慮到數據獲取過程當中的隨機性。因此Fisher更強調「估計」,pearson則沒有,認爲能夠直接計算。
測量值的隨機性是真實存在的,爲了區分開參數的估計值和參數自己,咱們把估計值叫作統計量,統計量具備隨機性。
好的統計量必須具備三個特性:一致性、無偏性和有效性。
Fisher的極大似然法,爲了獲得一致且有效的統計量,Fisher發明了MLE。數學上的完備性。
迭代算法,試位法。EM算法,模擬退火算法。。。
Fisher和奈曼之間的恩怨。
生物統計學會,選地、彙報討論、約飯、交友。
一個研究殺蟲劑的基友,遇到了困難,因而去讀Fisher的著做,必須從應用工具和數學原理這兩個角度來研究Fisher的思想。
機率單位分析,殺蟲劑的有趣觀察,如何從數學和統計的角度思考問題,並把平常語言轉化爲數學統計語言,這纔是最難,也是最重要的!!!
probit,殺蟲劑劑量和蟲子死掉的機率,二者之間的關係。半數致死劑量。對一隻蟲子,咱們不可能獲得能殺死它的劑量,對一羣蟲子,咱們也得不到殺死它們所有的劑量。
沒法估計表明咱們作不到,咱們人類永遠只能作咱們能作的,由於受限,就像死亡同樣。
動亂時代下的統計學家,究竟是安穩仍是動亂更能成就偉人?時勢造英雄!
爲何說英國是統計革命的發源地?
中心極限定理的重要性!
正態分佈所具備的優良特性使得其逐漸成爲了統計分佈的大哥。
如何證實中心極限定理?
林德伯格·利偉條件和U統計量,漸進正態分佈的一組統計量。
運籌學,用數學模型和科學思惟來解決問題。
混沌理論,蝴蝶效應。
皮爾遜的擬合優度檢驗,能夠用於檢驗兩個變量之間有無顯著性關係。
假設檢驗
奈曼的散播分佈
假設檢驗的效力power的重要性。
機率的現實意義。
1.15 第十四章 數學界的莫扎特
1.16 第十五章 小人物之看法
1.17 第十六章 非參數方法
1.18 第十七章 當部分優於整體時 :隨機分佈
1.19 第十八章 吸菸引起肺癌嗎?
1.20 第十九章 若是您須要最佳人選。。。。
1.21 第二十章 樸實的德克薩斯農家小夥
1.22 第二十一章 家庭中的天才
1.23 第二十二章 統計學界的畢加索
1.24 第二十三章 處理有瑕疵的數據 穩健性
1.25 第二十四章 重塑產業的人 : 戴明與質量管理
1.26 第二十五章 黑衣女士的忠告
1.27 第二十六章 鞅的發展
1.28 第二十七章 意向治療法
1.29 第二十八章 電腦爲所欲爲
1.30 第二十九章 泥菩薩
1.31 誤稱定律
1.32 卡爾達諾
待續~