費歇爾:實驗設計的第一步是創建一組數學公式,用以描述待蒐集數據與欲估計結果之間的關係,所以,任何有用的實驗必須是可以提供估計結果的。app
費歇爾:人們不可避免地會發現之前所得出的觀點,至少在必定程度上,明顯是過期的或者錯誤的。函數
費歇爾:真實分佈只是一個抽象的數學公式,蒐集的數據只能用來估計這個真實分佈的參數。spa
費歇爾:測量值是從全部可能出現的測量值中隨機選取的,依據隨機選取的數據計算得出的一個參數的任何估計值,其結果自己也具備隨機性,所以,也會服從一種機率分佈。設計
費歇爾定義統計量爲:從觀察到的測量值得出的、可用來估計其分佈參數的一個數值。orm
評判一個好的統計量的三個準則:1)一致性(consistency);2)無偏性(unbiasedness);3)有效性(efficiency)。對象
對於某一特定數據集,咱們永遠不知道一個統計量的值是否正確,只能說咱們用一種方法得出來一個符合這些準則的統計量。事件
高爾頓發現向平均迴歸:表現爲很是高的父親,其兒子每每要比父親矮一些;而很是矮的父親,其兒子每每要比父親高一些。ci
K 皮爾遜發現「偏斜分佈」,宣傳期能夠描述科學家在數據中可能遇到的任何散佈類型,其分佈由四個數字所肯定,分別爲:平均數、標準差、對稱性和峯度。數學
K 皮爾遜提出,觀測到的現象只是一種隨機的映像,不是真實的,所謂的真實是機率分佈。即科學的對象並非不可觀測事物自己,而是數學分佈函數,以描述與所觀測事物相聯繫的機率。產品
K 皮爾遜的全部工做都假定:樣本足夠大,以致於肯定參數能夠沒有偏差。
蒙特卡羅技術:這是一種一再模擬的數學模型,以肯定相關數據的機率分佈。
布利斯發明「機率單位分析」,其模型創建了「殺蟲劑的劑量」與「使用該劑量時一隻蟲子會死掉的機率」這二者間的關係。有可得出:對一隻特定的用作試驗標本的蟲子,要肯定殺死它所須要的劑量是不可能的。
大量數據集合的平均數都有一個統計分佈,而中心極限定理則闡明,不管初始數據是怎麼來的,這個分佈均可以用正態機率分佈來逼近。
由正態隨機變量推演得出的許多統計量,其自身也服從正態分佈。
證實林德伯格利維條件成立,那麼中心極限定理就成立。一個統計量若是屬於U-統計量,則知足林德伯格利維條件。
混沌理論:某種形式的統計建模明顯帶着雜亂無序特徵的隨機性。
混沌的數學函數對初始條件很是敏感,初始條件的些微差別,通過屢次迭代以後,將致使全然不一樣的結果。
混沌理論源於這樣的觀察:一個固定不變的肯定性公式生成的數字可能看上去是一個具備隨機性的模型。其擁護者認爲:現實生活中看上去是純隨機的測量值,其實是由某個肯定性的方程組生成的,這些方程能夠從普安卡雷圖像的模式推演出來。
在早期的肯定性方法中,有一個信條,越精確的測量,對所考察的天然客體的描述也就越精確。而在統計方法中,分佈參數有時候沒必要有一個天然客體,不管多麼精確的測量系統,分佈參數的估計值終究是有偏差的。
「假設檢驗」:在「待檢驗的假設爲真」的假設前提下,用來計算以往觀察到的結果發生的機率。
顯著性檢驗只是告訴他什麼是應該忽略掉的,也就是說應該把全部那些沒法獲得顯著性結果的實驗忽略掉。
奈曼:除非至少有兩個可能的假設,不然顯著性檢驗根本就沒有意義。即,你不可能檢驗一組數據是否服從正態分佈,除非你認爲該組數據也可能會被其它的一些分佈或分佈集來擬合。計算P值是爲了檢驗零假設,而檢驗的效力則是指備擇假設爲真的條件下P值的表現效果。
1)檢驗的效力是用來測量一個檢驗方法好壞的指標,兩種檢驗方法中效力較強的方法就是較好的方法;2)備擇假設不能太多。
大數定律指出:若是某事件有給定的機率(好比擲一個色子,獲得六點這一事件的機率是六分之一),並且若是咱們重複地進行相同的試驗時,該事件發生的次數的比率就會愈來愈接近這個機率值。
若是咱們不可以說某個估計值是絕對準確的,那麼咱們還有沒有辦法能夠說這個估計值與參數的真值之間有多接近呢?——區間估計。
數據是觀測得來的,參數是固定的值(儘管未知的),所以參數取某個特定值的機率只有兩個結果,或者是100%(若是它就是那個值),或者是0(若是它根本不是那個值)。然而,一個95%的置信區間涉及的95%的機率,這個機率指的是什麼?
不該該從每個結論的角度看待置信區間,而應該將其視爲一個過程。從長期來看,對於一直計算95%的置信區間的統計學家來講,他們將發現,在總次數中,參數的真值將有95%的機會落在所計算的區間內。
薩維奇認爲:世界上並無「已被證實的科學事實」這樣的事情。有的只是一些陳述,而那些自認爲是科學家的人對這些陳述持有很高的同意機率。
貝葉斯方法一開始是假設在一我的的頭腦中有一組先驗機率,接下來這我的通過觀察或實驗產生了數據,而後拿這組數據來修正先驗機率,生成一組後驗機率。
統計方法核心的數學哲學問題:1)機率的真正數學基礎是什麼?2)面對像地震事後的餘震這類長時間蒐集上來的數據時,咱們能夠作些什麼?
判斷樣本的缺陷:1)只有當咱們確信對大整體具備充分的瞭解,能夠將整體劃分爲能用一些個體來表明額幾個子整體時,判斷樣本才具備表明性;2)若是判斷樣本的估計結果是錯的,咱們沒法知道該結果與真值到底相關多少。
事前研究的缺陷:1)若是研究是小範圍的,結論也許只是針對某個特定羣體而言的,不能將它推廣到更普遍的人羣當中;2)爲了讓事件發生足夠多,容許做有意義的分析,研究持續的時間必須很長。
瑕疵的解決方法:1)若是測量值有瑕疵,就下降瑕疵測量值的影響力;2)若是測量值沒有瑕疵,就找出正確答案。
戴明認爲:一般狀況下,管理者每每設立一些不可能實現的標準,他們不在乎標準是否能夠達到,也不嘗試着如何經過發送設備等必要手段,來使這些標準得以實現。要改變一個產品的質量,產品的質量就得是可測的。
利維鞅(martingale)的概念:1)變異是有界的,所以個別值不多是無窮大的,也不多是無窮小的;2)下一個數字的最佳估計值一定是它的前一個數值。
柯爾莫戈洛夫對機率的數學定義:機率是一個抽象空間裏對一事件集合的一種測量。
若是咱們不能肯定可進行機率計算的事件空間,那麼就不能說某種模型比另一種更適用。
凱恩斯認爲:機率是在某一文化教育背景下的人們,對其既定狀況的不肯定性的測量,機率的判斷不只是我的心裏的直覺,還與我的的文化背景有關係。認爲,機率再也不以事件空間爲基礎,而是產生於所涉及人員的我的感受的數值。
點集拓撲學
有限數學羣
無維度向量空間
元數學代數
代數拓撲學
序貫分析
決策理論
經驗貝葉斯法(empirical bayes)
層次貝葉斯模型(hierarchal Bayes methods)
分組理論(classification theory)
元數學(metamathematics)
圖基引理
快速傅立葉變換
穩健估計
博克斯-考克斯變換(Box-Cox transformation)
斯蒂爾切斯積分(Stieltjes integral)
運算密集法
核密度估計(kernel density estimation)
模糊近似值(fuzzy approximation)