t檢驗是統計學中最經常使用的檢驗之一。雙樣本t檢驗容許咱們基於來自兩組中的每一組的樣原本測試兩組的整體平均值相等的零假設。測試
這在實踐中意味着什麼?若是咱們的樣本量不是過小,若是咱們的數據看起來違反了正常假設,咱們就不該過度擔憂。此外,出於一樣的緣由,即便X不正常(一樣,當樣本量足夠大時),組均值差別的95%置信區間也將具備正確的覆蓋率。固然,對於小樣本或高度偏斜的分佈,上述漸近結果可能不會給出很是好的近似,所以類型1偏差率可能偏離標稱的5%水平。spa
如今讓咱們用R來檢驗樣本均值分佈(在重複樣本中)收斂到正態分佈的速度。咱們將模擬來自對數正態分佈的數據 - 即log(X)遵循正態分佈。咱們能夠經過從正態分佈中取冪隨機抽取來今後分佈中生成隨機樣本。首先,咱們將繪製一個大的(n = 100000)樣本並繪製其分佈以查看它的外觀: 咱們能夠看到它的分佈是高度偏斜的。從表面上看,咱們會擔憂對這些數據使用t檢驗,假設X是正態分佈的。blog
爲了看看樣本的樣本分佈,咱們將選擇樣本大小爲n,並從對數正態分佈中重複繪製大小爲n的樣本,計算樣本均值,而後繪製這些樣本均值的分佈。如下顯示n = 3的樣本平均值的直方圖(來自10,000個重複樣本):rem
樣本均值的分佈,n = 3get
這裏的採樣分佈是傾斜的。如此小的樣本量,若是其中一個樣本從分佈的尾部具備高值,則這將給出與真實均值相差很遠的樣本均值。若是咱們重複,但如今n = 10: 它如今看起來更正常,但它仍然是偏斜的 - 樣本均值有時很大。請注意,x軸範圍如今更小 - 樣本均值的可變性如今小於n = 3。最後,咱們嘗試n = 100:it
如今樣本均值的分佈(來自人口的重複樣本)看起來很是正常。當n很大時,即便咱們的一個觀測結果可能位於分佈的尾部,分佈中心附近的全部其餘觀測值也會保持平均值。這代表對於這個特定的X分佈,t檢驗應該是正確的,n = 100 。檢查這種狀況的更直接的方法是進行模擬研究,其中咱們憑經驗估計t檢驗的1型錯誤率,在給定的n選擇下應用於該分佈。class
固然,若是X不是正態分佈的,即便假設正態性的t檢驗的類型1錯誤率接近5%,測試也不會是最佳的。也就是說,將存在零假設的替代測試,其具備檢測替代假設的更大功率。方法