哈爾濱工業大學計算機學院-數理統計-課程總結

1. 前言

  • 本課程由數學系開設,屬於統計學範疇的理論知識。
  • 本博客僅對課程中的以下內容進行詳細介紹,主要記錄實用的計算方法,具體理論證實請進一步查閱相關數學書籍。
    • 基本概念
    • 參數估計(如何根據樣本數據獲得整體參數信息)
      • 點估計
      • 區間估計
      • 貝葉斯估計
    • 假設檢驗(如何對關於整體的一些假設做出決策)
      • 參數假設檢驗
      • 非參數假設檢驗
    • 單因素方差分析(分類變量與數值變量的效應關係)
    • 一元線性迴歸分析(數值變量之間的效應關係)

2. 基本概念

2.1 統計量

  • 定義:設\(\left( X _ { 1 } , X _ { 2 } , \cdots , X _ { n } \right)\)爲取自整體\(X\)的一個樣本,\(T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right)\)爲樣本的實值連續函數,且\(T\)中不包含任何未知參數,則稱\(T\)爲一個統計量。算法

  • 幾個經常使用的重要統計量
    • 樣本均值:\(\overline { X } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i }\)
    • 樣本方差:\(S ^ { 2 } = \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } = \frac { 1 } { n - 1 } \left( \sum _ { i = 1 } ^ { n } X _ { i } ^ { 2 } - n \overline { X } ^ { 2 } \right)\)
    • 樣本標準差:\(S = \sqrt { \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } }\)
    • 樣本\(k\)階原點矩:\(M _ { k } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } ^ { k } , ( k = 1,2 , \cdots ) \quad M _ { 1 } = \overline { X }\)
    • 樣本\(k\)階中心矩:$M _ { k } ^ { * } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { k } , ( k = 2,3 , \cdots ) \quad M _ { 2 } ^ { * } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } $

2.2 幾個重要的分佈

2.2.1 \(\Gamma\)分佈族

  • Gamma函數
    \[\Gamma ( \alpha ) = \int _ { 0 } ^ { + \infty } x ^ { \alpha - 1 } e ^ { - x } d x\]
    • \(\Gamma ( \alpha + 1 ) = \alpha \Gamma ( \alpha )\)
    • \(\Gamma ( n + 1 ) = n \Gamma ( n ) = n !\)\(n\)爲天然數
  • \(\Gamma\)分佈
    \[X \sim f ( x ; \alpha , \beta ) = \left\{ \begin{array} { c c } { \frac { \beta ^ { \alpha } } { \Gamma ( \alpha ) } x ^ { \alpha - 1 } e ^ { - \beta x } , } & { x > 0 } \\ { 0 , } & { x \leq 0 } \end{array} \right.\]
    • 記爲\(X \sim \Gamma ( \alpha , \beta )\)\(E X = \frac { \alpha } { \beta } , D X = \frac { \alpha } { \beta ^ { 2 } }\)
  • \(\Gamma\)分佈的兩個重要子族
    • 指數分佈族
      • \(\alpha = 1\),即\(X \sim \Gamma ( 1 , \beta )\)等價於\(X \sim E ( \beta )\)
    • 卡方分佈族
      • \(\alpha = \frac { n } { 2 } , \beta = \frac { 1 } { 2 }\),即\(X \sim \Gamma \left( \frac { n } { 2 } , \frac { 1 } { 2 } \right)\)等價於\(\chi ^ { 2 } \sim \chi ^ { 2 } ( n )\),服從自由度爲\(n\)的卡方分佈。
  • 卡方分佈
    • 定義:\(X _ { 1 } , X _ { 2 } , \cdots , X _ { n }\)獨立,\(X _ { i } \sim N ( 0,1 ) , i = 1,2 , \cdots , n\),則\(\chi ^ { 2 } = \sum ^ { n } X _ { i } ^ { 2 } \sim \chi ^ { 2 } ( n )\),即\(n\)個獨立的標準正態分佈的平方和,卡方分佈的自由度也爲\(n\)
    • 卡方分佈的密度函數不是軸對稱的。
    • \(E \chi ^ { 2 } = n , \quad D \chi ^ { 2 } = 2 n\)
    • 線性可加性:\(\chi _ { 1 } ^ { 2 } \sim \chi ^ { 2 } \left( n _ { 1 } \right) , \quad \chi _ { 2 } ^ { 2 } \sim \chi ^ { 2 } \left( n _ { 2 } \right)\)且相互獨立,則\(\chi _ { 1 } ^ { 2 } + \chi _ { 2 } ^ { 2 } \sim \chi ^ { 2 } \left( n _ { 1 } + n _ { 2 } \right)\)

2.2.2 \(\beta\)分佈族

  • Beta函數,記爲\(B(a,b)\)
    • \(B ( a , b ) = \frac { \Gamma ( a ) \Gamma ( b ) } { \Gamma ( a + b ) }\)
    • \(B ( a , b ) = B ( b , a )\)
  • X服從\(\beta\)分佈,記\(X \sim B e ( a , b )\)\(E X = \frac { a } { a + b } , D X = \frac { a b } { ( a + b ) ^ { 2 } ( a + b + 1 ) }\)

2.2.3 \(t\)分佈族

  • \(X,Y\)獨立,\(X \sim N ( 0,1 ) , Y \sim \chi ^ { 2 } ( n )\),則\(T = \frac { X } { \sqrt { Y / n } } \sim t ( n )\)
  • \(E T = 0 ( n > 1 )\),密度函數曲線關於\(x\)軸對稱。\(D T = \frac { n } { n - 2 } ( n > 2 )\)

2.2.4 \(F\)分佈族

  • \(X,Y\)獨立,\(X \sim \chi ^ { 2 } ( m ) , Y \sim \chi ^ { 2 } ( n )\),則\(F = \frac { X / m } { Y / n } \sim F ( m , n )\)
  • \(F \sim F ( m , n )\),則\(\frac { 1 } { F } \sim F ( n , m )\)
  • \(F _ { \alpha } ( m , n ) = \frac { 1 } { F _ { 1 - \alpha } ( n , m ) }\)

2.3 正態整體的抽樣分佈

  • 設整體\(X \sim N \left( \mu , \sigma ^ { 2 } \right)\)\(X _ { 1 } , X _ { 2 } , \cdots , X _ { n }\)爲整體\(X\)的樣本,\(\overline { X } , S ^ { 2 }\)分別爲樣本均值和樣本方差。
    \[\overline { X } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i }\]
    \[S ^ { 2 } = \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 }\]
  • 有以下性質:
    • \(\overline { X } \sim N \left( \mu , \frac { \sigma ^ { 2 } } { n } \right)\),或\(\frac { \overline { X } - \mu } { \sigma / \sqrt { n } } \sim N ( 0,1 )\)
    • \(\frac { ( n - 1 ) s ^ { 2 } } { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 1 )\)
    • \(\frac { \overline { X } - \mu } { S / \sqrt { n } } \sim t ( n - 1 )\)

3. 參數估計

  • 統計分析的基本任務是從樣本出發推斷整體分佈或整體的某些數字特徵,咱們把這個過程稱爲統計推斷。統計推斷可分爲兩大類,一類是參數估計,另外一類是假設檢驗。參數估計又分爲兩個子問題:點估計和區間估計。

3.1 點估計

  • 根據樣本\(X _ { 1 } , X _ { 2 } , \cdots , X _ { n }\)構造一個統計量\(\hat { \theta } = \hat { \theta } \left( X _ { 1 } , X _ { 2 } , \cdots , X _ { n } \right)\)來估計\(\theta\)
  • 點估計的方法有不少,最多見的有矩估計法、最大似然估計法、順序統計量法和最小二乘法等。這裏只介紹矩估計法和最大似然估計法。

3.1.1 矩估計法

  • 矩估計法的原理是用樣本的\(k\)階矩代替整體的\(k\)階矩。用\(M _ { k } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } ^ { k }\)代替\(\mu _ { k } = E \left( X ^ { k } \right)\),用\(M _ { k } ^ { * } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { k }\)代替\(\mu _ { k } ^ { * } = E ( X - E ( X ) ) ^ { k }\)
  • 實際計算的時候,每每是用樣本均值代替整體均值,用樣本2階中心矩陣代替整體方差。

3.1.2 最大似然估計法

  • 計算過程以下:
    • 寫出似然函數\(L = L \left( \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right) = \prod _ { i = 1 } ^ { n } f \left( x _ { i } ; \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)\)
    • 取對數\(\ln L \left( \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)=\sum _ { i = 1 } ^ { n } \ln f \left( x _ { i } , \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)\)
    • 求max,\(\ln L \left( \hat { \theta } _ { 1 } , \hat { \theta } _ { 2 } , \cdots , \hat { \theta } _ { m } \right) = \max _ { \theta _ { 1 } , \cdots , \theta _ { m } } \ln L \left( \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)\)
  • 通常求max都是利用導數等於0,計算駐點獲得。

3.2 區間估計

  • 點估計對估計的精度和可靠度bing沒有作明確的回答,例如用樣本均值估計整體均值,有多大的偏差和以多大的可靠度使指望偏差不超過某一限度等問題竇惟講述。
  • 區間估計對真值可能的範圍加以估計,並要求有足夠的置信度確認這種估計。

3.2.1 構造置信區間的方法

  • 置信區間的定義
    • 對未知參數$ \theta $,若是兩個統計量
      \[ \hat { \theta } _ { 1 } = \hat { \theta } _ { 1 } \left( x _ { 1 } , x _ { 2 } ,\cdots , x _ { n } \right) \]
      \[ \hat { \theta } _ { 2 } = \hat { \theta } _ { 2 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) \]
    • 對給定的 $ \alpha ( 0 < \alpha < 1 ) $ 有
      \[ P \left( \theta _ { 1 } < \theta < \theta _ { 2 } \right) = 1 - \alpha \]
    • 則稱 \((\theta_1, \theta_2)\) 爲參數 \(\theta\) 的置信度爲\(1-\alpha\)的置信區間。
  • 通常採用樞軸量法構造置信區間,步驟以下:
    • 構造一個含有未知參數\(\theta\),而不含有其餘未知參數的隨機變量\[ T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ;\theta \right) \]使其分佈爲已知且與\(\theta\)無關,隨機變量T也稱爲樞軸量。函數

    • 對給定的\(\alpha\),根據\(T\)的分佈找出兩個臨界值\(c\)\(d\),使得
      \[ TP \left( c < T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ; \theta \right) < d \right) = 1 - \alpha \]spa

    • 將不等式\[ c < T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ; \theta \right) < d \] 轉化爲等價形式$ \hat { \theta } _ { 1 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) < \theta < \hat { \theta } _ { 2 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) $。
    • 則有\[ P \left( \hat { \theta } _ { 1 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) < \theta < \hat { \theta } _ { 2 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) \right) = 1 - \alpha \],因而\[ \left( \hat { \theta } _ { 1 } , \hat { \theta } _ { 2 } \right) \]\(\theta\)的置信度爲$ 1 - \alpha $的置信區間。文檔

3.2.2 單個正態整體參數的區間估計

  • \(x_{ 1 } , x_{2} , ...,x_{n}\)爲取自正態整體\(N(\mu , \sigma^{ 2 } )\)的樣本,\(\overline { x } , s^{2}\)分別表示樣本均值和樣本方差。博客

  • 指望\(\mu\)的區間估計
    • \(\sigma^2\)已知,求\(\mu\)的置信區間
      \[ u = \frac { \overline { x } - \mu } { \sigma } \sqrt { n } \sim N ( 0,1 ) \]
    • $ - u _ { \frac { \alpha } { 2 } } < u < u _ { \frac { \alpha } { 2 } } $
    • $ \sigma ^ { 2 } \(未知,求\) \mu $的置信區間
      \[ t = \frac { \overline { x } - \mu } { s } \sqrt { n } \sim t ( n - 1 ) \]
    • $ - t _ { \frac { \alpha } { 2 } } ( n - 1 ) < t < t _ { \frac { \alpha } { 2 } } ( n - 1 ) $
  • 方差$ \sigma ^ { 2 } $的區間估計
    • \(\mu\)已知,求$ \sigma ^ { 2 } $的置信區間
      \[ \chi ^ { 2 } = \sum _ { i = 1 } ^ { n } \frac { \left( x _ { t } - \mu \right) ^ { 2 } } { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n ) \]
      • $ \chi _ { 1 - \frac { \alpha } { 2 } } ^ { 2 } ( n ) < \chi ^ { 2 } < \chi _ { \frac { \alpha } { 2 } } ^ { 2 } ( n ) ) $
    • \(\mu\)未知,求$ \sigma ^ { 2 } $的置信區間
      \[ \chi ^ { 2 } = \frac { ( n - 1 ) s ^ { 2 } } { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 1 ) \]
      • $ \chi _ { 1 - \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) < \chi ^ { 2 } < \chi _ { \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) $
  • 我的總結
    • 求均值時,用的是N和t。
    • 求方差時,都是採用卡方。

3.2.3 多個正態整體參數的區間估計

設整體\(X\sim N \left(\mu_1 , \sigma_{1}^{2} \right)\),整體\(Y\sim N \left(\mu_{2} , \sigma_{2}^{2} \right)\),且相互獨立,樣本容量分別爲\(n_1\)\(n_2\)數學

  • 指望差$ \mu_{ 1 } - \mu_{ 2 } $的區間估計
    • $\sigma_{ 1 }^{ 2 } , \sigma_{ 2 }^{ 2 } $已知
      \[ U = \frac { \overline { x } - \overline { y } - \left( \mu_{ 1 } - \mu_{ 2 } \right) } { \sqrt { \sigma_{ 1 } ^ { 2 } / n_{ 1 } + \sigma_{ 2 } ^ { 2 } / n_{ 2 } } } \sim N ( 0,1 ) \]
    • $ \sigma_{ 1 } ^ { 2 } , \sigma_{ 2 }^{ 2 } $未知,樣本容量充分大
      • 用樣本方差代替上一個公式的整體方差
    • \(\sigma_{ 1 }^{ 2 } , \sigma_{ 2 }^{ 2 }\)未知,但$ \sigma_{ 1 }^{ 2 } = \sigma_{ 2 }^{ 2 } = \sigma^{ 2 } $
      \[ t = \frac { \overline { x } - \overline { y } - \left( \mu _ { 1 } - \mu _ { 2 } \right) } { S _ { w } \sqrt { \frac { 1 } { n _ { 1 } } + \frac { 1 } { n _ { 2 } } } } \sim t \left( n _ { 1 } + n _ { 2 } - 2 \right) \]
      • 其中$ S _ { w } = \sqrt { \frac { \left( n _ { 1 } - 1 \right) s _ { 1 } ^ { 2 } + \left( n _ { 2 } - 1 \right) s _ { 2 } ^ { 2 } } { n _ { 1 } + n _ { 2 } - 2 } } $
    • $ - t _ { \frac { \alpha } { 2 } } \left( n _ { 1 } + n _ { 2 } - 2 \right) < t < t _ { \frac { \alpha } { 2 } } \left( n _ { 1 } + n _ { 2 } - 2 \right) $

3.3 貝葉斯估計

  • 前面討論的參數估計的方法只是利用了整體信息,即整體服從何種分佈的信息,以及樣本信息,即樣本數據提供的有關未知參數的信息。然而在實際問題中,可能在抽樣以前就有了關於未知參數的信息,這種信息也被稱做先驗信息。貝葉斯估計不光考慮了整體信息與樣本信息,也考慮了先驗信息。
  • 樣本的聯合密度函數$ f ( x | \theta ) = \prod _ { i = 1 } ^ { n } f \left( x _ { i } ; \theta \right) $
  • 參數\(\theta\)和樣本的聯合密度函數爲$ \pi ( \theta ) f ( x | \theta ) $
  • 樣本的邊緣分佈密度$ g ( x ) = \int _ { - \infty } ^ { + \infty } \pi ( \theta ) f ( x | \theta ) \mathrm { d } \theta $
  • 後驗分佈
    \[h ( \theta | x ) = \frac { \pi ( \theta ) f ( x | \theta ) } { \int _ { - \infty } ^ { + \infty } \pi ( \theta ) f ( x | \theta ) \mathrm { d } \theta } = \frac { \pi ( \theta ) f ( x | \theta ) } { g ( x ) } \]
  • 最大後驗估計\(\hat { \theta } _ { M }\),對後驗分佈\(h ( \theta | x )\)求導,尋找駐點。
  • 指望型估計\(\hat { \theta } _ { E }\),對後驗分佈\(h ( \theta | x )\)求指望,\(\hat { \theta } _ { E } = E( h ( \theta | x ) )\)
  • 最小風險估計\(\hat { \theta } _ { B }\),在平方損失函數\(L ( \theta , d ) = [ \theta - d ( x ) ] ^ { 2 }\)下,\(\hat { \theta } _ { B } = \hat { \theta } _ { E }\)

4. 假設檢驗

4.1 參數假設檢驗

4.1.1 單個正態整體參數的假設檢驗

  • \(x _ { 1 } , x _ { 2 } , \cdots , x _ { n }\)爲取自正態整體\(N \left( \mu , \sigma ^ { 2 } \right)\)的一個容量爲\(n\)的樣本。
  • \(u\)檢驗
    • 已知\(\sigma ^ { 2 } = \sigma _ { 0 } ^ { 2 }\),檢驗\(H _ { 0 } : \mu = \mu _ { 0 } , \quad H _ { 1 } : \mu \neq \mu _ { 0 }\),選擇統計量
      \[u = \frac { \overline { x } - \mu _ { 0 } } { \sigma _ { 0 } } \sqrt { n }\]
      • \(H_0\)成立時,他服從\(N ( 0,1 )\)分佈,拒絕域\(\left\{ | u | \geq u _ { \frac { \alpha } { 2 } } \right\}\)
    • 已知\(\sigma ^ { 2 } = \sigma _ { 0 } ^ { 2 }\),檢驗\(H _ { 0 } : \mu \leq \mu _ { 0 } , \quad H _ { 1 } : \mu > \mu _ { 0 } \left( H _ { 1 } : \mu = \mu _ { 1 } , \mu _ { 1 } > \mu _ { 0 } \right)\),選擇統計量
      \[u = \frac { \overline { x } - \mu _ { 0 } } { \sigma _ { 0 } } \sqrt { n }\]
      • \(H_0\)成立時,他服從\(N ( 0,1 )\)分佈,拒絕域\({u \geq u _ { \alpha }}\)
  • \(t\)檢驗
    • 未知\(\sigma ^ { 2 }\),檢驗\(H _ { 0 } : \mu = \mu _ { 0 } , \quad H _ { 1 } : \mu \neq \mu _ { 0 }\),檢驗統計量爲
      \[t = \frac { \overline { x } - \mu _ { 0 } } { s } \sqrt { n }\]
      • \(H_0\)成立時,\(t\)服從\(t ( n - 1 )\)分佈,拒絕域爲\(\left\{ | t | \geq t _ { \frac { \alpha } { 2 } } ( n - 1 ) \right\}\)
    • 未知\(\sigma ^ { 2 }\),檢驗\(H _ { 0 } : \mu \geq \mu _ { 0 } , \quad H _ { 1 } : \mu < \mu _ { 0 } \left( H _ { 1 } : \mu = \mu _ { 1 } , \mu _ { 1 } < \mu _ { 0 } \right)\),檢驗統計量爲
      \[t = \frac { \overline { x } - \mu _ { 0 } } { s } \sqrt { n }\]
      • 拒絕域爲\(\left\{ t \leq - t _ { \alpha } ( n - 1 ) \right\}\)
  • \(\chi ^ { 2 }\)檢驗
    • 未知\(\mu\),檢驗\(H _ { 0 } : \sigma ^ { 2 } = \sigma _ { 0 } ^ { 2 } , H _ { 1 } : \sigma ^ { 2 } \neq \sigma _ { 0 } ^ { 2 }\)。檢驗統計量爲
      \[\chi ^ { 2 } = \frac { ( n - 1 ) s ^ { 2 } } { \sigma _ { 0 } ^ { 2 } }\]
      • \(H_0\)成立時,他服從\(\chi ^ { 2 } ( n - 1 )\)分佈,拒絕域爲\(\left\{ \chi ^ { 2 } \leq \chi _ { 1 - \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) \right\}\),或\(\left\{ \chi ^ { 2 } \geq \chi _ { \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) \right\}\)
    • 未知\(\mu\),檢驗\(H _ { 0 } : \sigma ^ { 2 } \leq \sigma _ { 0 } ^ { 2 } , H _ { 1 } : \sigma ^ { 2 } > \sigma _ { 0 } ^ { 2 }\),檢驗統計量爲
      \[\chi ^ { 2 } = \frac { ( n - 1 ) s ^ { 2 } } { \sigma _ { 0 } ^ { 2 } }\]
      • 拒絕域爲\(\left\{ \chi ^ { 2 } \geq \chi _ { \alpha } ^ { 2 } ( n - 1 ) \right\}\)

4.1.2 兩個正態整體參數的假設檢驗

  • \(u\)檢驗
    • \(\sigma _ { 1 } ^ { 2 } , \sigma _ { 2 } ^ { 2 }\)已知,檢驗\(H _ { 0 } : \mu _ { 1 } = \mu _ { 2 } , H _ { 1 } : \mu _ { 1 } \neq \mu _ { 2 }\),檢驗統計量爲
      \[u = \frac { \overline { x } - \overline { y } } { \sqrt { \frac { \sigma _ { 1 } ^ { 2 } } { n _ { 1 } } + \frac { \sigma _ { 2 } ^ { 2 } } { n _ { 2 } } } }\]
      • \(H_0\)成立時,他服從\(N ( 0,1 )\)分佈,拒絕域爲\(\left\{ | u | \geq u _ { \frac { \alpha } { 2 } } \right\}\)
  • \(t\)檢驗
    • \(\sigma _ { 1 } ^ { 2 } , \sigma _ { 2 } ^ { 2 }\)未知,但已知\(\sigma _ { 1 } ^ { 2 } = \sigma _ { 2 } ^ { 2 }\),檢驗\(H _ { 0 } : \mu _ { 1 } = \mu _ { 2 } , H _ { 1 } : \mu _ { 1 } \neq \mu _ { 2 }\),檢驗統計量爲
      \[t = \frac { \overline { x } - \overline { y } } { S _ { W } \sqrt { \frac { 1 } { n _ { 1 } } + \frac { 1 } { n _ { 2 } } } }\]
      • 其中\(S _ { W } = \sqrt { \frac { \left( n _ { 1 } - 1 \right) s _ { 1 } ^ { 2 } + \left( n _ { 2 } - 1 \right) s _ { 2 } ^ { 2 } } { n _ { 1 } + n _ { 2 } - 2 } }\)
      • \(H_0\)成立時,他服從\(t(n_1+n_2-2)\)分佈,拒絕域爲\(\left\{ | t | \geq t _ { \frac { \alpha } { 2 } } \left( n _ { 1 } + n _ { 2 } - 2 \right) \right\}\)
  • \(F\)檢驗
    • 未知\(\mu _ { 1 } , \mu _ { 2 }\),檢驗\(H _ { 0 } : \sigma _ { 1 } ^ { 2 } = \sigma _ { 2 } ^ { 2 } , H _ { 1 } : \sigma _ { 1 } ^ { 2 } \neq \sigma _ { 2 } ^ { 2 }\),檢驗統計量爲
      \[F = \frac { s _ { 1 } ^ { 2 } } { s _ { 2 } ^ { 2 } }\]
      • \(H_0\)成立時,他服從\(F(n_1-1,n_2-1)\)分佈,拒絕域爲\(\left\{ F \leq F _ { 1 - \frac { \alpha } { 2 } } \left( n _ { 1 } - 1 , n _ { 2 } - 1 \right) \right\}\),或\(\left\{ F \geq F _ { \frac { \alpha } { 2 } } \left( n _ { 1 } - 1 , n _ { 2 } - 1 \right) \right\}\)
    • 未知\(\mu _ { 1 } , \mu _ { 2 }\),檢驗\(H _ { 0 } : \sigma _ { 1 } ^ { 2 } \leq \sigma _ { 2 } ^ { 2 } , H _ { 1 } : \sigma _ { 1 } ^ { 2 } > \sigma _ { 2 } ^ { 2 }\), 檢驗統計量爲
      \[F = \frac { s _ { 1 } ^ { 2 } } { s _ { 2 } ^ { 2 } }\]
      • \(H_0\)成立時,他服從\(F(n_1-1,n_2-1)\)分佈,拒絕域爲\(\left\{ F \geq F _ { \alpha } \left( n _ { 1 } - 1 , n _ { 2 } - 1 \right) \right\}\)

4.2 非參數假設檢驗

  • 非參數的假設檢驗最多見的是獨立性假設檢驗,以及兩整體分佈比較的假設檢驗,後者一般用符號檢驗法、秩和檢驗法。
  • 具體細節查閱相關文檔,算法比較簡單,不作介紹。

5. 方差分析

  • 方差分析在本質上所研究的是變量之間的關係,尤爲是研究一個(或多個)分類型自變量與一個數值型因變量之間的關係。
  • 從形式上看,方差分析是比較多個整體的均值是否相等,雖然咱們感興趣的是均值是否相等,但在判斷均值之間是否有差別時須要藉助於方差,因此稱爲方差分析。在方差分析中,將影響試驗指標的變量稱爲因素,稱因素所處的不一樣狀態爲水平。
  • 方差分析就是經過對試驗數據進行分析,檢驗方差相同各正態整體的均值是否相等,以判斷各因素對試驗指標的影響是否顯著。
    • 須要注意,前提要求是方差相等。
  • 單因素方差分析即影響試驗指標的變量因素只有一個。本小節只介紹單因素方差分析。

5.1 單因素方差分析

  • 單因素方差分析是固定其餘因素只考慮某一因素\(A\)對試驗指標的影響。將因素\(A\)之外的條件保持不變,取因素\(A\)\(r\)個水平\(A _ { 1 } , A _ { 2 } , \cdots , A _ { r }\),對水平\(A_I\)重複作\(n_i\)次試驗,可得試驗指標的\(n_I\)個數據\(y _ { i 1 } , y _ { i 2 } , \cdots , y _ { i n _ { i } } , i = 1,2 , \cdots , r\)
  • \(\eta _ { i }\)表示水平\(A_i\)的狀況下試驗指標的數值。用\(\eta _ { i 1 } , \eta _ { i 2 } , \cdots , \eta _ { i n _ { i } }\)表示以\(\eta _ { i }\)爲整體的樣本,則\(y _ { i 1 } , y _ { i 2 } , \cdots , y _ { i n _ { i } }\)就是樣本\(\eta _ { i 1 } , \eta _ { i 2 } , \cdots , \eta _ { i n _ { i } }\)的觀察值。
  • 假定上述的\(r\)個整體\(\eta _ { 1 } , \cdots , \eta _ { r }\)是相互獨立且方差相等的隨機變量,\(\eta _ { i } \sim N \left( a _ { i } , \sigma ^ { 2 } \right) , \quad i = 1,2 , \cdots , r\),其中\(\sigma ^ { 2 }\)未知,\(a _ { i }\)也未知。
    • 樣本\(\eta _ { i 1 } , \eta _ { i 2 } , \cdots , \eta _ { i n _ { i } }\)是獨立同分布的。
  • 上述數學符號是一些基礎介紹,以後介紹單因素方差分析的計算方法——平方和的分解與檢驗。

5.2 平方和的分解與檢驗

  • 該方法的任務是解決以下問題:
    • 檢驗假設\(H _ { 0 } : a _ { 1 } = a _ { 2 } = \cdots = a _ { r }\),即均值相等。
    • \(a _ { i } , \sigma ^ { 2 }\)的點估計與區間估計。
  • 該方法稱\(S_T\)爲總誤差平方和,\(S_A\)爲組間誤差平方和,\(S_e\)爲組內誤差平方和。
  • 總誤差平方和分解式爲:\(S _ { T } = S _ { e } + S _ { A }\)
  • 上述三個變量的經常使用計算公式爲:
    \[R=\sum_{i=1}^{r}\sum_{j=1}^{n_i} \eta_{ij}^2\]
    \[G=\sum_{i=1}^{r}\sum_{j=1}^{n_i} \eta_{ij}\]
    \[P=\sum_{i=1}^{r}\frac{({\sum_{j=1}^{n_i}\eta_{ij}})^2}{n_I}\]
    \[S_T=R - \frac{G^2}{n}\]
    \[S_A=P - \frac{G^2}{n}\]
    \[S_e=R - P\]
    • \(R\)爲全部數據的平方和
    • \(P\)爲全部數據的和
    • \(n\)爲全部數據的數量
  • 檢驗統計量爲
    \[F = \frac { S _ { A } / \sigma ^ { 2 } ( r - 1 ) } { S _ { e } / \sigma ^ { 2 } ( n - r ) } = \frac { ( n - r ) S _ { A } } { ( r - 1 ) S _ { e } } \sim F ( r - 1 , n - r )\]
  • 拒絕域爲\(\left\{ F > F _ { \alpha } ( r - 1 , n - r ) \right\}\)

6. 迴歸分析

  • 實際問題中變量之間每每都是有相互聯繫或者相互制約的,變量之間的關係大體分爲兩類。一類是肯定性關係,也就是函數關係。另外一類是相關關係,變量之間有密切的關係,可是不能用一個肯定的函數關係來表達。
  • 迴歸分析是研究數值型自變量與數值型因變量之間的相關關係的一種統計分析方法。
  • 本小節只介紹一元線性迴歸模型

6.1 一元線性迴歸模型

  • 線性迴歸的迴歸參數一般由最小二乘估計來肯定。

    • \[L _ { x x } = \sum _ { i = 1 } ^ { n } \left( x _ { i } - \overline { x } \right) ^ { 2 }\]
      \[L _ { y y } = \sum _ { i = 1 } ^ { n } \left( y _ { i } - \overline { y } \right) ^ { 2 }\]
      \[L _ { x y } = \sum _ { i = 1 } ^ { n } \left( x _ { i } - \overline { x } \right) \left( y _ { i } - \overline { y } \right)\]
    • \(\beta _ { 0 } , \beta _ { 1 }\)的最小二乘估計簡寫爲
      \[\left\{ \begin{array} { l } { \beta _ { 0 } = \overline { y } - \beta _ { 1 } \overline { x } } \\ { \beta _ { 1 } = L _ { \mathrm { xy} } / L _ { \mathrm { xx } } } \end{array} \right.\]
      • 由此便獲得線性迴歸方程的相關係數。
  • 接下來介紹一些經常使用符號
    • 總平方和\(S_T\)
      \[S_T=\sum _ { i = 1 } ^ { n } \left( y _ { i } - \overline { y } \right) ^ { 2 } = L_{yy}\]
    • 迴歸平方和\(S_R\)
      \[S_R=\sum _ { i = 1 } ^ { n } \left( \hat { y } _ { i } - \overline { y } \right) ^ { 2 } = \frac {L_{xy} L_{xy}} {L_{xx}} = \hat { \beta } _ { 1 } L_{xy}\]
    • 殘差平方和\(S_e\)
      \[S_e= \sum _ { i = 1 } ^ { n } \left( y _ { i } - \hat { y } _ { i } \right) ^ { 2 }\]
    • 平方和分解式能夠簡寫爲\(S _ { T } = S _ { R } + S _ { e }\)
  • 一般用最大似然估計法獲得\(\sigma ^ { 2 }\)的估計值爲
    \[\hat { \sigma } ^ { 2 } = \frac { 1 } { n - 2 } \sum _ { i = 1 } ^ { n } S_e\]
  • \(E \left( \hat { \beta } _ { 1 } \right)=\beta _ { 1 }\)
  • \(D \left( \hat { \beta } _ { 1 } \right)= \frac { \sigma ^ { 2 } } {L_{xx}}\)
  • 相關係數
    \[r=\frac { L _ { xy} } { \sqrt { L _ { xx} L _ { yy} } }\]
  • 決定係數
    \[R=r^2=\frac {S_R} {S_T}\]
相關文章
相關標籤/搜索