【機率論與數理統計】小結9-3 - 區間估計

時間 2019-12-13

標籤機率論與數理統計小結區間估計简体版

原文原文鏈接

注：區間估計是除點估計以外的另外一類參數估計。相對於點估計只給出一個具體的數值，區間估計可以給出一個估計的範圍。html

0. 點估計 vs 區間估計

根據具體樣本觀察值，點估計提供了一個明確的數值。可是這種判斷的把握有多大，點估計自己並無給出。區間估計就是爲了彌補點估計的這種不足而提出來的。app

相同點：函數

均可以給出未知參數的估計；
估計的準確度都依賴取樣的質量.

不一樣點：測試

點估計須要的信息少(矩估計僅須要樣本信息)，獲得的估計值也比較粗略；
區間估計須要的信息更多(除了樣本，還須要知道整體或樣本的某些數字特徵的分佈形式)，獲得的結果是包含置信水平的一個區間.

區間估計：spa

設$X$是整體，$X_1, ..., X_n$是一個樣本. 區間估計的目的是找到兩個統計量：code

$\hat{\theta_1} = \hat{\theta_1}(X_1, ..., X_n),$htm

$\hat{\theta_2} = \hat{\theta_2}(X_1, ..., X_n),$blog

使隨機區間$(\hat{\theta_1}, \hat{\theta_2})$以必定可靠程度蓋住$\theta$.ip

1. 置信水平和置信區間

1.1 定義

設整體$X$的分佈函數$F(x;\theta)$, $\theta$未知. 對給定值$\alpha(0< \alpha <1)$，有兩個統計量ci

$\hat{\theta_L} = \hat{\theta_L}(X_1, ..., X_n),\ \hat{\theta_U} = \hat{\theta_U}(X_1, ..., X_n), $

使得：$P\{\hat{\theta_L}(X_1, ..., X_n) < \theta < \hat{\theta_U}(X_1, ..., X_n)\} \geq 1 - \alpha$

則$(\hat{\theta_L}, \hat{\theta_U})$稱爲$\theta$的置信水平爲$1 - \alpha$的雙側置信區間；

$\hat{\theta_L}$和$\hat{\theta_U}$分別稱爲雙側置信下限和雙側置信上限.

1.2 說明

參數$\theta$雖然未知，可是肯定的值。$\hat{\theta_L}, \hat{\theta_U}$是統計量，隨機的，依賴於樣本；

置信區間$(\hat{\theta_L}, \hat{\theta_U})$也是隨機的，依賴於樣本。樣本不一樣，算出來的區間也不一樣。

對於有些樣本觀察值，區間覆蓋$\theta$，但對於另外一些樣本觀察值，區間則不能覆蓋$\theta$。

例題1

設整體$X \sim N(\mu, 4)$, $\mu$未知，$X_1, ..., X_4$是一個樣本。則$\bar{X} \sim N(\mu, 1)$(樣本均值的分佈).

$P(\bar{X} - 2 < \mu < \bar{X} + 2) = P(|\bar{X} - \mu| < 2) = 2\Phi(2) - 1 = 0.9544$

=> $(\bar{X} - 2, \bar{X} + 2)$是$\mu$的置信水平爲0.95的置信區間。

若$\mu = 0.5$(整體均值的真實值，待估計值)，當$\bar{x}$分別爲3, 2,1時，對應區間爲：$(1, 5), (0, 4), (-1, 3)$

對於一個具體的估計結果而言，或者包含真值(後兩個區間)，或者不包含真值(第一個區間)，無幾率可言。這就像是某產品的合格率是99%，可是對每個具體的消費者而言，買到的產品要麼是合格品要麼是次品，沒有機率可言；可是從消費者羣體來看，99%表示若是有10000我的購買了這件商品，會有100我的買到次品。

1.3 單側置信區間

若是$P\{\hat{\theta_L}(X_1, ..., X_n) < \theta\} \geq 1 - \alpha$，則$\hat{\theta_L}$稱爲參數$\theta$的置信水平$1 - \alpha$的單側置信下限；

若是$P\{\theta < \hat{\theta_U}(X_1, ..., X_n)\} \geq 1 - \alpha$，則$\hat{\theta_U}$稱爲參數$\theta$的置信水平$1 - \alpha$的單側置信上限；

單側置信限和雙側置信區間的關係：

設$\hat{\theta_L}$是$\theta$的置信水平爲$1 - \alpha_1$的單側置信下限，$\hat{\theta_U}$是$\theta$的置信水平爲$1 - \alpha_2$的單側置信上限，則$(\hat{\theta_L}, \hat{\theta_U})$是$\theta$的置信度爲$1 - \alpha_1 - \alpha_2$的雙側置信區間。表示成公式以下(一般下面的$\alpha_1$和$\alpha_2$都是很是小的值)：

$P\{\hat{\theta_L} >= \theta\} \leq \alpha_1$, $P\{\theta \geq \hat{\theta_U}\} \leq \alpha_2$, =>

$P\{\hat{\theta_L} < \theta < \hat{\theta_U}\} = 1 - P\{\hat{\theta_L} \geq \theta\} - P\{\hat{\theta_U} \leq \theta\} \geq 1 - \alpha_1 - \alpha_2$.

至關於：$\theta$小於$\hat{\theta_L}$的機率很是小，$\theta$大於$\hat{\theta_U}$的機率也很是小，那麼$\theta$在這二者之間的機率就比較大。

1.4 精確度

置信區間$(\hat{\theta_L}, \hat{\theta_U})$的平均長度$E(\hat{\theta_U} - \hat{\theta_L})$爲區間的精確度，精確度的一半爲偏差限。(由於每次抽樣得到的數據點不一樣 => 每次獲得的樣本均值和方差不一樣 => 在置信水平必定的狀況下，置信區間的長度不一樣)

在給定的樣本容量下，置信水平和精確度是相互制約的。置信水平越高，精確度越低；相反精確度越高，置信水平越低。置信水平肯定了置信區間的大小，若是置信水平很是高(例如接近1)，那麼置信區間就會很是寬。這個時候，不管怎麼抽樣，獲得的區間估計幾乎總會包含待估計的真值。可是因爲範圍太大了，這個估計的區間也就失去了意義(精確度過低)。例如，須要估計一箇中等規模的電影院裏天天來看電影的人數，若是咱們估計的區間是$[1, 100000]$，這個估計的置信水平很是高(真實觀影人數確定是在這個區間)，可是這樣的估計幾乎沒什麼價值。

1.5 對置信區間的理解

通常地，$P\{\hat{\theta_L}(X_1, ..., X_n) < \theta < \hat{\theta_U}(X_1, ..., X_n)\} = 1 - \alpha$，則置信區間$(\hat{\theta_L}, \hat{\theta_U})$的含義爲：

反覆抽樣屢次(例如$m$次，每次都隨機抽出$n$個數據點)，這些抽到的樣本(共$m$個樣本，$m*n$個數據點)，每個都能肯定一個區間$(\hat{\theta_L}^{(i)}, \hat{\theta_U}^{(i)})$(第$i$次抽樣進行區間估計後肯定的區間)，每一個這樣的區間可能包含真值$\theta$，也可能不包含真值$\theta$。按照伯努利大數定律，當抽樣次數足夠大時，在這些區間中，包含真值$\theta$的比例約爲$1 - \alpha$.

對於每次抽樣進行區間估計時，置信區間就是一個機率分佈函數中某兩個點之間的區域，例如例1中的$(\bar{X} - 2， \bar{X} + 2)$；置信水平就是這兩個點各自對x軸的垂線，以及x軸和密度函數所圍成的區域的面積(例如上例中的0.95)。置信區間越窄，精確度就越高(不肯定性更小，結果更加精確)，但此時置信區間能夠圍成的面積就越小，因此置信水平就越小(即在屢次抽樣中，區間估計的結果很難包含真值$\theta$，可是一旦包含，結果的範圍就能夠限制在一個很是小的範圍)。假如反覆抽樣10000次，且設定$\alpha = 0.1$，即置信水平爲90%(置信水平限制了每次區間估計時的取值範圍)，那麼這10000個區間估計的結果中包含真值$\theta$的約爲9000個。

2. 樞軸量

在小結"小結9-1 - 參數估計概述"中，對樞軸量的定義，以及樞軸量與統計量之間的差異做了簡單介紹。下面進一步介紹樞軸量法須要解決的問題以及樞軸量的構造和常見的樞軸量。

2.1 樞軸量法須要解決的問題

樞軸量法做爲區間估計的主要方法，要求解的問題以下：

設整體$X$的分佈含有未知參數$\theta$，$X_1, ..., X_n$是一次抽樣獲得的樣本。

如何給出$\theta$的置信水平爲$1 - \alpha$的雙側置信區間(或單側置信上限、單側置信下限)？

求解步驟：

(1) 找一個隨機變量$G$，該隨機變量須要知足如下兩個條件：

分佈已知；
是整體未知參數$\theta$和樣本$X_1, ..., X_n$的函數

(2) 找$a \lt b$，使$P(a \lt G \lt b) \geq 1 - \alpha$

(3) 從$a \lt G \lt b$解出$\hat{\theta}_L \lt \theta \lt \hat{\theta}_U$

$(\hat{\theta}_L, \hat{\theta}_U)$就是置信度爲$1 - \alpha$的雙側置信區間。

邊界$a, b$的選擇

對於樞軸量$G$，知足$P(a < G <b) \geq 1 - \alpha$的$a, b$可能有不少，這時能夠參考下面的原則來進行選擇：

(1) 根據Neyman原則：求$a$和$b$使得區間長度最短；

(2) 若是最優解不存在或比較複雜，對連續整體，常取$a$和$b$知足

$P(G(X_1, ..., X_n; \theta) \leq a) = P(G(X_1, ..., X_n; \theta) \geq b) = \alpha/2$

例題2

在點估計中有一個例子：爲了估計4000名學生《微積分》課程的平均成績，隨機抽出了100名學生並用這100名同窗的《微積分》課程的平均成績來估計4000名學生的平均成績，這就至關於完成了一次矩估計。

下面從區間估計的角度來解決這個問題：

從4000名學生中隨機選出100名，計算獲得他們《微積分》課程的平均成績爲72.3分，標準差爲15.8分。假設所有學生的成績$X \sim N(\mu, \sigma^2)$, $\mu, \sigma$均未知，求$\mu$的置信水平爲95%的雙側置信區間。

解：

對於正態整體$X \sim N(\mu, \sigma^2)$, $X_1, ..., X_n$是$X$的樣本，那麼$\mu$的極大似然估計是$\bar{X}$,

$\bar{X} \sim N(\mu, \frac{\sigma^2}{n}), => \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)$

因爲$\sigma$未知，不能取$\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}$做爲樞軸量！

用樣本方差代替整體方差能夠獲得，$\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n - 1)$，$\frac{\bar{X} - \mu}{S/\sqrt{n}}$符合樞軸量的定義，能夠做爲本次估計的樞軸量。此時問題轉化成

求$a, b$，使得$P(a < \frac{\bar{X} - \mu}{S/\sqrt{n}} < b) = 0.95%$，且置信區間最短.

即：$\bar{X} - b \frac{S}{\sqrt{n}} < \mu < \bar{X} - a \frac{S}{\sqrt{n}}$

且$E(\bar{X} - a \frac{S}{\sqrt{n}}) - E(\bar{X} - b \sqrt{S}{\sqrt{n}}) = (b - a) \frac{E(S)}{\sqrt{n}} = min$

等價於在$P(a < \frac{\bar{X} - \mu}{S/\sqrt{n}} < b) = 0.95%$成立的$a, b$中$b-a = min$

因爲t分佈是對稱的，因此$b = -a = t_{0.0025}(99) \approx z_{0.0025} = 1.96$

由$\bar{x} = 72.3, s = 15.8$計算得，$\mu$的置信水平爲95%的雙側置信區間爲$(69.2, 75.4)$.

這一置信區間有95%的把握包含真值。

2.2 樞軸量的構造

樞軸量$G(X_1, ..., X_n; \theta)$的構造，一般從$\theta$的點估計$\hat{\theta}$(如極大似然估計，矩估計等)出發，根據$\theta$的分佈(或包含$\theta$的函數的分佈)進行改造而得。

2.3 常見樞軸量

從區間估計的求解流程和上面的例子能夠看出來，若是要使用樞軸量法來做區間估計，找到合適的樞軸量是關鍵。在上面的例子中，因爲整體的分佈已知，所以對整體的均值$\mu$進行估計的時候，先用樣本均值$\bar{X}$來進行點估計，而後再使用樣本均值構造服從t分佈的樞軸量來肯定區間的邊界$a, b$.

下面全部的樞軸量都是跟整體均值和方差有關的，所以咱們能估計的也僅限於這兩個參數；
整體方差已知和未知是兩種不一樣的狀況，構造出來的樞軸量屬於不一樣的分佈；
具備兩個正態整體時，能夠估計兩個不一樣整體均值的差或方差的比值.

2.3.1 單個正態整體$N(\mu, \sigma^2)$情形

(1) $\mu$的樞軸量：

$\sigma^2$已知時，$\frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)$
$\sigma^2$未知時，$\frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t(n - 1)$

(2) $\sigma^2$的樞軸量：

$\mu$未知，$\frac{(n-1) S^2}{\sigma^2} \sim \chi^2(n-1)$

2.3.2 二個正態整體$N(\mu_1, \sigma_1^2), N(\mu_2, \sigma_2^2)$的情形

(1) $\mu_1 - \mu_2$的樞軸量：

$\sigma_1^2, \sigma_2^2$已知時，

$$\frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1)$$

$\sigma_1^2 = \sigma_2^2$未知時，

$$\frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{1/n_1 + 1/n_2}} \sim t(n_1 + n_2 - 2)$$

其中$S_w^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}, S_w = \sqrt{S_w^2}$

(2) $\frac{\sigma_1^2}{\sigma_2^2}$的樞軸量

$\mu_1, \mu_2$未知

$$\frac{S_1^2 / S_2^2}{\sigma_1^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)$$

2.3.3 其餘整體均值的區間估計

設整體$X$的均值爲$\mu$，方差爲$\sigma^2$，非正態分佈或不知分佈形式. 樣本爲$X_1, ..., X_n$.

當n充分大(通常$n > 30$)時，有中心極限定理知，$\bar{X} \sim N(\mu, \sigma^2/n)$，所以

$$\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)$$

以上分佈爲近似分佈

當$\sigma^2$已知時，$\mu$的置信水平爲$1 - \alpha$的近似置信區間爲

$$(\bar{X} - z_{\alpha/2} \sigma / \sqrt{n}, \bar{X} + z_{\alpha/2} \sigma / \sqrt{n})$$

當$\sigma^2$未知時，以樣本方差$S^2$代入，得近似置信區間爲

$$(\bar{X} - z_{\alpha/2} S / \sqrt{n}, \bar{X} + z_{\alpha/2} S / \sqrt{n})$$

3. 區間估計的類型

3.1 單個正態整體

單個正態整體均值的區間估計讓咱們在必定樣本量的狀況下，對整體的均值有一個大概的認識，而且這種認識是有必定保證的(置信度)。例如，咱們能夠經過隨機選取幾十個嬰兒，測量他們的體重，從而得知幾乎全部的嬰兒(好比95%的嬰兒)的體重大概在什麼範圍。

3.1.1 整體均值$\mu$的置信區間

設整體$X \sim N(\mu, \sigma^2)$, $X_1, X_2, ..., X_n$爲樣本. $\bar{X}$和$S^2$分別爲樣本均值和樣本方差，置信水平爲$1 - \alpha$.

(1) 整體方差$\sigma^2$已知時

$\bar{X}$是$\mu$的極大似然估計，取樞軸量$G = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)$

設常數$a < b$知足：$P\{a < G < b\} \geq 1 - \alpha$

等價於 $P\{\bar{X} - \frac{\sigma}{\sqrt{n}} b < \mu < \bar{X} - \frac{\sigma}{\sqrt{n}} a\} \geq 1 - \alpha$ ($1 - \alpha$就是置信區間與機率密度函數和x軸圍成的面積)

由正態分佈的對稱性可知，$a = -b = - z_{\alpha/2}$時，置信區間的長度$L$達到最短$L = 2 z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$. 固定n，置信水平提升，即$(1 - \alpha)$增大，則$z_{\alpha/2}$增大，全部$L$變大，精確度下降；反之亦然。

因此$\mu$的雙側置信區間爲：

$$(\bar{X} - \frac{\sigma}{\sqrt{n}} z_{\alpha/2}, \bar{X} + \frac{\sigma}{\sqrt{n}} z_{\alpha/2})$$

單側置信下限爲：$\bar{X} - \frac{\sigma}{\sqrt{n}} z_{\alpha}$

單側置信上限爲：$\bar{X} + \frac{\sigma}{\sqrt{n}} z_{\alpha}$

(2) 整體方差$\sigma^2$未知時

以樣本方差$S^2$估計$\sigma^2$，得樞軸量$G = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)$

由$-t_{\alpha/2}(n-1) < G < t_{\alpha/2}(n-1)$解得，

$\bar{X} - \frac{S}{\sqrt{n}} t_{\alpha/2}(n-1) < \mu < \bar{X} + \frac{S}{\sqrt{n}} t_{\alpha/2}(n-1)$

因此$\mu$的置信區間爲：

$$(\bar{X} - \frac{S}{\sqrt{n}} t_{\alpha/2}(n-1), \bar{X} + \frac{S}{\sqrt{n}} t_{\alpha/2}(n-1))$$

單側置信下限爲：$\bar{X} - \frac{S}{\sqrt{n}} t_{\alpha}(n-1)$

單側置信上限爲：$\bar{X} + \frac{S}{\sqrt{n}} t_{\alpha}(n-1)$

3.1.2 整體方差$\sigma^2$的置信區間($\mu$未知)

設整體$X \sim N(\mu, \sigma^2)$, $X_1, X_2, ..., X_n$爲樣本. $\bar{X}$和$S^2$分別爲樣本均值和樣本方差，置信水平爲$1 - \alpha$.

由$\sigma^2$的估計$S^2$，獲得樞軸量$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$

由$\chi^2_{1-\alpha/2}(n-1) < \frac{(n-1)S^2}{\sigma^2} < \chi^2_{\alpha/2}(n-1)$

推出

$$\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)} < \alpha^2 < \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}$$

所以雙側置信區間爲：$(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1 - \alpha/2}(n-1)})$

單側置信下限爲：$\frac{(n-1)S^2}{\chi^2_{\alpha}(n-1)}$

單側置信上限爲：$\frac{(n-1)S^2}{\chi^2_{1 - \alpha}(n-1)}$

例題2：

某種產品的壽命(單位：千小時)$X \sim N(\mu, \sigma^2)$，$\mu, \sigma^2$未知. 現隨機抽查10件產品進行壽命試驗，測得樣本均值$\bar{x} = 5.78$，樣本方差$s = 0.92$. 求$\mu$的置信水平爲95%的單側置信下限.

解：因爲整體方差未知，以樣本方差$S^2$估計$\sigma^2$，得樞軸量$G = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)$

利用下面的方法計算t分佈中$\alpha = 0.05$時，x的值，即$t_{\alpha}(n-1) = t_{0.05}(9)$的值

from scipy import stats
stats.t.isf(0.05, 9)

結果爲：

1.8331129326536337

因此$\mu$的置信水平爲95%的單側置信下限爲：

$\bar{x} - \frac{s}{\sqrt{10}} t_{0.05}(9) = 5.78 - \frac{0.92}{\sqrt{10}} \times 1.833 = 5.25$

更多關於上$\alpha$分位數的內容，能夠參考"小結8 - 三大抽樣分佈"中的第0小節(分位點/分位數)和第1.4小節(分位數的計算)

3.2 成對數據

這裏的區間估計是指成對數據差的均值置信區間的估計

引例：爲考察某種降壓藥的降壓效果，測試了n個高血壓病人在服藥先後的血壓（收縮壓）爲

$$(X_1, Y_1), ..., (X_n, Y_n).$$

因爲我的體質的差別，$X_1, ..., X_n$不能當作來自同一個正態整體的樣本，即$X_1, ..., X_n$是相互獨立但不一樣分佈的樣本，$Y_1, ..., Y_n$也是. 另外對同一個個體，$X_i$和$Y_i$也是不獨立的.

做差值$D_i = X_i - Y_i, i = 1, ..., n$，則取消了個體差別，僅與降壓藥的做用有關，所以能夠將$D_1, ..., D_n$當作來自同一個正態整體$N(\mu_D, \sigma^2_D)$的樣本，且相互獨立.

由此可得，$\mu_D$的置信水平爲$1-\alpha$的置信區間爲：

$$(\bar{D} - t_{\alpha/2}(n-1)\frac{S_D}{\sqrt{n}}, \bar{D} + t_{\alpha/2}(n-1)\frac{S_D}{\sqrt{n}})$$

其中$\bar{D} = \bar{X} - \bar{Y}, S_D = \sqrt{\frac{1}{n-1} \sum_{ i = 1 }^{ n } (D_i - \bar{D})^2}$

3.3 兩個正態整體

設樣本$(X_1, ..., X_{n_1})$和$(Y_1, ..., Y_{n_2})$分別來自整體$N(\mu_1, \sigma^2)$和$N(\mu, \sigma^2)$，而且它們相互獨立. 樣本均值分別爲$\bar{X}, \bar{Y}$；樣本方差分別爲$S_1^2, S_2^2$. 置信水平爲$1-\alpha$.

3.3.1 兩個均值差$(\mu_1 - \mu_2)$的置信區間

(1) $\sigma_1^2, \sigma_2^2$已知時

由$\mu_1 - \mu_2$的估計$\bar{X} - \bar{Y}$的分佈，得樞軸量：

$$\frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1)$$

得置信區間：$((\bar{X} - \bar{Y}) - z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}, (\bar{X} - \bar{Y}) + z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}})$

(2) $\sigma_1^2 = \sigma_2^2$未知

以$S_w^2 = \frac{(n_1 - 1) S_1^2 + (n_2 - 1) S_2^2}{n_1 + n_2 - 2}$代替$\sigma^2$得樞軸量：

$$\frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)$$

置信區間爲：$((\bar{X} - \bar{Y}) - t_{\alpha/2}(n_1 + n_2 - 2) S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}, (\bar{X} - \bar{Y}) + t_{\alpha/2}(n_1 + n_2 - 2) S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}})$

(3) $\sigma_1^2 \neq \sigma_2^2$且未知

以$S_1^2$估計$\sigma_1^2$，以$S_2^2$估計$\sigma_2^2$

當樣本量$n_1$和$n_2$都充分大時(通常要>30)，

$$\frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \sim N(0, 1)$$

以上爲近似分佈，得近似置信區間爲：$((\bar{X} - \bar{Y}) - z_{\alpha/2} \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}, (\bar{X} - \bar{Y}) + z_{\alpha/2} \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}})$

當樣本量較小時，

$$\frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \sim t(k),$$

以上爲近似分佈，其中$k \approx min(n_1 - 1, n_2 - 1)$，得近似置信區間爲：

$((\bar{X} - \bar{Y}) - t_{\alpha/2}(k) \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}, (\bar{X} - \bar{Y}) + t_{\alpha/2}(k) \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}})$

3.3.2 方差之比$\frac{\sigma_1^2}{\sigma_2^2}$的置信區間（$\mu_1, \mu_2$未知）

由$\frac{\sigma_1^2}{\sigma_2^2}$的估計$\frac{S_1^2}{S_2^2}$獲得樞軸量

$$\frac{S_1^2 / S_2^2}{\sigma_1^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)$$

由$F_{1 - \frac{\alpha}{2}}(n_1 - 1, n_2 - 1) < \frac{S_1^2 / S_2^2}{\sigma_1^2 / \sigma_2^2} < F_{\frac{\alpha}{2}}(n_1 - 1, n_2 - 1)$

得$\frac{S_1^2}{S_2^2} \frac{1}{F_{\frac{\alpha}{2}}(n_1 - 1, n_2 - 1)} < \frac{\sigma_1^2}{\sigma_2^2} < \frac{S_1^2}{S_2^2} \frac{1}{F_{1 - \frac{\alpha}{2}}(n_1 - 1, n_2 - 1) }$

置信區間爲：

$$(\frac{S_1^2}{S_2^2} \frac{1}{F_{\frac{\alpha}{2}}(n_1 - 1, n_2 - 1)}, \frac{S_1^2}{S_2^2} \frac{1}{F_{1 - \frac{\alpha}{2}}(n_1 - 1, n_2 - 1) })$$

歡迎閱讀「機率論與數理統計及Python實現」系列文章