χ² - 檢驗測試
讀做「卡方檢驗」。它用來檢驗盒子的組成成分。spa
舉一個書本中的習題:設計
某項有關加州 Alameda 縣的大陪審團的研究,比較了陪審團成員們與全體人口之間的統計特徵,目的是查看陪審團成員們是否具備表明性。這裏是一份關於年齡方面的結果。(僅考慮21歲和以上的人;縣年齡分佈由公共衛生部的數據而得知。)
orm這66名陪審團成員是從 Alameda 縣的(21歲及以上)人口整體中隨機選取的嗎?數學
年齡 | 全縣的百分數 | 陪審員人數 | 指望人數 |
21到40 | 42 | 5 | 27.7 |
41到50 | 23 | 9 | 15.2 |
51到60 | 16 | 19 | 10.6 |
61及以上 | 19 | 33 | 12.5 |
—— | —— | —— | |
總數 | 100 | 66 | 66 |
答:it
若是是做隨機有放回抽取,盒子應該看上去是這樣的:
table
從表中能夠看到,4類陪審員人數距離指望值都有很大差距。基礎
本檢驗中:變量
【原假設】認爲陪審團構成反映了縣人口的基本構成,就等於咱們認可陪審團成員是從上面的盒子中隨機有放回地抽取而來,而每一類成員數量與指望值的差僅僅是機會變異形成的。
隨機數
【備選假設】不認可上述觀點,認爲差別是客觀存在的,否定了陪審員是在縣人口整體中隨機抽取的。
卡方檢驗能很好解決這個問題。
(1)計算卡方統計量
χ² = ∑ [(觀察頻數 - 指望頻數)² / 指望頻數 ]
表中有幾行,公式中就有幾項,對於本題,有:
χ² = (27.7-5)² / 27.7 + (15.2-9)² / 15.2 + (10.6-19)² / 10.6 + (12.5-33)² / 12.5 = 61.4
(2)計算卡方檢驗的自由度
自由度 = χ² 中的項數 - 1
對於本題,有:
自由度 = 3
(3)計算顯著性P
對於卡方檢驗,P 近似地等於 χ² 統計量觀察值以右,適當自由度的 χ² 曲線下面的面積。
查表可知,自由度爲 3 的卡方曲線當統計量爲 11.34 時,已是高度顯著了(1%),而本題中的統計量高達 61.4。毫無疑問,應當拒絕原假設,陪審團成員並不能有效表明全縣居民。
χ² 還能夠用來檢驗隨機變量的獨立性。
下表是在 Wyoming 1988 年 3 月現場人口調查中 25-29 歲人口的婚姻狀態交叉統計列表。請問 Wyoming 居民的性別與他/她的婚姻狀態是相互獨立的嗎?
男人 | 女人 | |
從未結過婚 | 21 | 9 |
已婚 | 20 | 39 |
喪偶 / 離異 / 分居 | 7 | 7 |
答:
這是一張 3 × 2 的表格。
通常地,在研究兩個變量之間的關係時,若其中一個有 m 個值,另外一個有 n 個值,則須要一張 m × n 的表。
行和列的總數:
男人 | 女人 | 總數 | |
從未結過婚 | 21 | 9 | 30 |
已婚 | 20 | 39 | 59 |
喪偶 / 離異 / 分居 | 7 | 7 | 14 |
總數 | 48 | 55 | 103 |
根據上表,從未結過婚的樣本百分數是:
30 / 103 = 29.1%
男人總數是 48,若是婚姻狀態與性別相互獨立,則男人中從未結婚的指望人數是:
48 × 29.1% = 14.0
同理能夠計算出其餘統計量的指望值。
觀察與指望的頻數對比:
男人 | 男人的指望 | 女人 | 女人的指望 | |
從未結過婚 | 21 | 14.0 | 9 | 16.0 |
已婚 | 20 | 27.5 | 39 | 31.5 |
喪偶 / 離異 / 分居 | 7 | 6.5 | 7 | 7.5 |
(1)計算卡方統計量
χ² = ∑ [(觀察頻數 - 指望頻數)² / 指望頻數 ] = 10.5
(2)計算卡方檢驗的自由度
當檢驗一張 m × n 的表(不具備有關機率的其餘約束)中的獨立性時,有
(m-1) × (n-1 )個自由度。
對於本題,有:
自由度 = (3-1)× (2-1) = 2
(3)計算顯著性P
經過查表,對於自由度爲 2 的卡方曲線,當 χ² = 10.5 時,其 P < 1%,爲高度顯著。因此,咱們認爲在 1988 年 3 月的 Wyoming,居民的性別與其婚姻狀態具備相關性。
顯著性檢驗的深刻思考
(1)顯著性 ≠ 重要性
假設在美國,有調查人員試圖比較大城市和農村的 6-9 歲兒童的 WISC (韋克斯勒兒童智力量表)詞彙量等級得分。他們分別取 2500 個城市兒童和 2500 個農村兒童的簡單隨機樣本。大城市兒童平均得分 26,農村兒童平均得分 25, SD 都是 10。這一分之差意味着什麼?
答:
城市兒童平均得分的 SE = 10 / SquareRoot(2500) = 0.2;
農村兒童平均得分的 SE = 10 / SquareRoot(2500) = 0.2;
城市兒童與農村兒童平均得分之差的 SE = SquareRoot( 0.2² + 0.2² ) ≈ 0.3。故
Z = 1 / 0.3 = 3.3
P ≈ 5 / 10000
檢驗結果爲高度顯著,6-9 歲城市兒童與農村兒童之間的 WISC 詞彙量測試具備差別。
上面的數學計算沒有任何問題,一個教育局官員拿到統計報告後能夠考慮向農村學校投入更多經費了。
可是真的有必要嗎?
WISC 中有 40 個單詞是兒童必須掌握的,正確解釋得 2 分,部分解釋得 1分。所以 1 分的得分差距只等於 40 單詞中有 1 個是部分理解。而這不能成爲教育改革的堅實基礎。
因此,高度顯著的統計數據只能體現出差別的明顯性,但並不解釋差別的含義是什麼。
(2)顯著性檢驗不回答「爲何?」
曾經有這樣一個實驗:
爲了檢驗第六感是否存在,有人設計了一個機器,這個機器可以分別以 25% 的機率在屏幕上輸出 4 個圖形。實驗要求志願者在每次顯示圖形以前經過對應的按鈕選擇將要出現的圖形。
在 7500 次試驗中志願者猜中 2006 次,相比之下指望猜中次數是 0.25 × 7500 = 1875,差是 2006 - 1875 = 131,Z ≈ 3.5,P ≈ 2/10000 (單尾)。這說明什麼?
這樣的檢驗結果很難解釋成機會變異。難道真的有第六感?深刻考察後發現,這個機器的隨機數發生器有一個缺陷:它不多在一排裏連續兩次挑中同一個目標。在實驗中,不排除有志願者觀察到這個細微的規律並利用它改善猜想結果。
(3)顯著性檢驗的適用範圍
有以下統計數據(虛構):
2010年末淘寶上的註冊買家共 5.67 億人,其中 65.6% 爲女性;2015年末淘寶上的註冊買家共 7.89 億人,其中 61.9% 爲女性。問這兩個百分比之差統計顯著嗎?
作這樣一個統計檢驗毫無心義。由於咱們已經得到了全量數據,統計結果中不存在機會變異。即便統計過程當中存在偏差,也沒法經過盒子模型來體現。因此,女性用戶的比例在降低是明顯的、實際的。
若是顯著性檢驗是基於整個整體的數據,請當心一點
另外一個例子:
某大學研究生部試圖比較當前全校研究生的男女錄取率。當年某研究生專業的實際狀況以下:825名男生申請,61.7%被錄取、108名女生申請,82.4%被錄取。男女錄取率之間的差距統計顯著嗎?
若是在這些數據上作 Z-檢驗,結果是沒有意義的。由於樣本集合具備偏性,或者說某專業的錄取狀況並不能反映全校的狀況。一般把這樣具備偏性的樣本叫作方便樣本。
若是顯著性檢驗基於一個方便的樣本,請當心一點。
顯著性檢驗的適用狀況能夠總結爲:
(1)樣本選擇能夠類比成從一個盒子中抽取卡片的過程
(2)盒子中的卡片從比例上反映了整體數據