統計學基礎之假設檢驗

目錄:函數

1、基本概念spa

  一、原假設.net

  二、備擇假設設計

  三、兩類錯誤3d

  四、顯著性水平orm

  五、p值對象

  六、單側檢驗blog

  七、雙側檢驗事件

2、假設檢驗的分類get

  一、一個整體參數的假設檢驗

  • 整體均值的檢驗
  • 整體比例的檢驗
  • 整體方差的檢驗  

  二、兩個整體參數的假設檢驗

  • 兩個整體均值之差的檢驗
  • 兩個整體比例之差的檢驗
  • 兩個整體方差比的檢驗

 

 

1、基本概念

假設檢驗是用來判斷樣本與樣本,樣本與整體的差別是由抽樣偏差引發仍是本質差異形成的統計推斷方法。其基本原理是先對整體的特徵做出某種假設,而後經過抽樣研究的統計推理,對此假設應該被拒絕仍是接受做出推斷。

(1)先假設整體某項假設成立,計算其會致使什麼結果產生。若致使不合理現象產生,則拒絕原先的假設。若並不致使不合理的現象產生,則不能拒絕原先假設,從而接受原先假設。
(2)它又不一樣於通常的反證法。所謂不合理現象產生,並不是指形式邏輯上的絕對矛盾,而是基於小几率原理:機率很小的事件在一次試驗中幾乎是不可能發生的,若發生了,就是不合理的。至於怎樣纔算是「小几率」呢?一般可將機率不超過0.05的事件稱爲「小几率事件」,也可視具體情形而取0.1或0.01等。在假設檢驗中常記這個機率爲α,稱爲顯著性水平。而把原先設定的假設成爲原假設,記做H0。把與H0相反的假設稱爲備擇假設,它是原假設被拒絕時而應接受的假設,記做H1。

一、原假設:轉自:http://www.javashuo.com/article/p-xbushqwu-er.html

  原假設亦稱待驗假設、虛無假設、解消假設,通常記爲Ho。

  假設檢驗的基本思想是機率性質的反證法。根據所考察問題的要求提出原假設和備擇假設,爲了檢驗原假設是否正確,先假定原假設是正確的狀況下,構造一個小几率事件,而後根據抽取的樣本去檢驗這個小几率事件是否發生。若是在一次試驗中小几率事件居然發生了,咱們就懷疑原假設原假設的正確性,從而拒絕原假設若是在一次試驗中小几率事件沒有發生,則沒有理由懷疑原假設原假設的正確性,所以接受原假設。

平均數比較的原假設是:平均數相等。
單樣本t檢驗中原假設是觀測者與檢驗值沒有顯著差別
正態分佈的原假設是:服從正態分佈。
方差齊次性檢驗的原假設是:方差相等。
相關性檢驗的原假設是:不相關。
差別性檢驗中原假設是無差異假設
eg:
列聯表中的卡方檢驗原假設爲: 行列變量獨立

二、備擇假設

備擇假設包含關於整體分佈的一切使原假設不成立的命題。備擇假設亦稱對立假設、備選假設。

設整體 的分佈函數 中, 爲未知參數, ,爲參數空間。咱們將參數空間 分解爲互不相交的兩個部分 及 ,即 . 考慮檢驗問題:

 爲非空子集,
 是假設檢驗的對象,稱
 爲原假設(或零假設),稱
 爲備擇假設(或備選假設,對立假設)。
 
 
若是 只含有兩個點,即若
 ,則有
這時稱
 及
 分別爲 簡單原假設及簡單備擇假設。
 
 
若是 多於兩個點,即若
 ,而
 爲非單點集,即有
則稱
 爲 簡單原假設
 爲複合備擇假設。
 
注:若
 及
 都是非單點集,則稱
 及
 都是複合的。

三、兩類錯誤

  在進行假設檢驗時提出原假設和備擇假設,原假設其實是正確的,但咱們作出的決定是拒絕原假設,此類錯誤稱爲第一類錯誤。原假設其實是不正確的,可是咱們卻作出了接受原假設的決定,此類錯誤稱爲第二類錯誤。

   第一類錯誤(Ⅰ類錯誤)也稱爲 α錯誤,是指當 虛無假設(H0)正確時,而拒絕H0所犯的錯誤。這意味着研究者的結論並不正確,即觀察到了實際上並不存在的處理效應。
可能產生緣由:
一、樣本中極端數值。
二、採用決策標準較寬鬆。
   第二類錯誤(Ⅱ類錯誤)也稱爲β錯誤,是指虛無假設錯誤時,反而接受虛無假設的狀況,即沒有觀察到存在的處理效應。
可能產生的緣由:
一、實驗設計不靈敏。
二、樣本數據變異性過大。
三、處理效應自己比較小。
   兩類錯誤的關係
一、 α+β不必定等於1。
二、在樣本容量肯定的狀況下,α與β不能同時增長或減小。
三、統計檢驗力。(1-β)

四、顯著性水平

  顯著性水平是估計整體參數落在某一區間內,可能犯錯誤的機率,用α表示。當原假設爲正確時人們卻把它拒絕了的機率或風險。它是公認的小几率事件的機率值,必須在每一次統計檢驗以前肯定,一般取α=0.05或α=0.01。這代表,看成出接受原假設的決定時,其正確的可能性(機率)爲95%或99%。

  顯著性水平是在進行假設檢驗時事先肯定一個可容許的做爲判斷界限的小几率標準。檢驗中,依據顯著性水平大小把機率劃分爲二個區間,小於給定標準的機率區間稱爲拒絕區間,大於這個標準則爲接受區間。事件屬於接受區間,原假設成立而無顯著性差別;事件屬於拒絕區間,拒絕原假設而認爲有顯著性差別  [2]  。對顯著水平的理解必須把握如下二點:
一、顯著性水平不是一個固定不變的數值,依據拒絕區間所可能承擔的風險來決定。
二、統計上所講的顯著性與實際生活工做中的顯著性是不同的。

五、p值

  P值是用來斷定假設檢驗結果的一個參數,也能夠根據不一樣的分佈使用分佈的拒絕域進行比較。當原假設爲真時所獲得的樣本觀察結果或更極端結果出現的機率。若是P值很小,說明原假設狀況的發生的機率很小,而若是出現了,根據小几率原理,咱們就有理由拒絕原假設,P值越小,咱們拒絕原假設的理由越充分。總之,P值越小,代表結果越顯著。可是檢驗的結果到底是「顯著的」、「中度顯著的」仍是「高度顯著的」須要咱們本身根據P值的大小和實際問題來解決。

  在一個機率模型中,統計摘要(如兩組樣本均值差)與實際觀測數據相同,或甚至更大這一事件發生的機率。換言之,是檢驗假設零假設成立或表現更嚴重的可能性。p值若與選定顯著性水平(0.05或0.01)相比更小,則零假設會被否認而不可接受。然而這並不直接代表原假設正確。p值是一個服從正態分佈的隨機變量,在實際使用中因樣本等各類因素存在不肯定性。產生的結果可能會帶來爭議。

爲理解P值的計算過程,用Z表示檢驗的統計量,ZC表示根據樣本數據計算獲得的檢驗統計量值。 

左側檢驗 P值是當
時,檢驗統計量小於或等於根據實際觀測樣本數據計算獲得的檢驗統計量值的機率,即p值
右側檢驗
P值是當μ=μ0時,檢驗統計量大於或等於根據實際觀測樣本數據計算獲得的檢驗統計量值的機率,即p值
雙側檢驗
P值是當μ=μ0時,檢驗統計量大於或等於根據實際觀測樣本數據計算獲得的檢驗統計量值的機率,即p值
 
在原假設爲真的條件下, 檢驗統計量的觀察值大於或者等於其計算值的機率 (通俗點說P值爲當原假設爲真時所獲得的樣本觀察結果或更極端結果出現的機率)
轉自:https://blog.csdn.net/weixin_34120274/article/details/92154510
    P值很小,說明發生這種狀況的機率很小,拒絕原價 
理解
P值就是 原假設爲真的機率,a 是顯著性水平,表明小几率事件
當在雙側檢驗中 , 當 a =0.05,P < 0.025(a/2=0.025) 則拒絕原假設(說明原假設出現的機率比小几率事件還要小,固然要拒絕),相反則接受原假設、
當在單側檢驗中,當 a =0.05 ,P < 0.05 則拒絕原假設

六、單側檢驗

  當要檢驗的是樣本所取自的整體的參數值大於或小於某個特定值時,所採用的一種單方面的統計檢驗方法。
  單側檢驗包括左單側檢驗和右單側檢驗兩種。若是所要檢驗的是樣本所取自的整體的參數值是否大於某個特定值時,則採用右單側檢驗;反之,若所要檢驗的是樣本所取自的整體的參數值是否小於某個特定值時,則採用左單側檢驗。
  單參數假設檢驗問題
(1)
(2) 稱爲單側假設檢驗問題 。
 爲
 上的單參數機率密度族且關於實值統計量
 具備非降單調似然比,則關於單側假設檢驗問題,
 
 
(a)存在水平有
的 UMP 檢驗的檢驗函數
其中常數
 和 c 由下式肯定:
(b)這個檢驗的勢函數 是非降的,且在集合
 上是嚴格增長的。
 
(c)在一切使得  的檢驗函數
 中,
 
由(a)中所肯定的檢驗函數
 ,使得對任意的
 ,
 都達到最小。
而對單側假設檢驗問題(2),則相似上面的 (a) ,(b),(c) 結論均成立,只須要將(a) 中的第一個式子中的不等號改變方向便可。

七、雙側檢驗

指當統計分析的目的是要檢驗樣本平均數和整體平均數,或樣本成數有沒有顯著差別,而不問差別的方向是不是正差仍是負差時,所採用的一種統計檢驗方法。

單參數假設檢驗問題
(1)
(2)  或
 ,
 
(3)  或
稱爲 雙側假設檢驗問題
 
 
設樣本
服從單參數指數族分佈(即機率密度知足
 形式,其中
 爲實參數
 是
 的嚴增函數)。
(1)關於雙側假設檢驗問題
存在水平爲
 的 UMPU 檢驗,其檢驗函數爲
其中常數
 和
 由下式肯定:
2)關於雙側假設檢驗問題
 或
 ,存在水平爲
 的 UMPU 檢驗,其檢驗函數爲
其中常數
 和
 由下式肯定:
3)關於雙側假設問題
 或
 ,存在水平爲
 的 UMP 檢驗,其檢驗函數依賴於充分統計量
 ,形如
其中常數 和
 由下式肯定:
 

2、假設檢驗的分類

一、一個整體參數的假設檢驗

  • 整體均值的檢驗
  • 整體比例的檢驗
  • 整體方差的檢驗  

二、兩個整體參數的假設檢驗

  • 兩個整體均值之差的檢驗
  • 兩個整體比例之差的檢驗
  • 兩個整體方差比的檢驗
相關文章
相關標籤/搜索