《白話統計&&白話統計學》

1、術語

1.1 整體和樣本,參數和統計量

  • 整體(population):
  • 樣本:整體的子集
  • 參數(parameter):整體數據計算的值,適用於整體
  • 統計量(statistic):樣本數據計算的值
  • 描述統計(descriptive):描述收集數據樣本或整體的信息
  • 推斷統計(inferential):假定收集的樣本可以表明更大的整體,利用樣本數據獲得整體特徵的一些結論。
    注意:整體可大可小,要看你想研究什麼對象;樣本不必定能表明整體,假如不能表明整體,此時獲得的樣本統計量只能用於描述統計,而不能推斷整體參數。

1.2抽樣

  • 隨機抽樣(random sampling):每個樣本被選中的機率相等。
  • 典型抽樣(representative sampling):人爲的有意選取樣本某些特徵和整體相匹配。如整體中男女比例7:3,樣本選取是男女比例也是7:3。
  • 方便抽樣(convenience sampling):根據地理位置、接觸難度、參與意願來選擇樣本。

1.3變量類型和測量尺度

(1)變量類型html

  • 定量/連續(continuous)變量:身高
  • 定性/分類(categorical)變量:男女(二值變量dichotomous variable)
    (2)測量尺度
  • 定類尺度:又叫分類數據,特色是不可排序不可運算。好比,國籍,不能說中國大於美國。只能對面人口、面積。又好比男女
  • 定序尺度:特色是能夠排序但不能夠運算。好比,健康情況(優良中差),優比良好,可是‘’優‘’減不了‘’良‘’
  • 定矩尺度:0點有意義,好比年份1987,零點能夠是公元0年,耶穌出生那年。固然0點能夠隨意定義,假如你統治了時間,你能夠把0點定爲你出生那年,只要有意義便可。
  • 定比尺度:0點無心義,好比體重56公斤,0公斤沒有意義。

後兩種數據統稱爲數值數據。能夠排序能夠運算。python

1.4研究設計

  • 實驗組設計:將樣本分紅不一樣組,而後對感興趣的一個或多個變量進行組間比較。如:AB test
  • 相關性研究設計:收集若干變量數據,進行統計分析以肯定不一樣變量之間彼此相關的強度。

實驗性設計變量因素可控、可分離,但也很難排除全部的干擾因素。相關性研究設計易於實施,但沒法施加精準控制。相關性研究只能提供變量間是否相關的信息(統計理論信息),不能得出實際的因果關係結論(實際業務信息)。算法

2、分佈的集中趨勢和分散變異

2.1集中趨勢

  集中趨勢:又稱「數據的中心位置」、「集中量數」,一組數據的表明值。是用來描述輿論現象的重要統計分析指標。
(1) 均值(算術平均數)mean
  描述平均水平。理論計算方式:
api

  • Outliers(異常值、極端值):數據集中會包含一個或多個數值異常大或異常小的值。異常值檢查方法——(四分位計算法)。
  • 數據偏斜(skewed data)現象:when the outliers 「pull」 the data to the left or right。
  • Mean最大的缺陷——受outliers影響較大。因此mean最適用的狀況爲:
    The data is symmetric(均勻的)
    With the one trend(趨勢)均值迴歸
    (2)中位數
      定義:將數據按大小順序(從大到小或是從小到大均可以)排列後處於中間位置的數。
  • 理論計算方式——從小到大排序,分爲兩種狀況:
  1. n=odd number(奇數),median position=(n+1)/2
  2. n=even number(偶數),median positon=n/2 or n/2+1,so median=two median number/2
  • 最適用的狀況:the data is skewed by outliers.由於中位數不受outliers影響,只跟序列的位置有關。
    (3)四分位數quartile
      定義:把全部數值由小到大排列並分紅四等份,處於三個分割點位置的數值。
  • 下四分位數:Q1,從小到大的順序排序排在第25%位置的數字。
  • 上四分位數:Q3,在第75%位置的數字
  • 四分位距interquartile range:IQR,等於Q3-Q1,衡量數據離散程度的一個統計量
  • Quartile做用——檢查異常值tukey test:
    最小值估計=Q1-K * IRQ
    最大值估計=Q3+K * IRQ
    其中,K=1.5(中度異常)/3(極度異常)
  • 理論計算方式:
  1. 方式一,基於n基礎
    Q1的位置= (n+1) × 0.25
    Q2的位置= (n+1) × 0.5
    Q3的位置= (n+1) × 0.75
  2. 方式二,基於n-1基礎
    Q1的位置=1+(n-1)x 0.25
    Q2的位置=1+(n-1)x 0.5
    Q3的位置=1+(n-1)x 0.75
    若是算出來是小數,取下一個最近的整數。

(4)衆數mode——定類數據dom

  • 數據中出現次數最多的數(所佔比例最大的數),可能會存在多個衆數(多峯),也可能不存在衆數。函數

  • 適用的狀況:不只適用於數值型數據,對於非數值型數據也一樣適用。
    (5)mean、median、mode三者比較

    網站

  • Mean>median:數據向右偏(正偏,尾部趨向高端),右端可能存在極大值(右邊有大的數據,拉高平均值)設計

  • Mean<median:數據向左偏(負偏,尾部趨向低端),左端可能存在極小值(左邊有小的數據,拉低平均值)3d

  中位數位置不變,均值被拉向尾巴一端。好比最大的數爲100時,中位數和均值相等,變成200後(正偏),均值被拉大,中位數不變。orm

(6) 異常值檢查方法
異常值檢查方法

2.2 離散程度和相關性

  對於離散程度的程度衡量,能夠只針對單一變量自身離散程度,如極差、方差、標準差、變異係數等;也能夠針對多變量的離散程度之間的相關性,如協方差、相關係數、皮爾森係數。

  • 極差range:max()-min()

  • 四分位差interquartile range:75%-25%(分紅四組,包含中間兩組數)

  • 離差deviation:點到均值之差。與原單位相同

  • 離差平方和:離差的平方後求和相加。消除正負抵消,相加爲0。單位:原單位的平方。平方和基礎統計學的重要組成部分。

  • 方差variance:點到均值的距離平方(離差平方)和的平均,單位:原單位的平方。通常不用來描述分佈,用來做爲計算其餘統計量(如方差分析)的一個步驟,而不是單獨使用的統計量。

  • 標準差stardard deviation:方差開方,單位:和原單位相同。更喜歡用標準差描述一個分佈中取值的平均離散程度。結合均值能夠很好描述一個分佈的形態。

  • 變異係數(coefficient of variation):

  變異係數CV,又稱「離散係數」(英文:coefficient of variation),是機率分佈離散程度的一個歸一化量度,其定義爲標準差與平均值之比。單位:無量綱。

  • 協方差:

  倘若有兩個變量X,Y,每一個時刻的「X值與其均值只差」乘以「Y值與其均值之差」獲得一個乘積,再對這每時刻的乘積求和並求出均值。
  反映兩個變量在變化過程當中,是同向變化仍是反向變化,同向或反向的程度如何:

  1. 你變大,我也變大,說明兩變量是同向變化,協方差爲正;
  2. 你變大,同時我變小,說明兩變量是反向變化,協方差爲負;
  3. 協方差數值越大,兩變量同向程度也越大,反之亦然。
  • 相關係數:

      用X、Y的協方差除以X的標準差和Y的標準差。相關係數也能夠當作協方差:一種剔除了兩個變量量綱影響、標準化後的特殊協方差。
      也能夠反映兩個變量變化時是同向仍是反向,若是同向變化就爲正,反向變化就爲負;
      因爲它是標準化後的協方差,所以更重要的特性來了:它消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的類似程度。
  • 皮爾森係數(pearson):

參考網站:
協方差和相關係數史詩級白話介紹:協方差和相關係數

3、分佈

3.1 累計函數和機率密度函數

參考網站:累計函數和機率密度函數
①離散型數據
機率函數(機率分佈、分佈律):離散隨機變量X取不一樣的值,對應不一樣的機率值。
機率分佈函數(累計機率函數)F(x):機率函數取值的累加結果。

②連續型數據
機率密度函數(連續型數據機率函數)f(x):連續型數據,某點的機率爲0。只能用某點數據密集程度表示機率分佈狀況。

  左邊是F(x)連續型隨機變量分佈函數畫出的圖形,右邊是f(x)連續型隨機變量的機率密度函數畫出的圖像,它們之間的關係就是,機率密度函數是分佈函數的導函數。

3.4 正態分佈(Normal Distribution)

(1)正態分佈描述現象

  普通分佈,描述某些穩定但又受到一些偶然因素影響的現象。

(2)正態分佈機率密度函數

(3)正態分佈密度函數數學意義

  • f(x)永遠大於0,左右對稱,當x=μ,即等於均數時,機率密度函數達到最大值;
  • x離均數越遠,f(x)值越小,距離無限遠時,趨於0;
  • 標準差σ越大,f(x)值越小,分佈形狀越「矮」,峯度平坦;反之,越’瘦高‘。
  • 中位數=均值=衆數
      正態分佈由兩個參數決定:均數和標準差。均數是位置參數,決定分佈集中的位置;標準差是形狀參數,決定分佈的分散程度。

(4)正態分佈統計規律

  • 1倍標準差面積:68.2%
  • 1.96倍標準差:95%
  • 2倍標準差:95.4%
  • 3倍標準差:99.7%,1000大概會有3次錯誤發生的機率。
  • 6倍標準差:以外的面積爲百萬分之2。100萬份樣品出現2次錯誤。

  好比,X變量(身高)服從:X~N(μ,σ2),其中μ=170,σ=10,則95%的人身高值都落在[150.4,189.6]之間。
  倘若是有偏分佈,再用正態分佈的統計規律去估算機率,就會變得不許確。好比,正偏分佈(多數取值位於較小一端,少數取值位於較大一端),從正態分佈得出的機率將低估較小一端的實際取值個數,高估較大一端實際取值個數。

(5)小几率事件(P<0.05)

  P<0.05,認爲差別有統計學意義。對於正態分佈來講,兩側面積小於5%。即均數往左往右各1.96倍標準差時,對應的左側和右側面積之和就是5%。這個機率很低,通常狀況不會發生,認爲是小几率事件。

(6)標準正態分佈——Z分數(Z變換)(Standarized Normal Distribution)

爲何要進行Z變換?——消除不一樣測量單位的差別,相似於方差和標準差思想。
例子
  生物100分,考了65分;統計學200分,考了42分。哪門成績更好?假如「更好」意味着答題正確率,顯然生物更好。可是這不公平,由於題目難度不同,統計學比生物難太多。公平的作法是,與全班同窗相比,成績處於哪一個百分點。
  生物:μ=60,σ=10,意味着分數比均值高5分(0.5個標準差);
  統計:μ=37,σ=5 ,意味着分數比均值高5分(1.0個標準差);

3.5 幾個常見分佈:t分佈、x2分佈,F分佈

  T檢驗對應t分佈,x2檢驗對應x2分佈,方差分析對應F分佈。

(1)T分佈

(2)x2分佈

(3)F分佈

4、數據資料分類

5、描述統計

6、中心極限定理和大數定理

7、假設檢驗

7.2 零假設和備擇假設

零假設(無效假設Null Hypothesis):通常從正面作出假設(不具有XXX,沒有XXX等)。

8、參數估計

9、置信區間

10、統計方法串講

10.1 通常線性模型(General Linear Model)——方差分析與線性迴歸統計

①t檢驗、方差分析、線性迴歸用途

  • t檢驗——兩組均值比較
  • 方差分析——多組均值比較
  • 線性迴歸——自變量對因變量的影響分析
    ②通常線性模型
    t檢驗、方差分析、線性迴歸等都屬於通常線性模型,通常線性模型基本形式:

      y:因變量(反應變量、結局變量),x:自變量(解釋變量、預測變量)。β0表示截距,反映自變量x=0時,y的均值。β一、β2表示斜率,反映自變量增長1單位,y值變更的大小。
      通常線性模型中,因變量必須是定量的(連續),自變量能夠是定量或分類。自變量的不一樣形式對應不一樣的統計方法:

11、正態性和方差齊性

①作正態性檢驗必要性
  保證樣本數據的隨機性,由於隨機數就是正態分佈的。
②正態性和方差齊性含義
  正態性和方差性是經典統計模型應用的兩個前提條件,t檢驗、方差分析、線性迴歸等都須要知足這兩個條件:

  • 正態性(Normality):嚴格上說是殘差要符合正態分佈,不過實際中都是對因變量進行正態性檢驗。
  • 方差齊性(Equality of Variances):即方差相等,自變量x每取一個值,因變量(嚴格說是殘差)的方差基本相等。

11.1 用統計檢驗方法判斷正態性

(1)基於峯度和偏度的SW(Shapiro-Wilk)檢驗

①峯度和偏度

  • 峯度(Kurtosis):分佈形狀是平坦仍是尖峯,上下維度。
  • 偏度(Skewness):分佈形狀是否對稱,左右維度。
    ②正態分佈的峯度和偏度
      正態分佈的峯度和偏度均爲0。峯度>0,尖峯;峯度<0,平坦峯。偏度>0,右偏態(正偏);偏度<0,左偏態(負偏)。

(2)基於擬合優度KS、CVM、AD檢驗

KS(Kolmogorov-Smirnov)、CVM(Cramer-von Mises)、AD(Anderson-Darling)
①擬合優度思想
  基於理論分佈與基於實際數據獲得的分佈之間的差別。這種思想不只能夠用於正態分佈,還能夠用於其餘分佈檢驗。
②正態分佈擬合優度檢驗思路
  先求出正態分佈的累積分佈函數(CDF,Cumulative Distribution Function)——>樣本數據與該函數差異——>差異不大,接近正態分佈——>差異較大,樣本數據可能不服從正態分佈。
③三種方法對「差異」的定義
三種檢驗都基於此思想,區別在於對「差異」定義:

  • KS:取絕對值
  • CVM:取平方
  • AD:對CVM的改進

④參考網站
KS:KS
python正態檢驗方法:python正態檢驗方法

11.2 用描述的方法判斷正態性——圖形判斷

(1)Q-Q圖和P-P圖

①Q-Q圖含義和檢驗原理
  Q-Q(Quantile-Quantile),分位數-分位數圖。橫座標,理論正態分位數,縱座標,實際數據分位數。
  比較分位數和實際分位數差異。無差異,點集中在一條直線,正態分佈。有差異,偏離直線較遠。
②P-P圖
  P-P(Probability-Probability),和Q-Q相似,用的是累計機率。

(2)莖葉圖

(3)用四分位數間距和標準差進行簡易判斷

  正態分佈四分位間距(IQR)和標準差(s)之比大約爲1.34。若IQR/s=1.34左右,基本知足正態分佈。

11.3 方差分析中方差齊性判斷

①方差齊性判斷
  就是判斷兩組或多組的方差是否相等,樣本抽樣是否是隨機的。方差不等會嚴重影響方差分析的F檢驗。
②各類檢驗方法
...................................

12、T檢驗

相關文章
相關標籤/搜索