泊松分佈的方差和均值相等。當響應變量觀測的方差比依據泊松分佈預測的方差大時,泊松分佈迴歸可能發生 過分離勢dom
處理計數數據時常常發生過分離勢,且過分離勢會對結果的可解釋性形成負面影響ide
若是存在過分離勢,在模型中沒法進行解釋,那麼可能會獲得很小的標準誤和置信區間,而且顯著性及那樣也過於寬鬆(也就是說,你將會發現並不真實存在的效應)函數
a、遺漏了某個重要的預測變量spa
b、可能由於事件相關code
在泊松分佈的觀測中,計算中每次事件都被認爲是獨立發生的,以癲癇病爲例,這覺得着對於任何病人,每次癲癇發病的機率與其餘癲癇發病的機率互相獨立,可是這個假設一般都沒法知足,對某個病人,在已知他已經發生了39次癲癇時,第一次發生癲癇的機率不可能與第40次發生癲癇的機率相同orm
c、在縱向數據分析中,重複測量的數據因爲內在羣聚特性可致使過分離勢。此處並不討論縱向泊松模型事件
一、與Logistic迴歸相似,殘差變差與殘差自由度的比例遠遠大於1,代表存在過分離勢ip
#仍是Seizures的數據 > deviance(fit)/df.residual(fit) [1] 10.1717 #結果遠大於1
二、qcc包提供了對泊松模型過分離勢的檢驗方法ci
library(qcc) qcc.overdispersion.test(breslow.dat$sumY,type="possion") #獲得的結果會發現 p-value小於 0.05
經過用 family="quasipoisson"替代 family=「poisson」 仍然可使用 glm()函數對該數據進行擬合,這與Logistic迴歸處理過分離勢的方法是相同的數據分析
> fit.od <- glm(sumY ~ Base + Age + Trt, data=breslow.dat, + family=quasipoisson()) > summary(fit.od) Call: glm(formula = sumY ~ Base + Age + Trt, family = quasipoisson(), #family =quasipoisson data = breslow.dat) Deviance Residuals: Min 1Q Median 3Q Max -6.0569 -2.0433 -0.9397 0.7929 11.0061 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.948826 0.465091 4.190 0.000102 *** Base 0.022652 0.001747 12.969 < 2e-16 *** Age 0.022740 0.013800 1.648 0.105085 Trtprogabide -0.152701 0.163943 -0.931 0.355702 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for quasipoisson family taken to be 11.76075) Null deviance: 2122.73 on 58 degrees of freedom Residual deviance: 559.44 on 55 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 5
注意,使用類泊松分佈(quasi-Poisson)方法所得的參數估計與泊松方法相同,但標準誤變大了許多。此處,標準偏差越大將會致使Trt(和Age)的p值越大於0.05,當考慮過分離勢,而且控制基數癲癇數和年齡時,並無充足的證據代表藥物治療相對於使用安慰劑能明顯下降癲癇發病次數