強影響點

  • 概念

強影響點,即對模型參數估計值影響有些比例失衡的點,好比移除某個點,會致使模型發生巨大的變化ide

  • 如何檢測

一、檢測強影像點:Cook距離,或稱 D統計量,以及變量添加圖(added varialeplot),通常來講Cook'D值大於 4/(n-k-1),則代表它是強影響點,其中n爲樣本量大小,k是預測變量數目,可經過以下代碼繪製Cook‘s圖形函數

#繪製Cook's點檢測強影響點
> cutoff <- 4/(nrow(states)-length(fit$coefficients)-2)
> plot(fit,which = 4,cook.levels = cufoff)
> abline(h=cutoff,lty=2,col="red")

圖中 Alsaka,Hawali,Nevada是強影響點,剔除會影響到迴歸模型的係數和截距項,注意雖然該圖對搜尋最強點頗有用,但我逐漸發現以 1 爲分割點比 4/(n-kspa

-1)更具通常性。若設定 D =1 爲判別標準,則數據集中沒有看起來像是強影響點code

 

  • 添加變量圖

Cook’s能鑑別強影響點,可是沒法識別影響多少,而對於一個響應變量和k個預測變量,能夠建立k個變量添加圖,來觀察對模型的影響ci

所謂變量添加圖,即對每一個預測變量Xk,繪製 Xk在其餘 k-1 個預測變上回歸的殘差值相對於響應變量在其餘 k-1 個預測變量上回歸的殘差值的關係圖,car包中avPlot()函數可提供變量添加圖it

> library(car)
> avPlots(fit, ask=FALSE, id.method="identify")
xxxxxxxxxx

相關文章
相關標籤/搜索