強影響點,即對模型參數估計值影響有些比例失衡的點,好比移除某個點,會致使模型發生巨大的變化ide
一、檢測強影像點:Cook距離,或稱 D統計量,以及變量添加圖(added varialeplot),通常來講Cook'D值大於 4/(n-k-1),則代表它是強影響點,其中n爲樣本量大小,k是預測變量數目,可經過以下代碼繪製Cook‘s圖形函數
#繪製Cook's點檢測強影響點 > cutoff <- 4/(nrow(states)-length(fit$coefficients)-2) > plot(fit,which = 4,cook.levels = cufoff) > abline(h=cutoff,lty=2,col="red")
圖中 Alsaka,Hawali,Nevada是強影響點,剔除會影響到迴歸模型的係數和截距項,注意雖然該圖對搜尋最強點頗有用,但我逐漸發現以 1 爲分割點比 4/(n-kspa
-1)更具通常性。若設定 D =1 爲判別標準,則數據集中沒有看起來像是強影響點code
Cook’s能鑑別強影響點,可是沒法識別影響多少,而對於一個響應變量和k個預測變量,能夠建立k個變量添加圖,來觀察對模型的影響ci
所謂變量添加圖,即對每一個預測變量Xk,繪製 Xk在其餘 k-1 個預測變上回歸的殘差值相對於響應變量在其餘 k-1 個預測變量上回歸的殘差值的關係圖,car包中avPlot()函數可提供變量添加圖it
> library(car) > avPlots(fit, ask=FALSE, id.method="identify")
xxxxxxxxxx