強影響點

時間 2019-12-20

標籤影響简体版

原文原文鏈接

概念

強影響點，即對模型參數估計值影響有些比例失衡的點，好比移除某個點，會致使模型發生巨大的變化ide

如何檢測

一、檢測強影像點：Cook距離，或稱 D統計量，以及變量添加圖（added varialeplot），通常來講Cook'D值大於 4/(n-k-1)，則代表它是強影響點，其中n爲樣本量大小，k是預測變量數目，可經過以下代碼繪製Cook‘s圖形函數

#繪製Cook's點檢測強影響點
> cutoff <- 4/(nrow(states)-length(fit$coefficients)-2)
> plot(fit,which = 4,cook.levels = cufoff)
> abline(h=cutoff,lty=2,col="red")

圖中 Alsaka，Hawali，Nevada是強影響點，剔除會影響到迴歸模型的係數和截距項，注意雖然該圖對搜尋最強點頗有用，但我逐漸發現以 1 爲分割點比 4/(n-kspa

-1)更具通常性。若設定 D =1 爲判別標準，則數據集中沒有看起來像是強影響點code

添加變量圖

Cook’s能鑑別強影響點，可是沒法識別影響多少，而對於一個響應變量和k個預測變量，能夠建立k個變量添加圖，來觀察對模型的影響ci

所謂變量添加圖，即對每一個預測變量Xk，繪製 Xk在其餘 k-1 個預測變上回歸的殘差值相對於響應變量在其餘 k-1 個預測變量上回歸的殘差值的關係圖，car包中avPlot()函數可提供變量添加圖it

> library(car)
> avPlots(fit, ask=FALSE, id.method="identify")

xxxxxxxxxx

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。