R基礎提供的標準方法

  • plot()

lm()函數返回對象使用plot()函數,能夠生產給你評價模型擬合狀況的四幅圖形函數

fit <- lm(weight ~ height, data = women)
par(mfrow=c(2,2))  #圖將以2*2佈局
plot(fit)

 

  • OLS迴歸的統計假設

 

回顧下OLS迴歸的統計假設內容佈局

  • 正態性

當預測變量固定時,因變量成正態分佈,則殘差值也應該是一個均值爲0的正態分佈。spa

「正態Q-Q圖」(Normal Q-Q)是正態分佈對對應的值下,標準化殘差的機率圖,若知足正態假設,那麼圖上點應該落在45度角的直線上,若不是如此,那麼違反了正態性的假設code

 

  • 獨立性

沒法從圖中收集分辨出因變量值是否獨立,只能從收集的數據中驗證?orm

  • 線性

若因變量與自變量線性相關,那麼殘差值和預測(擬合)值就沒有任何系統關聯。換句話說 ,除了白噪聲,( 如何判斷時間序列是不是白噪聲? - 知乎 )模型應該包含數據中全部的系統防方差,在「殘差圖與擬合圖」(Residuals vs Fitted)中能夠清楚的看到一個曲線關係,暗示可能須要迴歸模型須要加上一個二次項對象

  • 同方差性

若知足不變方差假設,那麼在位置尺度圖(Scale-Location Graph)中,水平線周圍點應該隨機分佈,該圖彷佛知足此假設get

 

  • 一個觀測點是離羣點,

代表擬合迴歸模型對其效果不佳(產生了巨大的正或負的殘差)it

  • 一個觀測點有很高的杆槓值

代表它是一個異常的預測變量值的組合,也就說,在預測變量空間中年,它是一個離羣點,因變量不參與計算一個觀測點的槓桿值io

  • 一個觀測點是強影響點(influential observation)

代表它對模型參數的估計產生的影響過大,很是不成比例,強影響點能夠經過Cook距離即Cook’D統計量來鑑別變量

相關文章
相關標籤/搜索