===測試
數據中的異常值可能會使預測失真並影響準確性,尤爲是在迴歸模型中,若是您沒有正確檢測並處理它們,那麼它們會影響精度spa
在真實觀察中處理或改變異常值/極端值不是標準操做程序。可是,瞭解它們對預測模型的影響相當重要。留待調查人員判斷是否須要治療異常值以及如何去作。對象
那麼,爲何識別極端值很重要?由於,它能夠大大偏倚/改變合適的估計和預測。讓我使用cars數據集來講明這一點。blog
爲了更好地理解異常值的含義,我將比較具備和不具備異常值的汽車數據集的簡單線性迴歸模型的擬合。爲了清楚地區分效果,我手動將極端值引入原始數據集。而後,我預測這兩個數據集。rem
對於給定的連續變量,異常值是那些位於1.5 * I Q R以外的觀測值,其中IQR,「四分位數間距」是第75和第25個四分位之間的差值。在盒子下面看看鬍鬚外的點。get
可視化X和Y的框圖,用於分類Xit
什麼是推論?盒子水平的變化代表,Month彷佛有影響,ozone_reading而Day_of_week沒有。相應分類層級中的任何異常值都顯示爲盒外晶須外的點。class
你能夠在箱形圖中看到幾個異常值,以及這個值是如何ozone_reading增長的pressure_height。這很清楚。變量
基於僅僅一個(至關不重要)的特徵聲明觀察結果爲異常值可能會致使不切實際的推論。當你必須決定一個單獨的實體(由行或觀察值表示)是不是極值時,最好集體考慮重要的特徵(X)。輸入Cook的距離。可視化
庫克距離是一個關於給定迴歸模型計算的度量,所以僅受模型中包含的X個變量的影響。可是,廚師的距離是什麼意思?它計算每一個數據點(行)對預測結果的影響。
如今讓咱們從原始數據中找出有影響的行。若是你提取並檢查每個有影響的行(從下面的輸出),你將可以推斷出爲何該行變得有影響力。模型中包含的X個變量之一可能具備極端值。
異常值測試
該功能outlierTest從car包中給出了基於給定的模型最極端的觀察。如下是基於mod咱們剛建立的線性模型對象的示例。