關於異常值方法的文章使用了理論和實踐的混合體。理論一切都很好,但異常值是異常值,由於它們不遵循理論。實踐涉及數據的測試方法,有時用基於理論模擬的數據,更好地使用「真實」數據集。若是一種方法發現咱們都贊成的異常值,那麼它能夠被認爲是成功的,可是咱們是否都贊成哪些個案是異常值?算法
異常值概述(O3)圖旨在幫助比較和理解異常值方法的結果。測試
Stackloss數據集的O3圖。每一個變量組合(由左邊的列定義)有一行,找到了異常值,並將每一個案例的一列標識爲異常值(右邊的列)。spa
威爾金森的算法爲整個數據集找到了6個離羣值(圖的最下面一行)。整體而言,對於各類變量組合,發現14個案例是潛在的異常值 。 blog
一個O3plot,用於比較堆棧損耗數據集中由HDoutliers和mvBACON標識的異常值。rem
在OutliersO3中有四種其餘方法可用, :get
R中還有其餘異常方法,他們無疑會給出更多不一樣的結果。建議必須謹慎行事。離羣值自己多是有趣的,它們多是某種錯誤 - 咱們可能不一樣意它們是不是異常值。it