R語言OutliersO3軟件包異常值檢測方法比較

原文連接:http://tecdat.cn/?p=8502

識別異常值的方法有不少種,R中有不少不一樣的方法。

關於異常值方法的文章使用了理論和實踐的混合體。理論一切都很好,但異常值是異常值,由於它們不遵循理論。實踐涉及數據的測試方法,有時用基於理論模擬的數據,更好地使用「真實」數據集。若是一種方法發現咱們都贊成的異常值,那麼它能夠被認爲是成功的,可是咱們是否都贊成哪些個案是異常值?算法

異常值概述(O3)圖旨在幫助比較和理解異常值方法的結果。測試

Stackloss數據集的O3圖。每一個變量組合(由左邊的列定義)有一行,找到了異常值,並將每一個案例的一列標識爲異常值(右邊的列)。spa

威爾金森的算法爲整個數據集找到了6個離羣值(圖的最下面一行)。整體而言,對於各類變量組合,發現14個案例是潛在的異常值 。 blog

一個O3plot,用於比較堆棧損耗數據集中由HDoutliers和mvBACON標識的異常值。rem

在OutliersO3中有四種其餘方法可用, :get

    HDo    PCS    BAC adjOut    DDC    MCD##    14      4      5      0      6      5

R中還有其餘異常方法,他們無疑會給出更多不一樣的結果。建議必須謹慎行事。離羣值自己多是有趣的,它們多是某種錯誤 - 咱們可能不一樣意它們是不是異常值。it

相關文章
相關標籤/搜索