Tukey‘s test方法 異常值

如何計算異常值

異常值就是和其餘樣本數據有顯著差別的值。這個詞在統計學中常常用到,能夠表示數據異常或測量錯誤。明白算異常值的方法,對於正確理解數據很是有用,並且會引出更精確的結論。如下介紹一個很簡單的算異常值的過程和方法。python

 

 

# 引用numpy模塊
import numpy as np

#求數組a的中位數
np.median(a)

#求數組a的四分位數
np.percentile(a, [25, 50, 75])

 

 

 

 

 

步驟

  1. 以Calculate Outliers Step 1爲標題的圖片
     
    瞭解如何認出潛在異常值。計算以前先辨認數據中的潛在異常值。好比一列數據,表示的是房間內12個東西的溫度。若是其中11個的溫度在70華氏度(21攝氏度左右)內,第12個卻跑到300華氏度(約150攝氏度)了,那你能夠粗略判斷這是一個異常值。
     
  2. 以Calculate Outliers Step 2爲標題的圖片
     
    把數據從小到大排列。以以上數據爲例,繼續考慮房間內物體溫度: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69},變動順序爲: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
     
  3. 以Calculate Outliers Step 3爲標題的圖片
     
    計算中位數。中位數是一串數據中間的一個數據點,若是數據總數是偶數,那麼中間兩位數的平均數就是中位數。上面數據中,中間兩項是70、71,則中位數是((70 + 71) / 2)或70.5
     
  4. 以Calculate Outliers Step 4爲標題的圖片
     
    計算下四分位數,這裏設置爲Q1,表示總數據最小的25%的數據在這個點如下。在上面例子中,又有兩個數據要被平分,即((70 + 70) / 2) 或 70
     
  5. 以Calculate Outliers Step 5爲標題的圖片
     
    計算上四分位數,設置爲Q3,表示最大的25%數據都在這個點以上。本例子中Q3 是7一、72的平均數,即 71.5
     
  6. 以Calculate Outliers Step 6爲標題的圖片
     
    找出數據的「內圍」。第一步是把Q1和Q3的差(四分位差)乘以1.5。上面的例子中,四分位差是(71.5 - 70)得 1.5。再乘以1.5 得 2.25 ,加上Q3 ,用Q1 減去這個和,獲得內圍。本例中內圍是67.75 and 73.75.
    • 任何在這個範圍外的數字都是「平穩界外值」。本例子中,只有300華氏度是在範圍之外的,便是所謂的平穩界外值。
     
  7. 以Calculate Outliers Step 7爲標題的圖片
     
    找出數據外圍。和內圍方法相似,不過這裏要將四分位差乘以3 而非1.5。乘以3即(1.5 * 3) 獲得 4.5。獲得外圍是65.5 、 76
    • 任何這個範圍之外的數字,都算是「極端界外值」,300度也在這個範圍外,所以也算「極端界外值」
相關文章
相關標籤/搜索