書名:數據挖掘導論(Introduction to Data Mining)
做者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民郵電出版社
譯者: 範明 / 範宏建
出版年: 2010-12-10
ISBN: 9787115241009併發
彙總統計(summary statistics)是量化的(如均值和標準差),用單個數或數的小集合表示可能很大的值集的各類特徵。機器學習
考慮m個對象,這m個對象具備屬性x,x的取值集合爲{v1,...,vi,...,vk}。
則vi對應的頻率: frequency(vi) = 具備屬性vi的對象數/m
分類屬性的衆數(mode)是具備最高頻率的值。學習
對於有序數據,考慮值集的百分位數(percentile)更有意義。具體來講,給定一個有序的或連續的屬性x和0與100之間的數p,屬性x的第p個百分位數xp是一個x值,使得x的p%的觀測值小於xp。動畫
對於連續數據,兩個使用最普遍的彙總統計是均值(mean)和中位數(median),它們是值集位置的度量。
考慮m個對象,這m個對象具備屬性x,x的取值集合爲{v1,...,vi,...,vk},且vi <= v(i+1),則
均值:
\[ mean(x) = \bar{x} = \frac{1}{m}\sum_{i=1}^{m}v_i \tag{3-1}\]
中位數:
\[ median(x) = \left\{ \begin{matrix}v_{r+1},m=2r+1\\ \frac{1}{2}(v_r + v_{r+1}),m=2r\end{matrix} \right. \tag{3-2} \]
歸納地說,若是奇數個值,則中位數是中間值;若是有偶數個值,則中位數是中間兩個值的平均值。
因爲均值對離羣值敏感,因此有時採用截斷均值(trimmed mean)。指定0和100之間的百分位數p,丟棄高端和低端的(p/2)%的數據,而後用常規的方法計算均值。中位數就是p=100時的截斷均值。spa
度量數據的集中程度。
最簡單的度量是極差(range)。給定屬性x,它具備m個值{\(x_1\),..,\(x_m\)},則極差:
\[ range(x) = max(x) - min(x) \tag{3-3} \]
更經常使用的度量是方差(variance)和標準差(standard deviation)。方差記做\(s_x^{2}\),標準差是方差的平方根,記做\(s_x\)。標準差和x具備相同的單位。
\[ s_x^{2} = \frac{1}{m-1}\sum_{i=1}^m(x_i - \bar{x})^{2} \tag{3-4} \]
注意,式(3-4)表示的是樣本方差,注意與整體方差進行區別。
因爲方差對離羣值敏感,因此有時會用到如下三種度量。
絕對平均誤差(absolute average deviation, AAD):
\[ AAD(x) = \frac{1}{m}\sum_{i=1}^m|x_i - \bar{x}| \tag{3-5} \]
中位數絕對誤差(median absolute deviation, MAD):
\[ MAD(x) = median(\{|x_1 - \bar{x}|,...,|x_m - \bar{x}|\}) \tag{3-6} \]
四分位數極差(interquartile range, IQR):
\[ IQR(x) = x_{75\%} - x_{25\%} \tag{3-7} \]對象
包含多個屬性的數據的位置度量,能夠經過分別計算每一個屬性的均值或中位數獲得。
對於每一個屬性的散佈狀況,更多的使用協方差矩陣(covariance matrix)S表示,其中,S的第ij個元素\(s_{ij}\)是數據的第i個和第j個屬性的協方差。這樣,若是\(x_i\)和\(x_j\)分別是第i個和第j個屬性,則:
\[ s_{ij} = covariance(x_i, x_j) \tag{3-8} \]
而其中,
\[ covariance(x_i, x_j) = \frac{1}{m-1}\sum_{k=1}^m(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}) \tag{3-9} \]
其中,\(x_{ki}\)和\(x_{kj}\)分別是第k個對象的第i和第j個屬性的值。
協方差的值接近於0,代表兩個變量不具備(線性)關係。
數據的相關性,能夠用相關矩陣(correlation matrix)來度量。相關矩陣的第ij個元素是數據的第i和第j個屬性之間的相關性。若是\(x_i\)和\(x_j\)分別是第i個和第j個屬性,則:
\[ r_{ij} = correlation(x_i, x_j) = \frac{covariance(x_i, x_j)}{s_is_j} \tag{3-10} \]
其中\(s_i\)和\(s_j\)分別是\(x_i\)和\(x_j\)的方差。ip
餅圖(pie chart)ci
動畫get
Chernoff臉(Chernoff face)it
ACCENT原則: