《數據挖掘導論》讀書筆記(三)—— 探索數據

書名:數據挖掘導論(Introduction to Data Mining)
做者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民郵電出版社
譯者: 範明 / 範宏建
出版年: 2010-12-10
ISBN: 9787115241009併發

第3章 探索數據

鳶尾花數據集

  • 數據來源
    加州大學歐文分校(UCI)機器學習庫鳶尾花數據集
  • 數據介紹
    包含150種鳶尾花信息,每50種取自三個鳶尾花品種之一:Setosa、Versicolour、Virginica。
    花的特徵有如下五種:
    1. 萼片長度(釐米)
    2. 萼片寬度(釐米)
    3. 花瓣長度(釐米)
    4. 花瓣寬度(釐米)
    5. 類(Setosa、Versicolour、Virginica)

彙總統計

彙總統計(summary statistics)是量化的(如均值和標準差),用單個數或數的小集合表示可能很大的值集的各類特徵。機器學習

頻率和衆數

考慮m個對象,這m個對象具備屬性x,x的取值集合爲{v1,...,vi,...,vk}。
則vi對應的頻率: frequency(vi) = 具備屬性vi的對象數/m
分類屬性的衆數(mode)是具備最高頻率的值。學習

百分位數

對於有序數據,考慮值集的百分位數(percentile)更有意義。具體來講,給定一個有序的或連續的屬性x和0與100之間的數p,屬性x的第p個百分位數xp是一個x值,使得x的p%的觀測值小於xp。動畫

位置度量:均值和中位數

對於連續數據,兩個使用最普遍的彙總統計是均值(mean)和中位數(median),它們是值集位置的度量。
考慮m個對象,這m個對象具備屬性x,x的取值集合爲{v1,...,vi,...,vk},且vi <= v(i+1),則
均值:
\[ mean(x) = \bar{x} = \frac{1}{m}\sum_{i=1}^{m}v_i \tag{3-1}\]
中位數:
\[ median(x) = \left\{ \begin{matrix}v_{r+1},m=2r+1\\ \frac{1}{2}(v_r + v_{r+1}),m=2r\end{matrix} \right. \tag{3-2} \]
歸納地說,若是奇數個值,則中位數是中間值;若是有偶數個值,則中位數是中間兩個值的平均值。
因爲均值對離羣值敏感,因此有時採用截斷均值(trimmed mean)。指定0和100之間的百分位數p,丟棄高端和低端的(p/2)%的數據,而後用常規的方法計算均值。中位數就是p=100時的截斷均值。spa

散佈度量:極差和方差

度量數據的集中程度。
最簡單的度量是極差(range)。給定屬性x,它具備m個值{\(x_1\),..,\(x_m\)},則極差:
\[ range(x) = max(x) - min(x) \tag{3-3} \]
更經常使用的度量是方差(variance)和標準差(standard deviation)。方差記做\(s_x^{2}\),標準差是方差的平方根,記做\(s_x\)。標準差和x具備相同的單位。
\[ s_x^{2} = \frac{1}{m-1}\sum_{i=1}^m(x_i - \bar{x})^{2} \tag{3-4} \]
注意,式(3-4)表示的是樣本方差,注意與整體方差進行區別。
因爲方差對離羣值敏感,因此有時會用到如下三種度量。
絕對平均誤差(absolute average deviation, AAD):
\[ AAD(x) = \frac{1}{m}\sum_{i=1}^m|x_i - \bar{x}| \tag{3-5} \]
中位數絕對誤差(median absolute deviation, MAD):
\[ MAD(x) = median(\{|x_1 - \bar{x}|,...,|x_m - \bar{x}|\}) \tag{3-6} \]
四分位數極差(interquartile range, IQR):
\[ IQR(x) = x_{75\%} - x_{25\%} \tag{3-7} \]對象

多元彙總統計

包含多個屬性的數據的位置度量,能夠經過分別計算每一個屬性的均值或中位數獲得。
對於每一個屬性的散佈狀況,更多的使用協方差矩陣(covariance matrix)S表示,其中,S的第ij個元素\(s_{ij}\)是數據的第i個和第j個屬性的協方差。這樣,若是\(x_i\)和\(x_j\)分別是第i個和第j個屬性,則:
\[ s_{ij} = covariance(x_i, x_j) \tag{3-8} \]
而其中,
\[ covariance(x_i, x_j) = \frac{1}{m-1}\sum_{k=1}^m(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}) \tag{3-9} \]
其中,\(x_{ki}\)和\(x_{kj}\)分別是第k個對象的第i和第j個屬性的值。
協方差的值接近於0,代表兩個變量不具備(線性)關係。
數據的相關性,能夠用相關矩陣(correlation matrix)來度量。相關矩陣的第ij個元素是數據的第i和第j個屬性之間的相關性。若是\(x_i\)和\(x_j\)分別是第i個和第j個屬性,則:
\[ r_{ij} = correlation(x_i, x_j) = \frac{covariance(x_i, x_j)}{s_is_j} \tag{3-10} \]
其中\(s_i\)和\(s_j\)分別是\(x_i\)和\(x_j\)的方差。ip

可視化

動機

  1. 讓人們可以快速吸收大量可視化信息,並發現其中的模式。
  2. 利用「鎖在人腦殼中」的領域知識,用非可視化的方式分析,用可視化的方式提供結果,由領域專家進行評估。

通常概念

  • 表示:將數據映射到圖形元素
    將數據對象、屬性,數據對象之間的聯繫表示成諸如點、線、形狀、顏色等圖形元素。
  • 安排
    正確合理地安排各項元素。
  • 選擇
    刪除或不突出某些對象和屬性。

技術

少許屬性的可視化

  • 莖葉圖(stem and leaf plot)
  • 直方圖(histogram)
  • 條形圖(bar plot)
  • 相對頻率直方圖(relative frequency histogram)
  • Pareto直方圖(Pareto histogram)
  • 二維直方圖(two-dimensional histogram)
  • 盒狀圖(box plot)
  • 餅圖(pie chart)ci

    可視化時間空間數據

  • 等高線圖(contour plot)
  • 曲面圖(surface plot)
  • 矢量圖(vector plot)
  • 低維切片
  • 動畫get

    可視化高維數據

  • 矩陣
  • 平行座標系(parallel coordinates)
  • 星形座標(star coordinates)
  • Chernoff臉(Chernoff face)it

注意事項

ACCENT原則:

  • 理解(Apprehension)
    正確察覺變量之間的關係。圖形可以最大化對變量之間關係的理解嗎?
  • 清晰性(Clarity)
    以目視識別圖形中全部元素。重要的元素或關係在視覺上最突出嗎?
  • 一致性(Consistency)
    根據之前的圖形的類似性解釋圖形。元素、符號形狀、顏色等與之前的圖形使用的一致嗎?
  • 有效性(Efficiency)
    用盡量簡單的方法描繪複雜關係。圖形元素的使用經濟嗎?圖形容易解釋嗎?
  • 必要性(Necessity)
    對圖形和圖形元素的須要。與其餘替代方法(表、文本)相比,圖形是提供數據的更有用形式嗎?爲了表示關係,全部的圖形元素都是必要的嗎?
  • 真實性(Truthfulness) 經過圖形元素的大小,肯定圖形元素所表明的的真實值。圖形元素能夠準確地定位和定標嗎?
相關文章
相關標籤/搜索